AMDのRadeon RX 7900 XTXは、DeepSeek R1 AIモデルを卓越したパフォーマンスで実行し、推論ベンチマークでNVIDIAのGeForce RTX 4090を上回る。
AMD、DeepSeekのR1 LLMモデルのサポートを迅速に開始し、優れたパフォーマンスを提供
さて、DeepSeekの最新AIモデルは業界を席巻しており、モデルの学習に使用されるコンピューティング・リソースについて多くの人が疑問を抱いているが、AMDの「RDNA 3」Radeon RX 7900 XTX GPUを使用すれば、一般消費者でもモデルの実行に必要な十分なパフォーマンスを引き出すことができるようだ。
Team Redは、フラッグシップGPUであるRX 7000シリーズとNVIDIAの同等品を比較したDeepSeekのR1推論ベンチマークを公開しており、複数のモデルで優れた性能を示している。
DeepSeek performing very well on @AMDRadeon 7900 XTX. Learn how to run on Radeon GPUs and Ryzen AI APUs here: https://t.co/FVLDLJ18Ov pic.twitter.com/5OKEkyJjh3
— David McAfee (@McAfeeDavid_AMD) January 29, 2025
AIワークロード用のコンシューマー向けGPUは、メインストリームのAIアクセラレーターと比較して、以前は適切なperf/$の値を持っていたため、世の中の何人かの個人にとってはうまくいった。
また、ローカルでモデルを実行することで、DeepSeekのAIモデルで大きな懸念となっていたプライバシーも基本的に保護される。
幸いなことに、AMDはDeepSeek R1の蒸留をTeam RedのGPUで実行する方法に関する広範なガイドを発表しており、以下にその手順を紹介する:
ステップ1:Adrenalinドライバが25.1.1 Optional以上であることを確認してください。
ステップ 2: LM Studio 0.3.8 以上を lmstudio.ai/ryzenai からダウンロードする。
ステップ 3: LM Studio をインストールし、オンボード画面をスキップする。
ステップ 4: [discover] タブをクリックします。
ステップ 5: DeepSeek R1 Distill を選択します。Qwen 1.5Bのような小型のDistillは、非常に高速なパフォーマンスを提供します。いずれも非常に高性能です。
ステップ6:右側の画面で、量子化方式が 「Q4 K M 」になっていることを確認し、「Download 」をクリックします。
ステップ7: ダウンロードが完了したら、チャットタブに戻り、ドロップダウンメニューからDeepSeek R1 distillを選択し、「manual select parameters 」がチェックされていることを確認します。
ステップ8: GPUオフロードレイヤーで、スライダーを最大まで動かします。
ステップ 9: モデルのロードをクリックします。
ステップ10: ローカルのAMDハードウェアで完全に実行されている推論モデルと対話します!
上記の手順でうまくいかない場合は、AMDがYouTubeでチュートリアルを公開している。
あなたのデータが悪用されていないことを確認するために、YouTubeをチェックして、ローカルのAMDマシンでDeepSeekのLLMを実行してください。
NVIDIAとAMDの次期GPUでは、このようなワークロードを促進する専用のAIエンジンが搭載されていることから、推論能力が大幅に向上することが期待される。
解説:
話題のDeepseekはオープンソースでも公開されていますが、RX7900XTXならRTX4090より推論性能が高性能ということです。
ローカルLLMはChatGPTなどのWEBのLLMよりも性能が低いので念のためにお断りしておきます。
同じようには使えません。
DeepseekはCUDAではないそうですので、その関係もあってRX7900XTXの方が高速なのかもしれません。
いずれにしてもAI性能でRadeonがGeforceに勝つというのは今までなかったので、なかなか面白いニュースだと思います。
この結果はDeepseekをAMDのLM Studio上で実行した場合の話のようですね。
RDNA4とBlackwellでは更なる性能向上がもたらされることに触れられています。
さて、RDNA4はそろそろAI性能が爆発してもよい頃合いだと思うのですが・・・。