AMDは、120万個のデータセンターGPUをベースにした巨大スーパーコンピュータ構築の引き合いを受けていることを明らかにした。
AMD、120万GPUスーパーコンピュータへの関与を明らかにし、次世代AIクラスターの誇大広告で「ゴールドラッシュ」を迎えるかもしれない
チーム・レッドは、次の “巨大な “クライアントを見つけたかもしれない。
同社は、なんと120万GPUを収容するAIクラスターの構築に関与する可能性があるという。
The Next Platformの取材に応じたAMDのデータセンター・ソリューション・グループ担当EVP兼GMのフォレスト・ノーロッド氏は、AMDは大量のAIアクセラレータの供給を必要とする「未知のクライアント」からの問い合わせを目にしていると主張し、このようなベンチャーを検討している人がいるかどうか質問された後にこのことを明らかにした。
TPM: 名前を挙げる必要はありません。MI500で120万GPUが必要だ、などと言ってきた人はいますか?
フォレスト・ノーロッド:その範囲で・・・ということならば、そうです。
TPM: “その範囲内です “とは言えないでしょう。実際の最大数は?
フォレスト・ノロッド:大真面目で、その範囲内です。
TPM: マシン1台分ですか。
フォレスト・ノロッド:はい、1台のマシンについてです。
TPM: ちょっと頭が混乱しますよ。
フォレスト・ノロッド:それはわかります。今考えられていることのスケールの大きさには驚かされます。さて、そのすべてが実現するのでしょうか?私にはわからない。しかし、非常に冷静な人たちが、数百億ドル、あるいは1,000億ドルをトレーニング・クラスターに費やすことを考えているという公的な報告があります。
フォレスト・ノーロッド – AMD EVP (The Next Platformより)
少し記憶を呼び覚まそう。それでも120万GPUは大した量ではないと思うのなら、現在世界最大のスーパーコンピューター「Frontier」は約3万8000GPUを使用しており、120万GPUが搭載されているということは、GPUだけでグラフィックの計算量になんと30倍もの開きがあることになり、これは衝撃的なことだ。
また、このような大規模なグラフィック・スタックの相互接続性だけを考えても、現代の技術では不可能かもしれない。
AIクラスターに120万個のGPUを搭載することは不可能だと思うか?いや、不可能だ。
フォレスト自身が言うように、「冷静な人々」は市場に存在する需要を促進するために、大規模なデータセンターの建設に何十億ドルも費やす用意がある。
スーパーコンピューターにAMDのAIアクセラレーターInstinct MI300Xを120万基搭載した場合、1基の価格を15,000ドル程度とすると、GPUだけでおよそ180億ドルかかることになる。
そして、そのようなスーパークラスターの電力要件も考慮していない。AIが今と同じペースで加速し続けるなら、このようなスーパーコンピューターが世界中に出現することになるだろう。
膨大な投資となり、完成までには何年もかかるだろうが、完成すれば、これらは地球上で最も高速なコンピューティング・プラットフォームのひとつとなるだろう。
NVIDIAのジェンセン・フアン最高経営責任者(CEO)は、データセンター分野は今後数年で1兆ドル規模の市場に成長する見込みだと述べており、マイクロソフトとOpenAIは1000億ドル規模のスーパーコンピューター「Stargate」の構築を計画していると噂されている。
大手ハイテク企業はNVIDIAではなくAMDを選ぶのだろうか?それは時間が解決してくれるだろう。
解説:
AMDが120万GPUのスーパーコンピューターの受注を交渉中か?
MI500世代で120万GPU・・・・というのは絶句するしかありません。
記事内のコスト計算ではMI300となっていますが、AMDの幹部の発言ではMI500となっていますね。
現在最高のGPUクラスタが3万8千とのことなので、それをはるかに越える規模ということになります。
120万GPUにかかる総額はMI300の価格で計算するとざっと180億ドル=2兆8千8百億円ということになります。
これだけの規模の受注ができるなら、ゲーム用のRadeonをキャンセルしてデータセンター用AIアクセラレータに注力しても仕方ないかなあと思います。
ゲーム用のGPUに関してはフレーム生成は1年遅れとかなり差がつけられています。
DLSS3のフレーム生成は1年遅れで実装できましたが、DLSS4でまた新しい技術が実装された場合、キャッチアップ出来なければまた差がつけられることになります。
ここまでデータセンター用AIアクセラレーターに注力しているAMDがRadeonでGeforceにキャッチアップできる余力があるのか?
一抹の不安を覚えるところです。
現実問題ROCmも6.1まではロンチされていますが、6.2以降は特に作業が進んでおらず、急増するMI300シリーズのユーザーの対応に追われているのではないかと邪推してしまいます(苦笑。
AIとゲーム、これらの関係性において、営利企業ならば利益率と受注金額が多いAIのほうに力を入れるのは仕方ないことなのかもしれません。
しかし、今のNVIDIAの躍進を見ると、ゲーム用のGPUをお留守にしている間に大差をつけられて追従できなくなるのではないかという不安をぬぐえないところです。