AMDは、RDNA 4 GPUアーキテクチャとモジュラーSoC設計、そして新しいメモリと帯域幅の圧縮技術について、さらに詳しく説明しました。
AMD RDNA 4 GPUアーキテクチャの概要と新しいモジュラーSoCの詳細がHot Chips 2025で発表されました。
今年2月に発表されたAMD RDNA 4アーキテクチャについては、既に詳細な情報を提供しています。
本日、AMDはさらに詳しい情報を提供しました。モジュラーSoCというチップの特性について詳しく説明する前に、注目すべき新機能についていくつかご紹介します。
AMDが強調した興味深い点の一つは、ローエンドのRDNA 4 GPU SoCにLPDDRメモリが採用されている点です。
AMDによると、LPDDRは消費電力は低いものの、それでも十分な帯域幅を提供できず、このようなチップに必要なショアライン(メモリ容量)が大きくなるため、パッケージサイズが大きくなるとのことです。
そのため、LPDDRはグラフィックカードには現実的な選択肢ではないのです。
※ 画像をクリックすると別Window・タブで拡大します。
RDNA 3と比較してメモリ帯域幅が低い理由について質問されたAMDは、メモリ帯域幅はワークロードに依存し、RDNA 4ではグラフィックスアーキテクチャに十分なチューニングを施し、帯域幅要件の低減に貢献したと述べました。
AMDがHot Chipsで発表したRDNA 4 GPUアーキテクチャの新たな詳細は、モジュラーSoCアーキテクチャに関するものです。
AMDのRDNA 4は柔軟なSoCチップとして設計されており、Radeon製品で使用できる様々な構成を生み出しています。
このセクションは、AMDのInstinct Data Center GPUのSOCアーキテクトであり、以前はRDNA 4および後継シリーズのSoCアーキテクチャチームを率いていたLaks Pappu氏によって発表されました。
つまり、RDNA 5 / UDNAシリーズでも、以下に詳述するように、同様のモジュラーSoCアプローチが採用されるようです。
まず、データフローチャートを見てみましょう。ここでは、Navi 4X SoCに搭載されている複数のシェーダエンジンを確認できます。
シェーダエンジンには、それぞれデュアルコンピュートユニットを備えた複数のWGP(ワークグループプロセッサ)が搭載されています。
これらのプロセッサは、GPU側のGL2キャッシュと、新しく改良されたInfinity Fabric(コヒーレントインターコネクト)を使用して、メモリコントローラおよびLLCと通信します。
SoC内には、LLCおよびデュアルチャネルメモリコントローラに加えて、複数のコヒーレントステーションが搭載されています。
メモリコントローラは、PCB上のDRAM(GDDR6)に接続されています。
Infinity Fabricは、1.5~2.5GHzの周波数範囲で、1KB/クロック(帯域幅)で動作します。
さて、より小型のSoCを生み出せるモジュラーSoC設計について見ていきましょう。
AMDは、チップのモジュール性がどこで途切れ、様々なSKUに拡張できるかを示すために赤い線を引いています。
赤い線の下の図のチップは、2つのシェーダーエンジンと4つのGDDR6(128ビット)メモリコントローラー、そして残りのIO/コントローラーを備えたNavi 44の構成です。
SoCアーキテクチャはスケールアップもスケールダウンも可能で、どちらの方法でも実現可能です。
次世代RDNA GPUでは、より大きなSoCが登場するかもしれません。
SE、L3、Infinity Fabricインターコネクト、GDDRメモリコントローラを追加するだけで、最上位のRX 9070 XTグラフィックスカードに搭載されているNavi 48などのハイエンドSKUにチップを拡張できます。
このモジュール構造により、より高いセキュリティレベルも実現され、コンポーネントセキュリティコントローラ、電源管理、MPI(u-controller)などの制御機能や異なるレベルの権限へのアクセスが可能になります。
RASは、このモジュラーダイの様々なコンポーネントに組み込まれています。
AMDは、RDNA 4 SoCの中核となる圧縮・解凍アルゴリズムについても詳しく説明しています。
新技術により、AMDのRDNA 4 GPUは、一部のラスターワークロードにおいて15%のパフォーマンス向上を実現し、ファブリック帯域幅を25%削減することで消費電力を削減するとともに、ソフトウェアが圧縮アルゴリズム(ハードウェアに完全に組み込まれている)を認識する必要性を排除しています。
※ 画像をクリックすると別Window・タブで拡大します。
AMDは、RDNA 4 GPU向けモジュラーSoC設計の柔軟性について改めて言及しています。
モジュラーアーキテクチャにより、AMDは市場の要件に基づいて複数の製品SKUを統合的に提供できます。
4つのハーベストレベルがあり、それぞれ異なる構成が可能です。
- SEハーベスト
- WGPハーベスト
- 非対称ハーベスト(重み付けPS分散と重み付けCS分散を含む場合があります)
- メモリデバイスハーベスト(単一デバイス粒度 / 64ビット粒度)
※ 画像をクリックすると別Window・タブで拡大します。
現在、AMD では 4 つの Navi 48 SKU と 3 つの Navi 44 SKU を提供していますが、RDNA 4 のモジュール式 SoC の性質により、将来の構成も可能になります。
解説:
RDNA4がモジュラーSoC構成をとっていることにより様々な利点があるという内容だったのですが、当初様々なCPUの統合グラフィックスとして組み合わせすることができるという意味なのだと思っていました。
どうも違うようで、GPUを柔軟に構成できるということのようです。
従来のGPUでもRDNA4のようにバリエーションはありましたので、おそらく、そういったGPUのバリエーションを設定するのに手間がかからなくなったくらいの意味なのだと思います。
RDNA4は時代遅れのGDDR6メモリを使っていますが、このモジュラーSoC方式を使うとメモリ帯域も節約できるようです。
そのため、コスト高要因となるGDDR7には敢えて行かずにGDDR6にとどまったものと思われます。
新技術により、AMDのRDNA 4 GPUは、一部のラスターワークロードにおいて15%のパフォーマンス向上を実現し、ファブリック帯域幅を25%削減することで消費電力を削減するとともに、ソフトウェアが圧縮アルゴリズム(ハードウェアに完全に組み込まれている)を認識する必要性を排除しています。
この辺りが該当部分だと思います。
中身を読むとユーザーからは見えにくい部分で、地味ですが、生産性やコストの低減においてかなり効果があるのではないかと思います。
コストをほとんど気にせず、最新技術をガンガン使い32bitの切り捨てなど思い切った改革を行い新しいAI技術にまい進するNVIDIAに対して地道な改革でコストの低減や生産性の向上を目指すAMDと対照的ですね。
RDNA4 vs Blackwell世代ではAMDに軍配が上がったように思います。
ゲーム性能はコスパも含めればある程度拮抗していると思いますので、カギを握るのはやはりAI性能なのではないでしょうか。
その中で一段大きな役割を果たすのはやはりROCmのように思いますので、AMDにはAPUに搭載されているNPUも含めたAI性能をROCmから統合的に活用できるように期待したいところです。
NPUはCopilot+のために作られたのでしょうが、現状では取っ散らかっているとしか言いようのない混沌とした状況になっているのではないでしょうか。
いずれ一つに統一されていくのでしょうが、せっかく搭載したNPUが時代のあだ花的な扱いにならないようにお願いしたいところです。