AMDは、Radeon RX 9000シリーズのためにゼロから構築された次世代GPUアーキテクチャ「RDNA 4」の全アーキテクチャの詳細をついに発表した。
AMD RDNA 4は、ゲーマーのためにゼロから設計されたGPUアーキテクチャです: 新しいコンピュート・ユニット、レイトレーシングおよびAIコア、パストレーシングへの対応
AMDのRDNA 4アーキテクチャは、従来のRDNA 3とそのアップグレード版であるRDNA 3.5が発表されて以来、非常に期待されてきた。
RDNA 4アーキテクチャーは、超マニアックなSKUが登場するわけではないが、主にゲームユーザー向けに設計されているため、ゲーム性能を向上させる全く新しい変更が加えられている。
そのため、AMDはRDNA 4に次のような新しい変更を加えました:
- ハイエンド・ゲーミング・ワークロード向けに大幅に最適化
- ラスタライズと演算効率の向上
- レイトレーシング性能の飛躍的向上
- 包括的な高性能MLサポート
- すべてのワークロードに対する帯域幅効率の向上
- ゲーマーとクリエイターのためのマルチメディアの向上
RDNA 2と比較して、RDNA 4 GPUは、ラスタライゼーションで2倍近く、レイトレーシングで2.5倍近く、ML(FP16密行列)ワークロードで3.5倍、それぞれコンピュートユニットあたり向上しています。
そこで次に、RDNA 4のアーキテクチャ・ブロック図の構成要素に飛び込み、チップ全体がどのように組み合わされているかを見てみよう。
RDNA 4の新しいコアIP
RDNA 4 GPUアーキテクチャーの中核となるビルディングブロックは、コンピュートエンジンです。
新しいコンピュートユニットには、デュアルSIMD32ベクトルユニットと強化された行列演算が搭載されています:
- 2x-16bおよび4x-8b/4bの密行列レート
- 4:2構造化スパースによる+2倍レート
- 新しい8b浮動小数点データ型
- トランスポーズ付き行列ロード
RDNA 4はまた、レジスタを動的に割り当てるRDNA 4シェードによる新しいシェーディングの改善も行っている。
必要なときにプールからレジスタを要求できる。その作業が完了すると、レジスタをプールに戻すことができ、割り当てに待ち時間が発生した場合の条件はソフトウェアが管理する。
この結果、共有コアの全体的な効率が大幅に向上する一方で、メモリ・レイテンシの処理が改善される。
スカラー・ユニット側では、新しいFloat32演算が追加され、スケジューリング・アップデートには、スプリット&ネームド・バリア、高速化されたスピル/フィル演算、命令プリフェッチの改善などが含まれる。
さらに、第3世代レイトレーシング・ユニットが、2倍のレイ交点レート、改良されたBVH圧縮、レイ・トラバーサルとシェーディングの高速化、
Oriented Bounding Boxesを提供します。
これらの新しいレイトレーシング・コアは、チップ上で最大級の性能向上を実現しています。
また、各レイ・アクセラレータは次のように改良されています:
- 2xボックス&トライアングル交差ユニット
- ハードウェア・インスタンス変換
- 改良されたRTスタック管理
- BVH8と改良されたノード圧縮
- 方向バウンディングボックス
※ 画像をクリックすると別Window・タブで拡大します。
これらの新しいレイトレーシングのアップグレードにより、BVHのメモリ要件も大幅に削減されました。
平均して、RDNA 4は、8ワイド設計のおかげで、RDNA 3に比べてメモリ要件を60%以下に削減します。
しかし、それだけではない。AMDは、各ボックスに回転をエンコードすることによって、含まれるジオメトリをよりタイトにバインドする一方で、ジオメトリにボックスをアライメントすることで、スペースの多くを削除することができ、レイの方向は、エンコードされた回転に合わせてボックスに入る際に変換されることで、トラバーサル・コストを削減する新しいソリューションも実装しました。
この結果、トラバーサルステップが減少し、トラバーサルのホットスポットがなくなることでピークコストが削減され、トラバーサル性能が10%向上しました。
これらの変更の結果、RDNA 4 CUは、同じクロックレートと帯域幅で、RDNA 3と比較して2倍の光線トラバーサル性能を提供します。
また、パケットアクセラレータが強化されたコマンドプロセッサも改良されました。
キャッシュもアップグレードされ、最大64MBの第3世代Infinityキャッシュ、8MBのL2キャッシュ、2MBのAggregate CUキャッシュと、よりバランスの取れたものとなっている。
メモリ面では、RDNA 4 GPUアーキテクチャはGDDR6サポートを維持しながら、256ビットのバスインターフェイスとともに最大16GBの容量で最大20.00Gbpsの高速にアップグレードされています。
RDNA 4はまた、利用可能な帯域幅へのストレスを軽減するため、強化されたメモリ圧縮技術を採用しています。
AI向けに、AMDは第3世代マトリックス・アクセラレーション・エンジンを活用しており、改良されたテンソル密集レート、新しい8b浮動小数点データ型、構造化スパース性サポート、MLベースのアップスケーリングまたは超解像が搭載されている。
※ 画像をクリックすると別Window・タブで拡大します。
RDNA 3 と比較して、RDNA 4 CU は FP16 を使用した正規化シナリオにおいて、画像生成性能(SDXL 1.5)を 2 倍向上させた。
※ 画像をクリックすると別Window・タブで拡大します。
メディアエンジンはデュアルワイド設計に移行し、エンコード/デコードエンジンが更新され、AVC、H.264、H.265の品質が最大25%向上し、AV1のスループットが2倍になり、低遅延ストリーミング用に最適化されています。
最後に、DisplayPort 2.1a、HDMI 2.1b出力をサポートし、スケーリングと鮮明化エンジンを更新したRadianceディスプレイエンジンがあります。
RDNA 4ブロックダイアグラム(トップナビ48ダイ)
次に、完全なNavi 48 GPU SKUを表すRDNA 4ブロック図に移ります。
RDNA 4 GPUはTSMC 4nmプロセスノードで製造され、最大539億トランジスタを搭載し、SKUのサイズは356.5mm2です。
このチップはPCIe Gen5にも完全準拠している。
さて、いよいよRDNA 4チップを分解してみよう。
Navi 48 GPU(Radeon RX 9070 XT)は4つのシェーダーエンジンで構成され、それらの各エンジンにはWGPではなく複数の「デュアル・コンピュート・ユニット」が搭載されている。
各デュアル・コンピュート・ユニットは2つのコンピュート・ユニットを備えており、1つのシェーダー・エンジンあたり合計8つのDCUまたは16のCUがあります。
つまり、チップ自体には合計32個のDCUまたは64個のCUがあり、合計4096個のストリームプロセッサーまたはシェーダーユニットがあることになる。
各DCUは2つのレイ・アクセラレータ・エンジンを搭載し、シェーダー・エンジンあたり合計16RA、合計64RAを処理します。
また、各DCUは4つのマトリックス・アクセラレータ・エンジンを搭載し、シェーダー・エンジンあたり合計32MA、合計128MAを処理します。
また、各シェーダーエンジンには4つのRB+ブロック、ラスタライザーエンジン、プリムユニットブロックが搭載されている。
チップの外側には、4つのセクションの第3世代Infinityキャッシュと4つの4×16ビットメモリコントローラがある。
L2キャッシュはGPUの中央にあり、2つのジオメトリ・プロセッサ、2つのACEユニット、各1つのHWSとDMAも搭載している。
チップはInfinity Fabricを使って接続されている。
AMDに待ち受けるパストレーシングの未来
レイトレーシングは、PCゲーム分野では時代遅れの用語とみなされることが多い。
確かに、シーンをよりリアルに見せるために光線をトレースする方法の1つであり、コンソール空間ではようやく普及し始めたばかりだが、競合他社はパストレーシングと呼ばれる別のタイプのレイトレーサーを使用していることが多い。
レイトレーシングが単一のプライマリ光線を使用して光源に反射、影、屈折を投影するのに対し、パストレーシングはすべての可能な光の経路を使用し、より高価な技術です。
NVIDIAのパストレーシングのノウハウは、『サイバーパンク2077』や『アランウェイクII』のようなゲームに見ることができます。
アップスケーリングやフレームジェンなどの新しい技術によってパストレーシングを使用することが可能になったが、Greenチームは、エンジン内のノイズ除去装置を取り除き、AI/MLを使用して画像の再評価と再構成を支援することで、より効率的にパストレーシングを実現するレイ再構築と呼ばれるまったく新しい技術にも投資した。
AMDもまた、RDNA 4のパストレーシング機能のために、独自のニューラル・スーパーサンプリングとノイズ除去技術でこのアプローチを踏襲しているようだ。
メディアとディスプレイ機能のアップグレード
メディアエンジンとディスプレイエンジンについて語らずには、このディープダイブを終えることはできない。
そこでまず、新しいメディアエンジンを紹介しよう。これは、ゲームのストリーミングと録画を強化するものだ:
- H.264低遅延エンコード品質の25%向上
- HEVCエンコード品質の11%向上
- BフレームによるAV1エンコード効率の向上
- 720pで最大30%のエンコード性能向上
- FFMPEG、OBS、Handbrake用に最適化
- VCN低消費電力ビデオ再生(AV1およびVP9のパフォーマンスが50%向上)
また、ほとんどの2ディスプレイ構成でアイドル時の消費電力を低減するFreeSync Power Optimizationモードの強化、ビデオ・フレーム・スケジューリングをGPUにオフロードし、ビデオ再生時のCPUパワーを節約するハードウェア・フリップ・キューのサポート、Radeon Image Sharpening 2による高品質な画像とシーンの提供、単一のトグルによるすべてのAPIでの動作など、ディスプレイ体験も向上しています。
AMD Radeon RX 9000グラフィックス・カードとFSR 4テクノロジーについては、それぞれのリンク先でもご覧いただけます。
解説:
思ったより素晴らしいRDNA4のアーキテクチャー
Navi41/42がキャンセルされたので正直あまり良い世代にならないと思っていたRDNA4ですが、中身を見るとやるべきことをやってきた非常に素晴らしい世代なのかなと思います。
特に私はローカルPCで生成AI使っている関係上、AI関連の処理に関してどのようになっているのかが非常に気になっていたのですがFP8/BF8にもちゃんと対応していますし、かなり良い性能になるのではないかと思います。
AI関連の性能に関しては一世代上がるごとにかなり向上します。
AI関連の性能に関してはAMDは完全にNVIDIAの1世代遅れになっています。
例えば、RDNA2はGTX1600/RTX2000世代相当、RDNA3はRTX3000相当、RDNA4はRTX4000世代に相当するのではないかと思います。
もちろん綺麗にそのようになっているわけではないですがおおよそということです。
RDNA4世代でレイトレーシング性能もようやくGeforceに追いついてきました。
もっとも、Blackwellに関してはまだ一般ユーザーの手元には届いていなく、どのくらい進化したのかの声はほとんど聞こえてきません。
ホビー向け一般個人AI用途に関するBlackwellの情報が出回ってきたらまた印象が変化すると思います。
RDNA4は非常に素晴らしいホビー向け一般個人AI性能を持っていると思いますが、問題なのはHIP SDKなりROCmなりで実装タイミング、実装機能でどのくらいハードの性能を発揮できるかです。
ROCmはAMDの最重要なソフトウェアということで、非常に力を入れており、RDNA3の時は発売から6か月前後で対応を果たしましたが、RDNA4ではどの程度で対応してくるのかは注目です。