次世代NVIDIA GeForce RTX 4090シリーズに関する最近の噂では、AD102を搭載したグラフィックカードが100TFLOPsの壁を突破する最初のゲーミング製品になるかもしれないとのことです。
NVIDIA GeForce RTX 4090クラスのグラフィックスカードは、100TFLOPsの壁を突破する最初のゲーミング「AD102」GPUとなるかもしれない。
現在、NVIDIA GeForce RTX 3090 Tiは、すべてのゲーミンググラフィックスカードの中で最高の演算性能を発揮し、FP32(単精度)GPU演算で40~45 TFLOPsを記録しています。
しかし、今年後半に登場する次世代GPUによって、状況は大きく前進することになります。
https://twitter.com/kopite7kimi/status/1520046285667336193?ref_src=twsrc%5Etfw
https://twitter.com/greymon55/status/1520473548782927872?ref_src=twsrc%5Etfw
Kopite7kimiとGreymon55の噂によると、NVIDIAだけでなくAMDの次世代グラフィックスカードも100TFLOPsの大台に乗ると予想されているそうです。
これは、現世代のカードで大きな性能と消費電力のジャンプを見てきたコンシューマグラフィックス市場で、大きなマイルストーンとなることでしょう。
275Wが限界だったのが、350~400Wが標準になり、RTX 3090 Tiのような製品はすでに500Wを超える電力を消費しているのです。
次世代はさらに電力を消費するようになりますが、もし演算の数字が何かであれば、なぜそれだけの電力を消費するのか、その理由はすでに1つわかっているはずです。
このレポートの通り、NVIDIAのAda Lovelace GPU、特にAD102チップは、TSMCの4Nプロセスノードでいくつかの大きなブレークスルーを見せている。
以前の2.2~2.4GHzのクロックの噂と比べると、現在の推定では、AMDとNVIDIAのブースト速度は互いに似ており、2.8~3.0GHz程度になると見られる。
NVIDIAの場合は、合計18,432個のコアと96MBのL2キャッシュ、384-bitのバスインターフェイスを融合させる予定だ。
これを12GPCのダイレイアウトで、6TPC、1TPCあたり2SMの合計144SMを積層する。
2.8GHzの理論クロックに基づくと、最大103TFLOPsの演算性能が得られ、噂ではさらに高いブーストクロックが示唆されています。
これは、AMDのピーク周波数が平均的な「ゲーム」クロックよりも高いのと同様、ピーククロックのように聞こえるのは間違いない。
100TFLOPs以上の演算性能は、3090 Tiフラッグシップに対して2倍以上の馬力を意味する。
しかし、演算性能は必ずしもゲーム全体の性能を示すものではないことを念頭に置く必要がありますが、それにもかかわらず、ゲーミングPCにとっては大きなアップグレードとなり、現在の最速コンソールであるXboxシリーズXの8.5倍となるのです。
つまり、PCのハードウェア、特にグラフィックカードがより強力になることは間違いありませんが、そのパワーが次世代ゲーム、特にレイトレーシングや将来のグラフィック効果を備えた8Kタイトルを動かすために有効に活用されるのは素晴らしいことです。
AMD、Intel、NVIDIAの次期フラッグシップGPUのスペック(暫定版)
GPU名 | AD102 | Navi 31 | Xe2-HPG |
コードネーム | Ada Lovelace | RDNA 3 | Battlemage |
フラッグシップ | GeForce RTX 4090シリーズ |
Radeon RX 7900 シリーズ |
Arc B900 シリーズ |
製造プロセス | TSMC 4N | TSMC 5nm+ TSMC 6nm | TSCM 5nm? |
GPUパッケージ | モノリシック | MCD (マルチ・ チップレット・ダイ) |
MCM (マルチ・ チップレット・モジュール) |
GPUダイ | Mono x 1 | 2 x GCD + 4 x MCD + 1 x IOD |
4タイル (tGPU) |
GPUメガ クラスタ |
12 GPCs (グラフィック 処理クラスタ) |
6シェーダー エンジン |
10レンダー スライス |
GPUスーパー クラスター |
72 TPC (テクスチャ 処理クラスタ) |
30 WGPs ( MCD毎) 60 WGPs (合計) |
40 Xe-Cores (Tile毎) 160 Xe-コア (合計) |
GPU クラスター |
144 ストリーム マルチプロセッサー (SM) |
120 コンピュート ユニット(CU) 240 コンピュート ユニット (合計) |
1280 Xe VE (Tile毎) 5120 Xe VE (合計) |
コア数(ダイ毎) | 18432 CUDA コア数 |
7680 SP ( GCD毎) 15360 SP (合計) |
20480 ALUs (合計) |
ピーク クロック |
~2.85 GHz | ~3.0 GHz | 不明 |
FP32演算性能 | ~105 TFLOPs | ~92 TFLOPs | 不明 |
メモリタイプ | GDDR6X | GDDR6 | GDDR6? |
メモリ容量 | 24 GB | 32 GB | 不明 |
メモリバス幅 | 384-bit | 256-bit | 不明 |
メモリ速度 | ~21 Gbps | ~18 Gbps | 不明 |
キャッシュ サブシステム |
96 MB L2 Cache | 512 MB (Infinity Cache) | 不明 |
TBP | ~600W | ~500W | 不明 |
発売時期 | 2022Q4 | 2022Q4 | 2023 |
解説:
RTX4090TiはFP32演算性能が100TFLOPS越えへ
これ、どうなのでしょう。
AmpereはFP32演算性能は高いですが、ゲーム性能はさほど高くありません。
FP32演算性能だけを比較して同列に語ることはできないと思うのですが・・・。
Ampereのゲーム性能がFP32演算性能の割に低い原因はハッキリしていませんが、メモリの帯域が足りてないならば、RTX4000シリーズからは64bitバスあたり16MBの大容量キャッシュを搭載しますから、大幅にゲーム性能が上がる可能性はあると思います。
ただし、一時期まことしやかに語られていた「ゲームエンジンが増えたCUDAコアを使えてない」のが原因ならば、ちょっと古いゲームになると性能が伸びないという可能性もあります。
※ この説は最新のゲームでもAmpereの問題はまだ解決されていないので、間違っていると私は思います。単純にメモリ帯域が足りないのではないかと思います。
そのため、RX7900XTにゲーム性能で勝てるかどうかと言うのは正直微妙だと思います。
RDNA2もさほどFP32演算性能は高くはありませんが、RX6900XTはRTX3080Tiとほぼ同レベルのゲーム性能を持っています。
恐らく、nVidiaはRX7900XTにFP32演算性能で勝てるようにギリギリまでAD102のフルシリコンをOCして出荷するのでしょう。
それが、900Wとも言われるRTX4090Tiの莫大な消費電力に繋がっていると思います。
一方で、ゲーム向けで初のMCMを採用するRX7900XTはチップ間リンクで発生する遅延をどのように解決するのかによって癖のあるGPUになる可能性もあります。
限界ギリギリまで回して無理矢理RX7900XTに勝とうとするRTX4090Tiが吉と出るのか凶と出るのかは今の段階ではまだわかりません。
しかし、900Wと言う消費電力を聞くと、初期ロットは怖いなあと思うのは私だけでしょうか。(苦笑