NVIDIA Ada Lovelace「GeForce RTX 40」ゲーミングGPUの詳細。Ampere、第4世代Tensor、第3世代RTコアの2倍のROPs、巨大なL2キャッシュ、50%増のFP32ユニット

GeForce RTX 40シリーズグラフィックスカードを搭載するNVIDIA Ada Lovelace Gaming GPUに関する詳細が明らかになりました。新情報はKopte7kimiからのもので、次世代アーキテクチャのブロック図について語られています。

NVIDIA GeForce Ada Lovelace GPU SMブロックダイアグラム詳細。より大きく、より良く、ゲーマーのために

NVIDIA Ada Lovelace GPUのアーキテクチャは、もはや謎ではありません。

GeForce RTX 40シリーズグラフィックスカードの次世代AD10*シリーズSKUを駆動する具体的な構成が判明し、ラインナップの仕様もリークされています。

さて、そろそろ純粋に次世代グラフィックスチップそのものについて語りたいところです。

NVIDIA AD102「Ada Lovelace」Gaming GPU「SM」ブロック図（ソース：Kopite7kimi）:

※　画像をクリックすると別Window・タブで拡大します

NVIDIA GA102 「Ampere」ゲーミングGPU「SM」ブロック図：

※　画像をクリックすると別Window・タブで拡大します

GPUの構成から、Kopite7kimiは、トップのAD102 GPUを、グリーンチームの他の様々なGPUと比較しています。

ゲーミングに特化した「Ampere GA102」や「Turing TU102」、HPCに特化した「Hopper GH100」や「Ampere GA100」などが追加されています。

HPCに特化した設計は、消費者向けの製品とは大きく異なるため、ここでは、AD102をゲーム用の先行製品と比較することにします。

NVIDIA Ada Lovelace AD102 GPUは、最大12 GPC (Graphics Processing Clusters)を搭載する予定です。

これは、GA102が7GPCしか搭載していないのに対し、70％増となる。各GPUは、6つのTPCと2つのSMで構成され、これは従来のチップと同じ構成です。

各SM（Streaming Multiprocessor）には4つのサブコアが搭載されますが、これもGA102 GPUと同じです。

変更点は、FP32とINT32のコア構成です。

各サブコアには128個のFP32が搭載されるが、FP32+INT32を合わせると最大192個になる。

これは、FP32ユニットがIN32ユニットと同じサブコアを共有しないためだ。

128個のFP32コアは、64個のINT32コアとは別になっている。

つまり、各サブコアは、128個のFP32ユニットと64個のINT32ユニットで構成され、合計で192個となる。

各SMは、FP32ユニット512個＋INT32ユニット256個、合計768個を搭載することになる。そして、SMは合計24基(GPCあたり2基)なので、FP32ユニット12,288基、INT32ユニット6,144基、合計18,432基のコアを持つことになる。

また、各SMには2つのWrap Schedules（32スレッド/CLK）が含まれ、SMあたり64ラップになります。

これはGA102 GPUと比較して、コア数(FP32+INT32)で50%、Wraps/Threadsで33%の増加となっています。

NVIDIA Ada Lovelace GPUのスペック「速報値」

GPU名	AD102	GA102	TU102	GA100	GH100
GPC	12 (Per GPU)	1.7x	2x	1.5x	1.5x
TPC	6 (Per GPC)	同じ	同じ	0.75x	0.67x
SM	2 (Per TPC)	同じ	同じ	同じ	同じ
サブコア	4 (Per SM)	同じ	同じ	同じ	同じ
FP32	128 (Per SM)	Same	2x	2x	同じ
FP32+INT32	192 (Per SM)	1.5x	1.5x	1.5x	同じ
ワープ数	64 (Per SM)	1.33x	2x	同じ	同じ
スレッド	2048 (Per SM)	1.33x	2x	同じ	同じ
L1キャッシュ	192 KB (Per SM)	1.5x	2x	同じ	0.75x
L2キャッシュ	96 MB (Per GPU)	16x	16x	2.4x	1.6x
ROP数	32 (Per GPC)	2x	2x	2x	2x

キャッシュに話を移すと、ここもNVIDIAが既存のAmpere GPUに対して大きなブーストをかけたセグメントだ。

Ada Lovelace GPUは、SMあたり192KBのL1キャッシュを搭載し、Ampereから50%増となる。

これは、トップのAD102 GPUでは、合計4.5MBのL1キャッシュを搭載することになる。

L2キャッシュは、リークにあるように96MBに増量される。

これは、6MBのL2キャッシュを搭載するAmpere GPUの16倍に相当する。

キャッシュはGPU全体で共有される。

最後にROPですが、こちらも1GPCあたり32個と、Ampereの2倍になっています。

Ampereの最速GPUであるRTX 3090 Tiでは112個しかなかったROPが、次世代フラッグシップでは最大で384個になります。

また、Ada Lovelace GPUには、最新の第4世代Tensorコアと第3世代RT（Raytracing）コアが搭載されており、DLSSとRaytracingのパフォーマンスを次のレベルに引き上げるのに役立ちます。

Ada Lovelace AD102 GPUは、全体として以下のような特徴を備えています。

2倍速GPC（対Ampere比）
50%増のコア数（対Ampere比）
50%増のL1キャッシュ(対Ampere比)
16倍のL2キャッシュ(対Ampere比)
2倍のROP（対Ampere比）
第4世代Tensorコアと第3世代RTコア

2～3GHz台と言われるクロックは方程式に取り込まれないので、対Ampereのコアあたりの性能向上にも大きな役割を果たすことになることに注意してください。

次世代ゲーミングGPU「Ada Lovelace」を搭載したNVIDIA GeForce RTX 40シリーズグラフィックスカードは、2022年後半に発売予定＆Hopper H100 GPUと同じTSMC 4Nプロセスノードを利用すると言われています。

NVIDIA CUDA GPU (噂) 暫定版：

GPU	TU102	GA102	AD102
アーキテクチャー	Turing	Ampere	Ada Lovelace
製造プロセス	TSMC 12nm NFF	Samsung 8nm	5nm
画像処理クラスタ(GPC)	6	7	12
テクスチャ処理クラスタ (TPC)	36	42	72
ストリーミングマルチプロセッサー (SM)	72	84	144
CUDAコア数	4608	10752	18432
理論演算値 TFLOPs	16.1	37.6	~90 TFLOPs?
メモリ種類	GDDR6	GDDR6X	GDDR6X
メモリバス幅	384-bit	384-bit	384-bit
メモリ容量	11 GB (2080 Ti)	24 GB (3090)	24 GB (4090?)
フラッグシップ SKU	RTX 2080 Ti	RTX 3090	RTX 4090?
TGP	250W	350W	450-850W?
発売日	2018年9月	2020年9月	2022年下半期 (不明)

ソース：wccftech - NVIDIA Ada Lovelace ‘GeForce RTX 40’ Gaming GPU Detailed: Double The ROPs, Huge L2 Cache & 50% More FP32 Units Than Ampere, 4th Gen Tensor & 3rd Gen RT Cores

解説：

LovelaceのGPUコンフィギュレーションがリーク

個人的に気になる個所は

「FP32ユニットがIN32ユニットと同じサブコアを共有しない」です。

AmpereはFP32演算性能の割にはゲーム性能が低かったのですが、根拠はないのですが、ここが関係しているのではないかと思っていました。

L2キャッシュについてですが、どこかに64bitバス幅当り16MBとあっと記憶しているのですが、全体で共有できるとのことでこれも過去に間違いを書いてしまったような気がします。

どうも「64bitバス幅で16MBを共有する」と言う意味ではなかったようです。

私はそう言う意味だと思っていたのですが、どうもこれも違うようですね。

INT32はGPUにはあまり重要ではないと思うのですが、これでドカンとゲーム性能が上がれば、「FP32ユニットがIN32ユニットと同じサブコアを共有しない」と言う部分が生きてきている証拠だと思います。

何れにしても大容量キャッシュとINT32コア問題を解決したLovelaceがどのくらいの性能を発揮するのか興味が尽きません。

[st_af id="7964"]

AD104 より:
2022年5月15日 10:02 AM
そして消費電力も2倍に…
性能上がっても消費電力も上がっちゃ意味が無いと思うのは私だけだろうか
Ampereはサムスンの8nm(改良型10nm)だから酷かったが、TSMCは消費電力に見合った性能であって欲しいな
- Mr.K より:
  2022年5月15日 4:30 PM
  900Wは私もイヤですよ。(苦笑
Furby より:
2022年5月15日 8:23 PM
最近のリアルタイムレンダリングでは直接的な色の演算以外でもコンピュートシェーダーでロジカルな処理かなり多くやってると思うのでInt32コア分は十分効いてきそうですね。まぁその分も消費電力のしわ寄せに来てそうですが...
- Mr.K より:
  2022年5月16日 5:58 AM
  みんな消費電力は気になるみたいですね。
  AmpereのIntとFPの共有の話を聞いたとき、性能に影響あるのではないかとずっと思っていました。