GPU情報

NVIDIA Ada Lovelace「GeForce RTX 40」ゲーミングGPUの詳細。Ampere、第4世代Tensor、第3世代RTコアの2倍のROPs、巨大なL2キャッシュ、50%増のFP32ユニット

更新日:

GeForce RTX 40シリーズグラフィックスカードを搭載するNVIDIA Ada Lovelace Gaming GPUに関する詳細が明らかになりました。新情報はKopte7kimiからのもので、次世代アーキテクチャのブロック図について語られています。

NVIDIA GeForce Ada Lovelace GPU SMブロックダイアグラム詳細。より大きく、より良く、ゲーマーのために

NVIDIA Ada Lovelace GPUのアーキテクチャは、もはや謎ではありません。

GeForce RTX 40シリーズグラフィックスカードの次世代AD10*シリーズSKUを駆動する具体的な構成が判明し、ラインナップの仕様もリークされています。

さて、そろそろ純粋に次世代グラフィックスチップそのものについて語りたいところです。

NVIDIA AD102「Ada Lovelace」Gaming GPU「SM」ブロック図(ソース:Kopite7kimi):

※ 画像をクリックすると別Window・タブで拡大します

 

NVIDIA GA102 「Ampere」ゲーミングGPU「SM」ブロック図:

※ 画像をクリックすると別Window・タブで拡大します

 

GPUの構成から、Kopite7kimiは、トップのAD102 GPUを、グリーンチームの他の様々なGPUと比較しています。

ゲーミングに特化した「Ampere GA102」や「Turing TU102」、HPCに特化した「Hopper GH100」や「Ampere GA100」などが追加されています。

HPCに特化した設計は、消費者向けの製品とは大きく異なるため、ここでは、AD102をゲーム用の先行製品と比較することにします。

NVIDIA Ada Lovelace AD102 GPUは、最大12 GPC (Graphics Processing Clusters)を搭載する予定です。

これは、GA102が7GPCしか搭載していないのに対し、70%増となる。各GPUは、6つのTPCと2つのSMで構成され、これは従来のチップと同じ構成です。

各SM(Streaming Multiprocessor)には4つのサブコアが搭載されますが、これもGA102 GPUと同じです。

変更点は、FP32とINT32のコア構成です。

各サブコアには128個のFP32が搭載されるが、FP32+INT32を合わせると最大192個になる。

これは、FP32ユニットがIN32ユニットと同じサブコアを共有しないためだ。

128個のFP32コアは、64個のINT32コアとは別になっている。

つまり、各サブコアは、128個のFP32ユニットと64個のINT32ユニットで構成され、合計で192個となる。

各SMは、FP32ユニット512個+INT32ユニット256個、合計768個を搭載することになる。そして、SMは合計24基(GPCあたり2基)なので、FP32ユニット12,288基、INT32ユニット6,144基、合計18,432基のコアを持つことになる。

また、各SMには2つのWrap Schedules(32スレッド/CLK)が含まれ、SMあたり64ラップになります。

これはGA102 GPUと比較して、コア数(FP32+INT32)で50%、Wraps/Threadsで33%の増加となっています。

NVIDIA Ada Lovelace GPUのスペック「速報値」

GPU名AD102GA102TU102GA100GH100
GPC12 (Per GPU)1.7x2x1.5x1.5x
TPC6 (Per GPC)同じ同じ0.75x0.67x
SM2 (Per TPC)同じ同じ同じ同じ
サブコア4 (Per SM)同じ同じ同じ同じ
FP32128 (Per SM)Same2x2x同じ
FP32+INT32192 (Per SM)1.5x1.5x1.5x同じ
ワープ数64 (Per SM)1.33x2x同じ同じ
スレッド2048 (Per SM)1.33x2x同じ同じ
L1キャッシュ192 KB (Per SM)1.5x2x同じ0.75x
L2キャッシュ96 MB (Per GPU)16x16x2.4x1.6x
ROP数32 (Per GPC)2x2x2x2x

キャッシュに話を移すと、ここもNVIDIAが既存のAmpere GPUに対して大きなブーストをかけたセグメントだ。

Ada Lovelace GPUは、SMあたり192KBのL1キャッシュを搭載し、Ampereから50%増となる。

これは、トップのAD102 GPUでは、合計4.5MBのL1キャッシュを搭載することになる。

L2キャッシュは、リークにあるように96MBに増量される。

これは、6MBのL2キャッシュを搭載するAmpere GPUの16倍に相当する。

キャッシュはGPU全体で共有される。

最後にROPですが、こちらも1GPCあたり32個と、Ampereの2倍になっています。

Ampereの最速GPUであるRTX 3090 Tiでは112個しかなかったROPが、次世代フラッグシップでは最大で384個になります。

また、Ada Lovelace GPUには、最新の第4世代Tensorコアと第3世代RT(Raytracing)コアが搭載されており、DLSSとRaytracingのパフォーマンスを次のレベルに引き上げるのに役立ちます。

Ada Lovelace AD102 GPUは、全体として以下のような特徴を備えています。

  • 2倍速GPC(対Ampere比)
  • 50%増のコア数(対Ampere比)
  • 50%増のL1キャッシュ(対Ampere比)
  • 16倍のL2キャッシュ(対Ampere比)
  • 2倍のROP(対Ampere比)
  • 第4世代Tensorコアと第3世代RTコア

2~3GHz台と言われるクロックは方程式に取り込まれないので、対Ampereのコアあたりの性能向上にも大きな役割を果たすことになることに注意してください。

次世代ゲーミングGPU「Ada Lovelace」を搭載したNVIDIA GeForce RTX 40シリーズグラフィックスカードは、2022年後半に発売予定&Hopper H100 GPUと同じTSMC 4Nプロセスノードを利用すると言われています。

NVIDIA CUDA GPU (噂) 暫定版:

GPUTU102GA102AD102
アーキテクチャーTuringAmpereAda Lovelace
製造プロセスTSMC
12nm NFF
Samsung 8nm5nm
画像処理
クラス
タ(GPC)
6712
テクスチャ
処理クラスタ
(TPC)
364272
ストリーミング
マルチプロセッサー
(SM)
7284144
CUDAコア数46081075218432
理論演算値
TFLOPs
16.137.6~90 TFLOPs?
メモリ種類GDDR6GDDR6XGDDR6X
メモリバス幅384-bit384-bit384-bit
メモリ容量11 GB (2080 Ti)24 GB (3090)24 GB (4090?)
フラッグシップ
SKU
RTX 2080 TiRTX 3090RTX 4090?
TGP250W350W450-850W?
発売日2018年9月2020年9月2022年下半期
(不明)

ソース:wccftech - NVIDIA Ada Lovelace ‘GeForce RTX 40’ Gaming GPU Detailed: Double The ROPs, Huge L2 Cache & 50% More FP32 Units Than Ampere, 4th Gen Tensor & 3rd Gen RT Cores

 

 

 

解説:

LovelaceのGPUコンフィギュレーションがリーク

個人的に気になる個所は

「FP32ユニットがIN32ユニットと同じサブコアを共有しない」です。

AmpereはFP32演算性能の割にはゲーム性能が低かったのですが、根拠はないのですが、ここが関係しているのではないかと思っていました。

L2キャッシュについてですが、どこかに64bitバス幅当り16MBとあっと記憶しているのですが、全体で共有できるとのことでこれも過去に間違いを書いてしまったような気がします。

どうも「64bitバス幅で16MBを共有する」と言う意味ではなかったようです。

私はそう言う意味だと思っていたのですが、どうもこれも違うようですね。

INT32はGPUにはあまり重要ではないと思うのですが、これでドカンとゲーム性能が上がれば、「FP32ユニットがIN32ユニットと同じサブコアを共有しない」と言う部分が生きてきている証拠だと思います。

何れにしても大容量キャッシュとINT32コア問題を解決したLovelaceがどのくらいの性能を発揮するのか興味が尽きません。

 

 

 

 

nVidia RTX3000シリーズGPU

RTX3090

 

RTX3080Ti

 

RTX3080 10GB LHR

 

RTX3070Ti

 

Geforce RTX3070 8GB GDDR6 LHR

created by Rinker
ZOTAC(ゾタック)
¥133,643 (2022/05/25 03:38:59時点 Amazon調べ-詳細)
created by Rinker
ZOTAC(ゾタック)
¥97,008 (2022/05/25 03:39:00時点 Amazon調べ-詳細)

 

RTX3060Ti 8GB GDDR6

 

RTX3060 12GB GDDR6

 

RTX2000シリーズ

RTX2060 12GB

RTX2060が12GBメモリを搭載して復刻

 

nVidia Geforce RTX1600シリーズ

GTX1650SUPER

 

GTX1650 GDDR6

 

 

 

 

 

-GPU情報
-,

Copyright© 自作ユーザーが解説するゲーミングPCガイド , 2022 All Rights Reserved.