TU102のスペック情報がリーク他

DLSSのことについて調べている間にTU102の情報がリークしていたのですが、見逃していました。

まず前提として、一般の人向けに公開されている情報は、当サイトの記事「GPUについて」に書いてあることが全てです。

一応ここにも表を張っておきます。


	RTX2080Ti /FE	RTX2080 SUPER	RTX2080/FE	RTX2070 SUPER	RTX2070/FE	RTX2060 12GB	RTX2060 SUPER	RTX2060
製造プロセス GPU型番	TSMC12nm TU102-300A -K1-A1	TSMC12nm TU104-450-A1	TSMC12nm TU104-400-A1	TSMC12nm TU104-410-A1	TSMC12nm TU106-400-A1	TSMC12nm TU106-300-KA-A1	TSMC12nm TU106-410-A1	TSMC12nm TU106-200A -KA-A1
ダイサイズ	754mm2	545mm2	545mm2	545mm2	445mm2	445mm2	445mm2	445mm2
トランジスタ数	186億	136億	136億	136億	108億	108億	108億	108億
CUDAコア数	4,352	3,072	2,944	2,560	2,304	2,176	2,176	1,920
CUDAコア有効率	94%	100%	96%	83%	100%	94%	94%	83%
Tensorコア数	544	384	368	320	288	272	272	240
RTコア数	68	48	46	40	36	34	34	30
ベースクロック	1,350 MHz	1,650 MHz	1,515 MHz	1,605 MHz	1,410 MHz	1,470 MHz	1,470 MHz	1,375 MHz
ブーストクロック	1,545 / 1635 MHz	1,815 MHz	1,710 / 1,800 MHz	1,770 MHz	1,620 / 1,710 MHz	1,650 MHz	1,650 MHz	1,680 MHz
FP32 演算性能	13.45 TFLOPS	11.15 TFLOPS	10.07 TFLOPS	9.062 TFLOPS	7.465 TFLOPS	7.181 TFLOPS	7.181 TFLOPS	6.451 TFLOPS
メモリ容量・種類	11GB GDDR6	8GB GDDR6	8GB GDDR6	8GB GDDR6	8GB GDDR6	12GB GDDR6	8GB GDDR6	6GB GDDR6
メモリクロック	14 Gbps	15.5 Gbps	14 Gbps	14 Gbps	14 Gbps	14 Gbps	14 Gbps	14 Gbps
メモリバス幅	352-bit	256-bit	256-bit	256-bit	256-bit	192-bit	256-bit	192-bit
メモリ帯域幅	616 GB/s	496 GB/s	448 GB/s	448 GB/s	448 GB/s	336 GB/s	448 GB/s	336 GB/s
SLi	RTX NV Link	RTX NV Link	RTX NV Link	RTX NV Link	非対応	非対応	非対応	非対応
Thermal Design	250W/260W	250W	215W/225W	215W	175W/185W	185W	175W	160W
推奨電源容量	650W	650W	650W	650W	550W	550W	550W	500W
補助電源端子	8PX2	8PX1+6PX1	8PX1+6PX1	8PX1+6PX1	8PX1+6PX1	8PX1	8PX1	8PX1
接続IF	PCI Express3.0	PCI Express3.0	PCI Express3.0	PCI Express3.0	PCI Express3.0	PCI Express3.0	PCI Express3.0	PCI Express3.0
小売価格 (参考)	169,800	95,850	111,980	60,980	89,618	61,600	49,980	42,500
発売日	2018/09/27	2019/07/23	2018/09/20	2019/07/09	2018/10/17	2021/12/17	2019/07/09	2019/01/15
	RTX2080Ti /FE	RTX2080 SUPER	RTX2080/FE	RTX2070 SUPER	RTX2070/FE	RTX2060 12GB	RTX2060 SUPER	RTX2060

一般の人向けに対してはnVidiaの公式HPにある上の表のスペックがすべてとなります。

Tensorコアの数などは公式には公開されていません。

今日の話はnVidiaがGamesconで公開した資料に基づいたものです。

	TU102	RTX2080Ti (一部予測値)
SM	72	68
CUDAコア数	4608	4352(確定)
Tensorコア数	576	544
RTコア数	72	68
GEOMETRY UNIT	36	34
Texture Unit	288	272
ROP Unit	96	88
Memory	384bit/7GHz/GDDR6	352bit/-/GDDR6
NV Linkチャンネル数	2	2

上の様になっています。

TU102を使うRTX 2080 Tiは実際には恐らくは歩留まり向上のためにいくつかのユニット/ブロックが無効化されていますので上のフルスペックのTU102とは数が違います。

計算上、おそらく上の表で間違いありませんが、CUDAコアの数以外は公式発表されている物ではなく、私が計算したものなのでご了承ください。

RTコア数について公式で発表したのは恐らくこれが初めてなんじゃないかと思います。

nVidiaは9月14日に詳細な資料を発表するとしています。

これらの情報を含むかどうかまでは分かりません。

当サイトでは一応悪あがきしていますが(笑、一般の方はスペックを確定するのはそれまで待った方がよいでしょう。

もう一つのリークは、TuringはPascalより1.5倍のシェーディング性能を持つということです。

※シェーディングとは、光の角度と光源からの距離を考慮して色を変化させ、実写のような効果を得る処理を指します。レンダリング処理の一部です。もちろんゲームでは広く普通に使われています。

あくまでも相対性能ということです。

この話が本当なら、3DMarkなどのベンチマークでは1.5倍の値が出るとのこと。

つまりRTX2080はGTX1080の基本1.5倍の性能というのはここから出ているようです。

ここから4KやHDRでDLSSに対応しているかいないかでFPSに差が付き、RTXに対応している場合、表現で差が付くというようになるようです。

※　追記　シェーダーとRTXの関係

RTXがあればシェーダーはいらないのでは？と素人考えで思いましたが、どうもそうではないようです。

RTXが行っているレイトレーシングはほんの一部で、複雑なものは処理していないということ。

レイトレーシングで処理していない部分は従来の方法で処理しているので、このシェーダーの強化もRTX対応ゲームにおいて十分に全体の処理の高速化に恩恵があると思います。

これらの処理方法は実は従来のゲームとほとんど変わらないものであるということです。

これらを全部レイトレーシングで処理しようとすると商用映像の作成に使用する高額なハードウェアが必要になるということです。

これらの見解はRedshiftというプロ向けのレンダラーを出している会社の方が書いたものを参考にしてまとめてみました。

下に全文がありますので、3D CGに関する知識がある方はより深く理解できるものと思います。

結論は現状の技術ではゲームのリアルタイムレンダリングにはRTXと従来のシェーダー、両方必要であるということです。

従来の方式と何が違うのかと言えば、RTXを使用することによってゲーム映像の表現力が高くなるという認識で間違いは無いようです。

この解釈に対して間違いや誤解がある部分があったら指摘していただけると幸いです。

ソース：ボーンデジタル - 最近のリアルタイムレイトレーシングのデモに関するいくつかの考察

3DMark TimeSpy

3DMark TimeSpyがレイトレーシングに対応したバージョンを9月30日に公開するようです。

9月30日とするのはWindows10の大規模アップデートも考慮に入れてということのようですね。

やはりUL社は3DMarkの新バージョンを公開してきました。

これでますますRadeonとの差がついてしまいますが、AMDがレイトレーシング(DXR)についてどのようにするのか気になるところです。

RTコアの詳細が公開されていませんので、既存の何かで処理が代替できるものなのかどうかわかりませんが、AMDがレイトレーシングに対応しない場合、少なくともベンチマークレベルでスコアが出なかったり極端にスコアが落ちたりなどはっきり差がついてしまうことになります。

Turingはキャッシュも改良されている。

L1キャッシュの帯域幅：Pascal比2倍

L1キャッシュのレイテンシと容量：Pascal比2.7倍ということです。

L2キャッシュの容量：Pascal比2倍

ということになっています。L1/L2に関してはユニットごとの共有の仕方にも変化があるので、純粋に容量が増えていると言えないところがあると思うのですが、レイテンシが小さくなっているのは確実に性能の向上をもたらすでしょう。

実際どうなっているかは文字で説明するのが難しいのでソース元の画像を見ていただくのが一番早いと思います。

ソース：Videocardz - NVIDIA Turing gets a bigger L2 cache

全体のソース

Videocardz - Exclusive: NVIDIA GeForce RTX 2080 (Ti) Editors’ Day leaks

wccftech - NVIDIA’s Flagship Turing TU102 GPU For GeForce RTX 2080 Ti Detailed – 50% Faster Per Core Performance, 288 TMUs/96 ROPs on Full Die and New Overclocking Features

techpowerup.com - 3D Mark's Time Spy With Raytracing to be Launched by the End of September

※　続報が出ましたので、この記事を読まれた方はタグ「geforce」の最新の投稿を必ず確認するようにしてください。