DLSSのことについて調べている間にTU102の情報がリークしていたのですが、見逃していました。
まず前提として、一般の人向けに公開されている情報は、当サイトの記事「GPUについて」に書いてあることが全てです。
参考記事:GPUについて
一応ここにも表を張っておきます。
RTX2080Ti /FE | RTX2080 SUPER | RTX2080/FE | RTX2070 SUPER | RTX2070/FE | RTX2060 12GB | RTX2060 SUPER | RTX2060 | |
製造プロセス GPU型番 | TSMC12nm TU102-300A -K1-A1 | TSMC12nm TU104-450-A1 | TSMC12nm TU104-400-A1 | TSMC12nm TU104-410-A1 | TSMC12nm TU106-400-A1 | TSMC12nm TU106-300-KA-A1 | TSMC12nm TU106-410-A1 | TSMC12nm TU106-200A -KA-A1 |
ダイサイズ | 754mm2 | 545mm2 | 545mm2 | 545mm2 | 445mm2 | 445mm2 | 445mm2 | 445mm2 |
トランジスタ数 | 186億 | 136億 | 136億 | 136億 | 108億 | 108億 | 108億 | 108億 |
CUDAコア数 | 4,352 | 3,072 | 2,944 | 2,560 | 2,304 | 2,176 | 2,176 | 1,920 |
CUDAコア有効率 | 94% | 100% | 96% | 83% | 100% | 94% | 94% | 83% |
Tensorコア数 | 544 | 384 | 368 | 320 | 288 | 272 | 272 | 240 |
RTコア数 | 68 | 48 | 46 | 40 | 36 | 34 | 34 | 30 |
ベース クロック | 1,350 MHz | 1,650 MHz | 1,515 MHz | 1,605 MHz | 1,410 MHz | 1,470 MHz | 1,470 MHz | 1,375 MHz |
ブーストクロック | 1,545 / 1635 MHz | 1,815 MHz | 1,710 / 1,800 MHz | 1,770 MHz | 1,620 / 1,710 MHz | 1,650 MHz | 1,650 MHz | 1,680 MHz |
FP32 演算性能 | 13.45 TFLOPS | 11.15 TFLOPS | 10.07 TFLOPS | 9.062 TFLOPS | 7.465 TFLOPS | 7.181 TFLOPS | 7.181 TFLOPS | 6.451 TFLOPS |
メモリ容量 ・種類 | 11GB GDDR6 | 8GB GDDR6 | 8GB GDDR6 | 8GB GDDR6 | 8GB GDDR6 | 12GB GDDR6 | 8GB GDDR6 | 6GB GDDR6 |
メモリクロック | 14 Gbps | 15.5 Gbps | 14 Gbps | 14 Gbps | 14 Gbps | 14 Gbps | 14 Gbps | 14 Gbps |
メモリバス幅 | 352-bit | 256-bit | 256-bit | 256-bit | 256-bit | 192-bit | 256-bit | 192-bit |
メモリ帯域幅 | 616 GB/s | 496 GB/s | 448 GB/s | 448 GB/s | 448 GB/s | 336 GB/s | 448 GB/s | 336 GB/s |
SLi | RTX NV Link | RTX NV Link | RTX NV Link | RTX NV Link | 非対応 | 非対応 | 非対応 | 非対応 |
Thermal Design | 250W/260W | 250W | 215W/225W | 215W | 175W/185W | 185W | 175W | 160W |
推奨電源容量 | 650W | 650W | 650W | 650W | 550W | 550W | 550W | 500W |
補助電源端子 | 8PX2 | 8PX1+6PX1 | 8PX1+6PX1 | 8PX1+6PX1 | 8PX1+6PX1 | 8PX1 | 8PX1 | 8PX1 |
接続IF | PCI Express3.0 | PCI Express3.0 | PCI Express3.0 | PCI Express3.0 | PCI Express3.0 | PCI Express3.0 | PCI Express3.0 | PCI Express3.0 |
小売価格 (参考) | 169,800 | 95,850 | 111,980 | 60,980 | 89,618 | 61,600 | 49,980 | 42,500 |
発売日 | 2018/09/27 | 2019/07/23 | 2018/09/20 | 2019/07/09 | 2018/10/17 | 2021/12/17 | 2019/07/09 | 2019/01/15 |
RTX2080Ti /FE | RTX2080 SUPER | RTX2080/FE | RTX2070 SUPER | RTX2070/FE | RTX2060 12GB | RTX2060 SUPER | RTX2060 |
一般の人向けに対してはnVidiaの公式HPにある上の表のスペックがすべてとなります。
Tensorコアの数などは公式には公開されていません。
今日の話はnVidiaがGamesconで公開した資料に基づいたものです。
TU102 | RTX2080Ti (一部予測値) | |
SM | 72 | 68 |
CUDAコア数 | 4608 | 4352(確定) |
Tensorコア数 | 576 | 544 |
RTコア数 | 72 | 68 |
GEOMETRY UNIT | 36 | 34 |
Texture Unit | 288 | 272 |
ROP Unit | 96 | 88 |
Memory | 384bit/7GHz/GDDR6 | 352bit/-/GDDR6 |
NV Linkチャンネル数 | 2 | 2 |
上の様になっています。
TU102を使うRTX 2080 Tiは実際には恐らくは歩留まり向上のためにいくつかのユニット/ブロックが無効化されていますので上のフルスペックのTU102とは数が違います。
計算上、おそらく上の表で間違いありませんが、CUDAコアの数以外は公式発表されている物ではなく、私が計算したものなのでご了承ください。
RTコア数について公式で発表したのは恐らくこれが初めてなんじゃないかと思います。
nVidiaは9月14日に詳細な資料を発表するとしています。
これらの情報を含むかどうかまでは分かりません。
当サイトでは一応悪あがきしていますが(笑、一般の方はスペックを確定するのはそれまで待った方がよいでしょう。
もう一つのリークは、TuringはPascalより1.5倍のシェーディング性能を持つということです。
※シェーディングとは、光の角度と光源からの距離を考慮して色を変化させ、実写のような効果を得る処理を指します。レンダリング処理の一部です。もちろんゲームでは広く普通に使われています。
あくまでも相対性能ということです。
この話が本当なら、3DMarkなどのベンチマークでは1.5倍の値が出るとのこと。
つまりRTX2080はGTX1080の基本1.5倍の性能というのはここから出ているようです。
ここから4KやHDRでDLSSに対応しているかいないかでFPSに差が付き、RTXに対応している場合、表現で差が付くというようになるようです。
※ 追記 シェーダーとRTXの関係
RTXがあればシェーダーはいらないのでは?と素人考えで思いましたが、どうもそうではないようです。
RTXが行っているレイトレーシングはほんの一部で、複雑なものは処理していないということ。
レイトレーシングで処理していない部分は従来の方法で処理しているので、このシェーダーの強化もRTX対応ゲームにおいて十分に全体の処理の高速化に恩恵があると思います。
これらの処理方法は実は従来のゲームとほとんど変わらないものであるということです。
これらを全部レイトレーシングで処理しようとすると商用映像の作成に使用する高額なハードウェアが必要になるということです。
これらの見解はRedshiftというプロ向けのレンダラーを出している会社の方が書いたものを参考にしてまとめてみました。
下に全文がありますので、3D CGに関する知識がある方はより深く理解できるものと思います。
結論は現状の技術ではゲームのリアルタイムレンダリングにはRTXと従来のシェーダー、両方必要であるということです。
従来の方式と何が違うのかと言えば、RTXを使用することによってゲーム映像の表現力が高くなるという認識で間違いは無いようです。
この解釈に対して間違いや誤解がある部分があったら指摘していただけると幸いです。
ソース:ボーンデジタル - 最近のリアルタイムレイトレーシングのデモに関するいくつかの考察
3DMark TimeSpyがレイトレーシングに対応したバージョンを9月30日に公開するようです。
9月30日とするのはWindows10の大規模アップデートも考慮に入れてということのようですね。
やはりUL社は3DMarkの新バージョンを公開してきました。
これでますますRadeonとの差がついてしまいますが、AMDがレイトレーシング(DXR)についてどのようにするのか気になるところです。
RTコアの詳細が公開されていませんので、既存の何かで処理が代替できるものなのかどうかわかりませんが、AMDがレイトレーシングに対応しない場合、少なくともベンチマークレベルでスコアが出なかったり極端にスコアが落ちたりなどはっきり差がついてしまうことになります。
Turingはキャッシュも改良されている。
L1キャッシュの帯域幅:Pascal比2倍
L1キャッシュのレイテンシと容量:Pascal比2.7倍ということです。
L2キャッシュの容量:Pascal比2倍
ということになっています。L1/L2に関してはユニットごとの共有の仕方にも変化があるので、純粋に容量が増えていると言えないところがあると思うのですが、レイテンシが小さくなっているのは確実に性能の向上をもたらすでしょう。
実際どうなっているかは文字で説明するのが難しいのでソース元の画像を見ていただくのが一番早いと思います。
ソース:Videocardz - NVIDIA Turing gets a bigger L2 cache
全体のソース
Videocardz - Exclusive: NVIDIA GeForce RTX 2080 (Ti) Editors’ Day leaks
techpowerup.com - 3D Mark's Time Spy With Raytracing to be Launched by the End of September