INT32コア(浮動小数点演算命令と整数演算命令の同時実行)
Turingアーキテクチャでは新しい実行ユニット(INT32)が追加されています。
このユニットによってTuring-GPUは浮動小数点演算と非浮動小数点演算のプロセスを同時に実行できます。
nVidiaは理論的には(INT32コアを)36%追加するべきであるとしています。
また、共有L1キャッシュとテクスチャキャッシングの新しい統合設計により(浮動小数点演算命令と整数演算命令の)並列実行が可能になります。
nVidiaはINT32/FP32コアのデザインや新しいストリーミングマルチプロセッサの変更により「CUDAコア当たりのパフォーマンスが50%向上した」と主張しています。
新しいシェーディング処理の進歩
メッシュシェーディング - 頂点、テッセレーション、ジオメトリシェーディング用の新しいシェーダモデル(シーンごとのオブジェクトの数が増えます)
バリアブルレートシェーディング(VRS) - シェーディングレートを開発者側がコントロール(視覚効果をもたらさないシェーディングを制限する)
テクスチャ空間共有 - シェーディング結果をメモリに保存する(プロセスの共有作業を複製する必要はありません)
マルチビューレンダリング(MVR) - 単一パスでパスカルのシングルパスステレオをマルチビューに拡張
Turingのメモリ圧縮
Turingアーキテクチャは、新しいロスレス圧縮技術をもたらします。
NVIDIAは、最先端技術であるPascalアルゴリズムのさらなる改良により、Turingの実効帯域幅がパスカルと比較して50%増加したと主張しています。
ビデオおよびディスプレイエンジン
新しいビデオエンジンは、DisplayPort 1.4a(8K@60Hz)をサポートしています。
Turingグラフィックスカードは、DPまたはUSB-Cのいずれかを介して60Hzで2つの8Kディスプレイを表示することができます。
新しいエンジンは、NVENCエンコーダ(8K / 30FPSでH.265ストリームをエンコードすることが可能です)とHEV YUV444 10 / 12b HDR、H.264 8KおよびVP9 10/12 HDRサポート。
NVLINK(2-Wayのみ)
TU102 GPUには二つのx8第2世代NVLINKが搭載され、TU104には1つのx8リンクが搭載されています。
TU106はNVLINKをサポートしていません。
残念ながら、NVIDIAはTuringで3-Wayと4-WayのSLIサポートを終了することに決めました。
TU102 vs TU104 vs TU106
NVIDIA GeForce RTX 2070は、シリコンをフルに活用する新しいシリーズの唯一のグラフィックスカードです。
今まで推測されてきたように、TU104のいくつかのユニットを無効にしたものではありません。
NVIDIAは、新しいxx70モデルが実際にはTU106 GPUを搭載していることを発表しました。
仕様上、Turing TU102はTU106を2倍にしたものです。
TU104はクラスタごとに4つのTPCを搭載する唯一のTuringチップです(GPCあたり6つのTCPを持つTU102とTU106と異なります)。
TU106はミッドレンジチップなのか?
NVIDIA独自の命名規則によれば、TU106はミッドレンジチップとなります。
しかし、注目すべきことは、TU106 GPUがGP104(Pascal)に比べて131mm2大きいことです。
これは、NVIDIAがTU100をTU102に、TU102をTU104にそれぞれ扱いを変更したことを意味します。
ダイサイズを考慮すれば、TU106はもはやハイエンドチップになったと言ってもよいでしょう。
NVIDIA TURING GPUs | |||
---|---|---|---|
TU102 | TU104 | TU106 | |
製造技術 | 12nm FFN | 12nm FFN | 12nm FFN |
ダイサイズ | 754 mm2 | 545 mm2 | 445 mm2 |
トランジスタ数 | 18.6 Billion | 13.6 Billion | 10.6 Billion |
NVIDIA 型番 / フル機能製品 | Quadro RTX 6000 | Quadro RTX 5000 | GeForce RTX 2070 |
GPCs | 6 | 6 | 3 |
TPCs | 36 | 24 | 18 |
SMs | 72 (12 per GPC) | 48 (8 per GPC) | 36 (12 per GPC) |
Tensor Cores | 576 | 384 | 288 |
RT Cores | 72 | 48 | 36 |
FP32 Cores (CUDAs) | 4,608 | 3,072 | 2,304 |
INT32 Cores | 4,608 | 3,072 | 2,304 |
ROPs | 96 | 64 | 64 |
TMUs | 288 | 192 | 144 |
Memory Interface | 384-bit | 256-bit | 256-bit |
L2 Cache | 6144 KB | 4096 KB | 4096 KB |
解説:ついにnVidiaからTuringの詳細が明かされました。
RTX2070=TU106であることが確定し、RTX2070にNV-Linkが搭載されない理由もこれではっきりしました。
上でも述べましたが、
NVIDIAがTU100をTU102に、TU102をTU104にそれぞれ扱いを変更した
とありますが、こういう表現を見ると「ひょっとしたら7nmでTuringをシュリンクするのでは?」と思わせる表現です。
穿った見方かもしれませんが、「12nmではTU100となるチップはダイが大きくなりすぎて生産できなかったけど、いずれ7nmで生産する」文脈を読むとこんな風にも読み取れます。
Turing自体が7nmでシュリンクする可能性もあると指摘しているメディア(PC Gamer)もあったりして、かなりギリギリのマージンで生産している歩留まりなどを考える(推測する)と可能性は0ではないのかなと思います。
また、3-Way SLi、4Way-SLiは廃止されることに決定しました。
コスト的に言ってもあまりにもユーザーの負担が大きすぎて恐らくほとんど使われてこなかったのでしょうから、これはやむを得ないのかなと思います。
特に4-Way SLiはLGA2066/SocketTR4が必要なことを考えると本体+GPUで軽く100万円コースでしょう。
しばらくの間GTX1000シリーズと併売されることを考えれば、GTX2060以下のモデルは当面販売されないことも考えられます。
nVidiaの販売戦略的にはこれが一番ロスが無いのかもしれませんが、最低でもGTX2060はPascalの12nm+GDDR6版であって欲しかったところです。
※ 追記 もちろんTuringのコア数を減らしたダイである可能性もありますが、使われないコアが多いことがあり、意味があるように思えません。また、RTXやDLSSはハイエンド環境のためのものですから、下位のモデルでこれらの機能をオンにしても意味があるとは私は思わないです。RTXは2080TiですらもFullHDの60FPS以下が精いっぱいであることを考えると現行のロー・ミドルロー環境で搭載する意味は全くないでしょう。TensorとRTコアはおまけにしては図体がデカすぎますので、GTX2060はPascalのシュリンクになる可能性も0ではないと思います。
旧モデルを併売してメリットのある所はRadeonを旧モデルのセグメントに押し込めて価格を下げさせることが出来ることですね。
旧モデルを継続生産というのはあまり意味がないので、どこまでやるのかわかりません。
旧モデルを継続して生産するよりも12nmとGDDR6を使ってPascalをシュリンクしたほうがコストが安くつく可能性が高いからです。
しかし、ここまでくると本当に生産し続けるつもりなのではないかと勘繰ってしまいます。
これが在庫処分のためにやることなのか、ずっと生産する気なのか、Pascalを12nmにシュリンクする気は全くないのかあるのか気になるところです。
TuringにはRTXという付加価値がありますので、こうしたことも可能なのかなと思います。
nVidiaはintelやAMDと違って設計・生産・販売に至るまでの過程で目立った失敗をしてこなかった企業ですので、nVidiaが「こうする」と言えばほぼその通りに通ってしまうのが現実でしょう。
予定が変わらなかったというのはボードメーカー・ベンダーなどからも信用されているということですからね。
これによってユーザーの負担が増えることは確実です。
うーん。残念。
ソース:videocardz - The new features of NVIDIA Turing architecture