NVIDIA GeForce Ampere GPUの噂：サムスン10nmプロセスノード、Q4 2020ローンチ、RTX 2080 Tiより最大40％高速なRTX 3080 Ti、ラインアップ全体にわたるレイトレーシング

NVIDIAの次世代GeForceラインナップに関する噂のシリーズは、Ampere GPUアーキテクチャに基づいていると伝えられており、Twitterのさまざまなリーク元から登場しています。

膨大な量の情報は、今後のGPUアーキテクチャに何を期待するかを明らかにし、NVIDIAの次世代Ampere GPUファミリで得られるさまざまなGPU SKUの技術仕様についても言及しています。

NVIDIA次世代GeForce ‘Ampere’ GPUの噂-10nmプロセス、2020年第4四半期の発売、ラインアップ全体でのレイトレーシング、RTX 2080 Tiの後継機の最大40％高速化

NVIDIAのAmpere GPUファミリにはさまざまな噂がありますが、これまでのところ、NVIDIAは今後のファミリについて非常に厳しい意見を持っています。

Ampereが次世代のGPUのコードネームであるかどうかはわかりませんが、EECをパスしたさまざまなSKUは、結局はそうである可能性があることを示しているようです。

詳細を説明すると、まず第一に、これらのリークは、HPC製品のみに固有であった以前のリークと比較するべきではありません。

これらは、ここで言及されているGeForce製品とは異なり、異なるGPUアーキテクチャとまったく異なる製造プロセスを備えている場合があります。

これが解消されたため、Twitterからの2人のリーク情報提供者は、NVIDIAの次のGPUアーキテクチャはSamsung 10nmプロセスノードに使用し、以前に報告されたTSMCには対応しないと報告しています。

サムスンの新しい10nmプロセスノードは、NVIDIAの次世代GeForce GPUの製造に利用されます。

このプロセスは、サムスンが提供しなければならない8LPPテクノロジーに近いと言われていますが、EUVベースではありません。

「EUVはありません。GA102はテープアウトされています。これはSAMSUNG 10nmに基づいていました（8nmと呼べますか？）そして、新しいtegraは同じプロセスノードを使用します。」

-Kopite7kimi

以前、NVIDIAのCEOであるJensen Huangは、TSMCが7nm注文の大部分を処理し、Samsungが少数のGPU注文のみを受け取ると述べました。

NVIDIAは、この噂で言及されているような10nmの部品ではなく、7nmの部品を指しているのは理にかなっています。

TSMCが7nm GPUの大規模な注文を取得した場合、それはまったく異なるGPUである可能性があり、HPC指向のGA100 GPUはTSMCの7nmプロセスに基づいており、GeForce GPUはSamsung（10nm / 8LPP）ファブで製造される可能性があります。

同じプロセスは、NVIDIAの次世代GPUアーキテクチャ（Ampere）を利用するOrion SOCの作成にも使用されています。

噂のNVIDIA GeForce Ampere GPUラインナップ-ゲーマー向けのGA102、GA013、GA104、GA016およびGA107

さて、プロセスのうわさはさておき、GeForce GPUで起こっている憶測について話しましょう。

TwitterのKittyCorgiによると、GeForceのラインナップには、合計5つのAmpere GPUと、さまざまなコア構成を備えたそれぞれのSKUが搭載されます。

ラインナップの最上位のSKUは、TU102 GPUの後継となるGA102です。

残りのGPUとその前身については、以下で説明します。

NVIDIA GA102 – TU102 – GP102
NVIDIA GA103 – No Predecessor
NVIDIA GA104 – TU104 – GP104
NVIDIA GA106 – TU106 – GP106
NVIDIA GA107 – TU117 – GP107

NVIDIAの噂のGeForce Ampere GPU仕様がリークします。（画像クレジット：KittyCorgi）

これらの特定のGPUの詳細に入る前に、すべてのGPUはSamsung 10nm（8LPP）プロセスノードで作成されることに言及しています。

次世代NVLINK相互接続を介したSLIは、最上位のGA102ベースのグラフィックスカードでのみ利用可能です。

現在、この制限はTU104ベースのGPUを下回っているだけですが、NVIDIAは次世代アンペアパーツにさらなる制限を課しているようです。

NVIDIAはまた、すべてのGPUでRTX（リアルタイムレイトレーシング）を有効にします。

ローエンドのGA107パーツでさえ、Ampere GPUのRT設計にいくつかの重要なアーキテクチャの強化が加えられ、新しいカードでよりリアルタイムのレイトレーシングパフォーマンスが可能になります。

https://twitter.com/CorgiKitty/status/1237748855426310144?ref_src=twsrc%5Etfw

翻訳

驚くべきことに、次世代のチップはSamsung 10nmノードに基づいています

GA102が実際の仕様についてはあまり確固たるものではなく、2080Tiを40％上回るのに苦労するかもしれませんが、完全なTU102と比較した場合、その数値を下回るはずです。

SLiはGA102でのみ利用可能

すべてのユーザーにRTX

繰り返しになりますが、AmpereのFP32ユニットは2倍になりますが、2倍のラスタライズパフォーマンスの向上またはCUDAコアの数の2倍の増加にはなりません。

Ampere GPUは、ラスタライズとシェーディングのパフォーマンスを改善するだけでなく、レイトレースパフォーマンスのチューリングを大幅に改善します。

TuringはNVIDIAグラフィックカードでのレイトレーシングの第1世代の実装であったため、Ampereはさらに最適化し、RTおよびTensorコアの形でより多くのレイトレーシングハードウェアをオンボードで提供する予定です。

Ampere GPUは、次世代ゲーミングプラットフォーム向けに調整された次世代GPUアーキテクチャであるため、PCIe Gen 4.0のパフォーマンスを活用するためにも言及されています。

そして、Gen 4.0プロトコルからのより高い帯域幅と、NVLINKが不可欠な機能になります。

それでは、GPU構成について説明しましょう。

次世代のTitanおよびGeForce RTX 3080 Tiグラフィックスカード向けNVIDIA GA102-フラッグシップアンペアGeForce GPU

主力のGeForce GPUはGA102と噂されており、Titan RTXおよびRTX 2080 Tiグラフィックスカードで見ることができたチューリングベースのTU102 GPUの後継となるでしょう。

GPUは、5376個のCUDAコアに相当する84個のSMを備えています。

これは、Titan RTXに搭載された全脂肪TU102 GPUよりも16％多いCUDAコアです。

GPUは、384ビットバスインターフェイスで最大12 GBのVRAMをサポートできます。

※　クリックすると別Window・タブで開きます。

NVIDIAがGeForce RTX 3080 Tiで完全な構成を使用するのか、RTX 2080 Tiの後継と呼ばれるものを使用するのかは定かではありません

しかし、Turingに使用された現在の計画に従う場合、RTX3080Tiは5120 CUDAコアのより保守的なコア数を使用できますが、次世代Titanのフルダイでは5376コア構成が見られます。

これは、AIBカードのより高いクロック速度によって構成される大きな違いではないかもしれません。

GA102 GPUは、RTX 2080 Tiよりも最大40％高速であると言われていますが、これも比較されている完全な構成です。

GTX 1080 TiはTi以外のGTX 1080の兄弟と比べて大きくはなりませんが同じです。

NVIDIA GeForce RTX 3080グラフィックスカード-最大10 GB GDDR6、320ビットバス、GA103 GPU

前述のように、NVIDIA GeForce RTX 3080はGeForce RTX 2080の後継となります。合計60個のSMと64個のCUDAコアを備え、それぞれが3840個のCUDAコアを作成します。

これは、3072に設定されたRTX 2080のCUDAコアカウントの大きな飛躍であり、NVIDIAが高度なプロセスノードでチャーンできるクロック速度も考慮していません。

また、このカードは320ビットのバスインターフェイスを備えていると言われており、10または20 GBのGDDR6メモリをサポートできます。

NVIDIAがAmpereで観客を本当に吹き飛ばしたいのであれば、20 GBが最適です。

ただし、GDDR6メモリに関連する高いコストと、コンソール市場からの高い需要によるメモリ不足の迫り来るうわさを考慮する必要があります。

※　クリックすると別Window・タブで開きます。

控えめにして、10GBのGDDR6を考えてみましょう。これは、現在のGeForce RTX 2080よりも2 GB多いことになります。

今後のRTX 3080で16 Gbpsモジュールを検討すると、640GB/sの帯域幅が得られます。これは、256ビットバスインターフェイスと共に15.5 Gbpsのメモリを備えたRTX 2080 SUPERの496GB/sを超える非常に大きなものです。

NVIDIA GeForce RTX 3080は、RTX 2080 Tiよりも10％高速であると言われています。

RTX2080およびGTX 1080は、Ti製品より、わずかに高速（5％未満）でした。

NVIDIA GeForce RTX 3070グラフィックスカード-最大8 GB GDDR6、256ビットバス、GA104 GPU

3番目のカードはGeForce RTX 3070で、前述のとおり、GA104 GPUを搭載しています。

TU106ベースのGeForce RTX 2070の後継製品は、RTX 2080と同じCUDAコア数（3072）で、すべて48のストリーミングマルチプロセッサユニットに切り上げられることをお勧めします。

このカードには、8ビットまたは最大16 GBのGDDR6メモリを可能にする256ビットバスインターフェイスが搭載されていることが期待されますが、GDDR6の供給とコスト要因については、先ほど述べたことを考慮する必要があります。

※　クリックすると別Window・タブで開きます。

このGPUは、RTX 2080 Tiの95％のパフォーマンスを提供すると言われています。

これは、カスタムモデルとより高いファクトリー・オーバークロックでさらに向上されるでしょう。

これは、NVIDIAが500ドル未満で1200ドルのカードの性能を提供するカードを発売すること意味し、これはかなり印象的です。

最後に、メインストリームおよびバリュー・セグメントをターゲットとするGA106およびGA107 GPUがあります。

GA106 GPUは、192ビットバスインターフェイスで最大6 GBのメモリを備えた30個のSMまたは1920 CUDAコアを備え、128ビットバスインターフェイスで最大4 GBのメモリを備えた20 MSまたは1280 CUDAコアを備えています。

NVIDIA Ampere GPU「GeForce RTX 3080 Ti、RTX 3080、RTX 3070」の噂スペック比較：

GPU名	NVIDIA GeForce RTX 2070	NVIDIA GeForce RTX 2080	NVIDIA GeForce RTX 3070	NVIDIA GeForce RTX 3080	NVIDIA GeForce RTX 2080 Ti	NVIDIA GeForce RTX 3080 Ti
GPU アーキテクチャー	Turing TU106	Turing TU104	Ampere GA104	Ampere GA103	Turing TU102	Ampere GA102
製造プロセス	12nm FinFET NVIDIA (TSMC)	12nm FinFET NVIDIA (TSMC)	Samsung 10nm (8LPP)?	Samsung 10Nm (8LPP)?	12nm FinFET NVIDIA (TSMC)	Samsung 10Nm (8LPP)?
SMs	36	48	48	60	72	84
CUDA コア数	2304 CCs	3072 CCs	3072 CCs	3840 CCs	4608 CCs	5376 CCs
メモリ容量・種類	8 GB GDDR6	8 GB GDDR6	8/16 GB GDDR6	10/20 GB GDDR6	11 GB GDDR6	12 GB GDDR6
メモリバス幅	256-bit	256-bit	256-bit	320-bit	320-bit	384-bit
メモリ速度	14 Gbps	14 Gbps	16 Gbps?	16 Gbps?	14 Gbps	16 Gbps?
メモリ帯域幅	448 GB/s	448 GB/s	512 GB/s	640 GB/s	640 GB/s	768 GB/s
発売	2018	2018	2020	2020	2018	2020

おもしろいのは、これらの2枚のカードがGeForce RTX 3080 Tiに熱狂的な市場セグメントを再び吹き飛ばす余地を残していることです。

NVIDIAのAmpereアーキテクチャ全体がTuringよりも50％高いパフォーマンスを達成し、2倍の効率を提供するという報告が正しい場合、

これらの仕様が与えられているよりも、RTX 3070ははるかに低い価格でパフォーマンスを提供したり、RTX 2080 Tiよりも優れた性能を発揮することができます。

これらは本当にエキサイティングな詳細ですが、これらはすべて現時点では単なるうわさであることを覚えておく必要があります。

NVIDIAは、コロナウイルスの発生を考慮して、最近の年次GTC会議をライブWebキャストから単なるニュースリリースにプッシュする必要がありました。

これにより、主要なGPUのタイムラインと主要な発表が変更される可能性があるため、これらの仕様を100％正確とみなすには公式の確認を待つ必要があります。

ソース：wccftech – NVIDIA GeForce Ampere GPU Rumors: Samsung 10nm Process Node, Q4 2020 Launch, RTX 3080 Ti Up To 40% Faster Than RTX 2080 Ti, Ray-Tracing Across Entire Lineup

解説：

見えてきたnVidiaの戦略

今回のAmpereでHPC向けとゲーム向けでアーキテクチャーを分けない理由

今回のampereは当初VoltaのようなHPC向けのモデルといわれていました。

しかし、どうもこの情報を見るとそうでないように思えます。

つまり、設計そのものの本質は同じだったとしても、製造技術を変えることによって、CUDAコア数やダイサイズなどで差別化していくという方針のようです。

また、さすがにnVidiaもゲーム向けとしてはRTX2080Tiが高すぎると思ったのか、8192CUDAコアのGA100と比較するとかなり小さめの5120CUDAコアで+40%の性能を目指すようです。

そのため、RTX2080Tiと比較すると+40％にならない可能性が高いとのことです。

要するにあまり高くできないならば、そこそこの性能にとどめるということです。

極め付きはTSMCの7nmではなく、Samsungの10nm(7nmではない)を使うということです。

nVidiaはビッグダイを好みますが、歩留まりが悪化した場合、コストに直接跳ね返ってきます。

どうも噂で降りてくる仕様に幅がありすぎると思っていたのですが、何のことはない、「ゲーム向けのラインと、HPC向けのラインは明確に分ける」と考えているようですね。

この仕様はnVidiaのコスト重視の哲学にもピッタリ合致しており、また、高くなりすぎたRTX2080Tiの問題を解決するのにもぴったりです。

この仕様の意味するところ

この仕様の意味するところは、「高価な最先端のプロセスを使わなくても、AMDに対処するには十分である」という計算が働いているように見えます。

現実問題、Samsungの10nmを使って7nmのNavi10や7nm+を使うといわれているNavi20シリーズを抑えることができるならば宣言通り、ということになります。

高価なコストを負担しなくても、旧世代の技術で設計の優秀さで勝つということですよ。

真の最先端プロセスを使うのはAMDだけであり、nVidiaは優秀な設計によって、技術が枯れるのをゆっくり待つという戦略のようです。

逆にRTX3080TiがRTX2080Tiに+40%の差をつけるのが難しい仕様ならば、Big Naviで追い上げるチャンスともいえますので、是非ともAMDには頑張ってほしいところ。

次世代製品は両社の設計能力とコストに対する考え方が明確に分かれたものになるでしょう。

どちらが正解かは出てみないとわかりませ河、是非とも余裕をかますnVidiaに一泡ふかせてほしいところです。(笑

次世代はRTX標準

コスト増になるVRAMの増量をしてまで性能を上げるのは次世代はRTX標準にして早めにレイトレーシングの普及をしたいという思惑があるのだと思います。

おりしも、RadeonもRDNA第二世代でレイトレーシングに対応します。

Radeonの性能向上自体は苦々しく思っても、レイトレーシング対応のGPUが増えることは歓迎していると思います。

とにかくソフトが増えないと話にならないわけですから。

個人的にはRTX普及のカギは生産性の高いツールの登場だと思います。

ゲーム制作の現場も増え続けるコストの増大に悲鳴を上げているでしょう。

ゲームは映画と比較しても費やす時間が非常に大きい娯楽ですから、様々に作りこまなくてはならず、制作には莫大な費用が掛かります。

アセットコルサの制作元などは「無駄なのでレイトレーシングなんて使わない」とはっきり言ってますからね。

これは極端な例としても、やはり、レイトレーシングを早期に普及させたいならば、生産性で大きく差がつく質の高いツールが必要だと思います。