ここでは、Nvidiaの次世代GPUアーキテクチャ「Blackwell」についてわかっていることと期待されることを紹介する。
次世代のNvidia Blackwell GPUアーキテクチャーとRTX 5000シリーズGPUが、予定通り登場する。
Nvidiaは、コンシューマー向けパーツがいつ発表されるかのタイムフレームを公式には提示していないが、多くの噂やデータのリークと思われるものがある。
我々も何人かに話を聞いたところ、ホリデーシーズンが始まる10月か11月までに、少なくともRTX 5090とRTX 5080が発表されるだろうと予想されている。
Blackwell GPUはその後、最高のグラフィックカードの仲間入りをすることになる。
Nvidiaはまた、データセンター向けBlackwell B200 GPUの中核となる詳細の多くを提供している。
AIとデータセンターのバリエーションは必然的に異なるが、過去のコンシューマー向けとデータセンター向けNvidia GPUの間には共有される部分があり、今後もそれが続くと予想される。
つまり、将来のRTX 5000シリーズGPUのある側面について、少なくとも良い兆候があるということだ。
実際の内部情報ではなく、壁に向かってダーツを投げているようなリーク情報もあり、まだ不明な点も多い。
我々は、リリース日、潜在的な仕様、および他の技術を含む他の詳細と一緒に主要な噂をカバーします。
今後数ヶ月の間に、さらなる詳細が明らかになることが予想されるため、情報が入手可能になり次第、この記事を更新する予定だ。これが、Nvidia BlackwellとRTX 5000シリーズGPUについて分かっていることのすべてだ。
BlackwellとRTX 5000シリーズの発売日
すべての未知のものの中で、少なくとも最初のBlackwell GPUについては、発売日を特定するのが最も簡単だ。
我々が個人的に聞いたところによると、RTX 5000シリーズは年内に発売されると予想している。
Nvidiaは新しいGPUリリースのタイミングに長けている傾向があり、11月と12月のホリデーショッピング期間前にトップモデルのRTX 5090と5080を発売するのが最も理にかなっている。
ここには歴史的な前例もたくさんある。
Ada Lovelace=RTX 4000シリーズGPUは2022年10月に初登場した。
Ampere=RTX 3000シリーズGPUは2020年9月に初登場した。
それ以前には、RTX 2000シリーズが2年前の2018年9月に発売され、GTX 10シリーズは2016年5月/6月、GTX 900シリーズは2014年9月に登場した。
つまり、Nvidia GPUの新アーキテクチャは丸10年間、およそ2年ごとに登場しており、Nvidiaが今、戦術を変える理由は見当たらない。
これは2年ごとのコンシューマー向けGPUのペースに限った話ではない。
Nvidiaは2022年3月、年次GPU技術会議(GTC)でHopper H100アーキテクチャのコアディテールを初めて公開し、Ada Lovelaceは2024年10月に登場する。
そして2020年5月にはAmpere A100アーキテクチャを初めて公開し、その数カ月後にはコンシューマー向けバリエーションも公開した。
2018年にも同じようにVolta V100とTuringがあり、2016年にはTesla P100とPascalがあった。
つまり、過去4世代では、まずデータセンター向けとAI向けGPUが発表され、同じ年の後半にコンシューマー向けGPUが発表・発売されてきた。
現在、NvidiaはBlackwell B200アーキテクチャをGTCで公開したばかりであり、この秋にコンシューマー向け製品について発表されるのは間違いないだろう。
Nvidiaが計画している次世代Blackwell製品の正確な名称やモデルはわかっていない。
我々は、RTX 5090、RTX 5080、RTX 5070、RTX 5060カード、そしておそらくTiおよび/またはSuperモデルのいくつかの組み合わせがあると確信している。
2025年後半または2026年前半のミッドサイクル・リフレッシュの間に、これらのモデルのいくつかが間違いなく登場するだろう。
また、NvidiaがRTX 5050 GPUを用意するかどうかも気になるところだ。
Nvidiaは、デスクトップでは4000シリーズと2000シリーズでこのレベルをスキップしたが、後者にはGTX 1660と1650クラスのGPUがあった。
過去のパターンを踏まえると、少なくともトップクラスのRTX 5090と5080が今年登場し、おそらくRTX 5070 Tiがそれに続くことになるだろう。あるいは、NvidiaはRTX 5090、RTX 5080 Ti、RTX 5080を今年発売するかもしれない。
その後、典型的な時差リリーススケジュールで、おそらく2025年のいつか、中間グレードの(モデル番号に基づく)5070と5060 GPUが続くだろう。
TSMC 4NP、洗練された4nm Nvidia
GTC 2024での驚くべき発表の1つは、Blackwell B200がTSMCの4NPノード(”4nm Nvidia Performance”)を採用するというものだった。
多くのプロセス名が物理的特性からほとんど切り離されたものになっているのは確かだが、多くの人がNvidiaがTSMCの最先端N3プロセス技術を改良したものに移行すると予想していた。
その代わりに、Nvidiaは、過去2年間HopperとAda Lovelace GPUですでに使用されている既存の4Nノードの改良を選択した。
TSMCは、様々なパートナーとの契約価格契約を開示していないが、この路線をとることで、ある程度のコスト削減が可能であることは確かだ。
Blackwell B200もデュアルチップ・ソリューションを採用しており、2つの同じチップが10TB/秒のNV-HBI(Nvidia High Bandwidth Interface)接続でリンクされている。
おそらくNvidiaは、この世代で3nmクラスのノードに移行する必要はないと考えたのだろう。
しかし、このことは、AMDやインテルでさえも、より新しく先進的なプロセス・ノードに移行し、より小さなチップにより多くのトランジスタを詰め込む可能性があることに道を開くことになる。
NvidiaはRTX 3000シリーズで同様のアプローチを取り、より新しく優れたTSMC N7ではなく、より安価なサムスン8Nプロセスを使用した。
これが様々な次世代GPUのスタックアップに大きな影響を与えるかどうか、興味深いところだ。
もちろん、Blackwell B200のバリエーションがTSMC 4NPを使用し、コンシューマー向けチップが別のノードを使用する可能性もある。
その多くは、データセンター向けとコンシューマー向けでコアアーキテクチャをどの程度共有するか、またNvidiaが多様化することが有益だと考えるかどうかにかかっている。
Ampere A100はTSMC N7を使用し、RTX 3000シリーズチップはサムスン8Nを使用した。
GTX 10シリーズのPascal GP107とGP108もサムスンの14LPPで製造され、GP102、GP104、GP106はTSMC 16FFで製造された。
次世代GDDR7メモリ
コンシューマー向けおよびプロフェッショナル向け(つまり厳密にはデータセンター向けではない)Blackwell GPUがGDDR7メモリに移行することは以前から予想されていた。
GTC 2024からのすべての指示は、GDDR7が年末までに次世代GPUに間に合うというものだ。
実際、サムスンとSK hynixはGTCでGDDR7チップを披露し、マイクロンもGDDR7が生産中であることを確認した。
現世代のRTX 40シリーズGPUはGDDR6XとGDDR6メモリを使用しており、クロックは17Gbpsから23Gbpsだ。
GDDR7の目標速度は最大36Gbpsで、GDDR6Xより50%高速で、バニラGDDR6より80%高速です。
SKハイニックスは、40Gbpsのチップも用意すると述べているが、それがいつ利用可能になるかの正確な時期は明らかにされていない。
いずれにせよ、これはあらゆるレベルのメモリ帯域幅に待望のブーストをもたらすだろう。
もちろん、Nvidiaが実際に36Gbpsクロックのメモリを搭載したカードを出荷するかどうかはわからない。
過去にNvidiaは24GbpsのGDDR6Xチップを使用したが、クロックは22.4Gbpsまたは23Gbpsだった。
そのため、Nvidiaは36Gbpsのメモリを32Gbpsでしか動作させることができなかった。
それでも、帯域幅は健全に向上している。
36Gbpsの場合、384ビットGDDR7メモリインターフェイスは1728GB/秒の帯域幅を提供できる。
これはRTX 4090で現在得られているものより71%高い。256ビットのインターフェイスでは、4080 Superの736 GB/秒に対して1152 GB/秒となり、57%の向上となる。192ビットカードでは864 GB/秒、128ビットカードでも576 GB/秒の帯域幅が得られる。
Nvidiaは、432GB/秒の帯域幅を持つ96ビットのインターフェイスを開発するかもしれない。
また、NvidiaはBlackwellでも大容量のL2キャッシュを使用し続けると予想される。
これにより、さらに効果的なメモリ帯域幅が提供されます。
つまり、キャッシュがヒットすれば、メモリアクセスは必要ありません。
ただし、ヒット率はゲームや設定によって異なり、特に高解像度ではヒット率が低下することに注意してください。
GDDR7はまた、メモリ容量対インターフェイス幅の問題にも対処する可能性がある。
GTCでは、16Gbチップ(2GB)が生産中だが、24Gb(3GB)チップも登場すると聞いた。
パワー・オブ・ツーでない容量の大きなチップは、おそらく2025年まで用意されないだろうが、それらは下層の部品にとってより重要になるだろう。
32GBのRTX 5090(512ビットインターフェース)が登場する可能性はあるが、コンシューマー向けグラフィックカードに24GB以上のメモリを搭載する差し迫った必要性はない。
ゲーム用には、256ビットインターフェースの16GBでも一般的に十分です。
しかし、24ギガバイトのチップが利用可能になるということは、Nvidiaが(AMDやIntelとともに)192ビットのインターフェイスに18ギガバイト、128ビットのインターフェイスに12ギガバイト、96ビットのインターフェイスに9ギガバイトのVRAMを搭載できることを意味する。
さらに、256ビット・インターフェイスに24GB、384ビット・インターフェイスに36GBのカードが搭載され、プロフェッショナル向けカードではその倍の容量になる可能性もある。
あるいは、「クラムシェル」メモリ(チップをPCBの両面に搭載)を備えたプロフェッショナル・カードに512ビット・インターフェイスを搭載し、なんと96GBのVRAMを詰め込むというのはどうだろう。
これは、特定のAIやプロフェッショナルなワークロードに最適で、そのようなカードが登場するかどうかは、「もし」というより「いつ」の話だろう。
Blackwellアーキテクチャのアップデート
Blackwellアーキテクチャには、前世代のAda Lovelaceアーキテクチャを上回る様々なアップデートと機能強化が含まれることはほぼ間違いないが、現時点で確実なことを要約すると、「それほど多くはない」という2つの言葉に集約される。
しかし、どの世代のNvidia GPUにも、少なくともいくつかのアーキテクチャのアップグレードが含まれており、今回も同じことが起こると予想される。
NvidiaはRTX世代ごとに潜在的なレイトレーシング性能を向上させており、Blackwellもその傾向を継続する可能性が高い。Alan Wake 2』や『Cyberpunk 2077』のようにフルパストレーシングを推し進めるゲームが増えており、RTX Remixを使って古いDX10時代のゲームをフルパストレーシングで強化するModderの可能性は言うまでもないが、より高いレイトレーシング・スループットの必要性はさらに高まっている。
AdaがSER(Shader Execution Reordering)、OMM(Opacity Micro-Maps)、DMM(Displaced Micro-Meshes)を提供したように、おそらく他のRT中心のアップデートもあるでしょう。
しかし、それらの変更がどのようなものかはまだわかっていません。
分かっているのは、データセンターのBlackwell B200 GPUはテンソルコアを再び作り直し、FP4とFP6の数値フォーマットをネイティブでサポートするということだ。
これらは主にAI推論に有用で、コンシューマー向けGPUがプロフェッショナル向けカードと二重の役割を果たすことを考えると、すべてのBlackwellチップがFP4とFP6もサポートすると考えるの自然だ。(関連する例として、AdaはTensorコアにFP8サポートを追加した)。
Blackwellは他にどのようなアーキテクチャ上の変化をもたらすだろうか?
もしNvidiaがコンシューマー向け部品にTSMC 4NPを採用するというのが正しければ、大規模な変更は期待できないだろう。
大容量のL2キャッシュは引き続き搭載され、DLSS 3フレーム生成に使用される強化されたOFA(オプティカル・フロー・アクセラレーター)も引き続き搭載されるだろう。DLSS3のフレーム生成に使われているOFA(オプティカル・フロー・アクセラレーター)も引き続き搭載される。
最速のソリューションで何が起こり得るかを示す1つのヒントは、Blackwell B200にある。Nvidiaは、2つの同じチップを1つの巨大なGPUにリンクさせるためにNV-HBIを開発した。
これはSLIではなく、2つのチップが機能的に1つのGPUとして動作するように、大規模なチップ間帯域幅を持つチップレットスタイルのアプローチです。
NV-HBIがコンシューマー向けGPUにも登場する可能性はあるのでしょうか?おそらく低スペックのチップには搭載されないでしょうが、最大のチップには搭載されるでしょう。
RTX4080は、3080の30TeraFLOPSに対し、40TeraFLOPSのFP32演算を提供します。
例えば、RTX 4080は3080の30TeraFLOPSに対して40TeraFLOPSのFP32演算を提供し、これは33%の増加ですが、4090は3090の40TeraFLOPSに対して83TeraFLOPSを提供し、これは107%の増加です。
おそらくNvidiaは、RTX 5090でも「大きく」する一方で、他の部分ではより小さな改良を加えるだろうが、様子を見る必要がある。
RTX 5000シリーズの価格
RTX 5000シリーズGPUの価格は?率直に言って、現在の市場状況を考慮すると、Nvidiaが現行のRTX 40シリーズGPUに比べて価格を下げることを期待する理由はほとんどない。
Nvidiaは、市場が受け入れると感じる限り、カードの価格を高く設定するだろう。
AI性能が向上する可能性があり、非ゲーム分野からの需要が高まっているため、次世代が現世代と同じ価格体系になれば幸運かもしれない。
同時に、世代別の価格設定が増えないことを望む。
ステップダウン」RTX 4080 Superが1,000ドルということは、その特定レベルのGPUがRTX 2080 Super時代よりも43%高くなったことを意味する。
もちろん、この間には「699ドル」のRTX 3080 10GBと「1,199ドル」のRTX 3080 Tiもあったが、この時はGPUクリプトマイニングの流行とCovid-19の影響で価格がめちゃくちゃになっていた。
ありがたいことに、現在GPUで特定の暗号通貨を採掘することは技術的には利益を生むが、WhatToMineはRTX 4090の推定収入を1日あたり1ドル未満としている。
格安GPUの分野も基本的に消滅している。
統合型GPUは、一般的なワークロードでは、そこそこのゲームを含めても「十分速い」ところまで来ている。
これは特にモバイルプロセッサに当てはまることで、デスクトップ用のオプションは一般的にはるかに性能が低い。
Nvidiaは、2019年に発売されたGTX 1650 Super以来、200ドル以下のGPUを製造していない(GTX 1630という茶番を数えたければ別だが)。
つまり、デスクトップ専用グラフィックスカードは、「バジェット」が300ドル前後、「メインストリーム」が400~600ドル、「ハイエンド」が1,000ドル近いGPU、「エンスージアスト」が1,500ドル以上をターゲットとする世界に生きていることになる。
少なくとも、これがNvidiaの見解のようだ。
AMDのGPUは、特にストリートプライスを見ると、もう少し手頃な価格になる傾向があるが、Nvidiaは少なくとも過去4年間、より高い価格体系を維持してきた。
Blackwellのスペック
これまで述べてきたことを踏まえると、現在Blackwellに関する公式情報はほとんどないことがお分かりいただけるだろう。
2022年のNvidiaのハッキングによって、Blackwellという名前といくつかのコードネームの可能性が示されたが、それは2年以上前のことであり、その間に多くのことが変わる可能性がある。
それに、そもそもBlackwellの詳細はかなり薄かった。
しかし、GPUアーキテクチャの大きなアップデートのたびに、多くの噂やリークと思われる情報が飛び交っている。
内部事情に詳しいと思われるものもあれば、推測と思われるものもある。
最近の例をいくつか挙げると、ある「リーク」によると、Blackwell GB202は2023年11月に384ビットのメモリー・インターフェースを搭載すると予想され、2024年3月のより新しいリークでは、Blackwell GB202は512ビットのインターフェースを搭載するとされている。
その他に考えておくべきことは、先に述べたBlackwell B200のNV-HBIデュアルチップソリューションです。
おそらく、最上位のBlackwell GB202も同じアプローチを取り、NV-HBIを介してリンクされた2つのGB203チップを搭載することになるでしょう。
そうなれば、Nvidiaは最速チップの実際のダイサイズを抑えながら、同時にはるかに高いレベルのパフォーマンスを提供することができるようになります。
現時点では、GB202の両方の潜在的なバリエーションを、他の場所での推定名称とスペックとともに、推測上のスペック表に含めることにする。
クエスチョンマークが多数あることから、現時点では確たる情報がないことは明らかだろう。
推測の域を出ないBlackwell GPUのスペック
グラフィック カード |
RTX 5090? | RTX 5090 alt? | RTX 5080? | RTX 5070? | RTX 5060? | RTX 5050? |
アーキテクチャー | GB202 (GB203 x2) |
GB202 | GB203 | GB205 | GB206 | GB207 |
製造プロセス | TSMC 4NP? | TSMC 4NP? | TSMC 4NP? | TSMC 4NP? | TSMC 4NP? | TSMC 4NP? |
トランジスタ数 | ? | ? | ? | ? | ? | ? |
ダイサイズ (mm2) |
2x ? | ? | ? | ? | ? | ? |
SM数 | 192? | 160? | 96? | 60? | 48? | 32? |
CUDAコア数 (シェーダー数) |
24576? | 20480? | 12288? | 7680? | 6144? | 4096? |
Tensorコア数 | 768? | 640? | 384? | 240? | 192? | 128? |
RTコア数 | 192? | 160? | 96? | 60? | 48? | 32? |
ブースとクロック (MHz) |
2500? | 2500? | 2500? | 2500? | 2500? | 2500? |
メモリ速度 (Gbps) |
36? | 36? | 36? | 36? | 36? | 36? |
メモリ容量 (GB) |
32? | 24? | 16? | 18? | 12? | 9? |
メモリバス幅 | 512? | 384? | 256? | 192? | 128? | 96? |
L2 / インフィニティ キャッシュ (MB) |
128? | 128? | 64? | 48? | 32? | 24? |
レンダリング 出力ユニット数 |
256? | 192? | 128? | 80? | 64? | 48? |
テクスチャ マッピングユニット数 |
768? | 640? | 384? | 240? | 192? | 128? |
ブースト時の FP32演算性能 (TFLOPS) |
122.9? | 102.4? | 61.4? | 38.4? | 30.7? | 20.5? |
FP16 (FP8) 演算性能 (TFLOPS ) |
983? (1966?) | 819? (1638?) | 492? (983?) | 307? (614?) | 246? (492?) | 164? (328?) |
メモリ帯域幅 (GBps) |
2304? | 1728? | 1152? | 864? | 576? | 432? |
TDP (W) | 450? | 450? | 320? | 225? | 175? | 125? |
リリース時期 | 2024/10? | 2024/10? | 2024/10? | 2025/1? | 2025/10? | ??? |
リリース価格 | $1,999? | $1,599? | $999? | $599? | $449? | $299? |
繰り返しますが、上記の情報には大幅に割り引いて考えてください – 真面目な話、真に受けないでください!私たちは基本的に、もっともらしく見える数字をいくつか作り、それを与えられたSMの数で通常のNvidiaの公式に詰め込みました。
そして、1SMあたり通常の128CUDA、1RT、4テンソルコアに基づいてCUDA、RT、Tensorコア数を出しています。
また、(伝統的に)SMごとに4つのTMU(テクスチャ・マッピング・ユニット)があります。
NvidiaはSM数を簡単に微調整できるため、最終的なスペックは発売の数カ月前まで確定しない可能性がある。
潜在的なスペックの多くは、基本的にNvidiaがRTX 4000シリーズカードで現在持っているものを使ったプレースホルダーだ。
例えば、L2キャッシュのサイズ、ROP(Render Outputs)、電力要件、価格などがこれに該当する。
我々は、今現在、実際のスペックについて内部情報を持っているとは主張しておらず、我々の知る限り、評判の良い誰もコア数をリークしていない。
現時点では、GPUクロックは2.5GHz、GDDR7クロックは36Gbpsと推定している。また、Nvidiaは、192ビットまたはより狭いメモリインターフェイスを持つすべてのGPUに3GBチップが搭載されることを切に望んでいるが、製品スタック内の特定のGPUにGDDR6Xを使用し続ける可能性があることにも留意しておこう。
上記の表は、今後数カ月、あるいは数年かけて噂が進展するにつれて更新し、最終的には正式なパーツ名と仕様をお伝えする予定です。
ほぼ間違いなく、5種類をはるかに超えるグラフィックスカードが登場することになるでしょうが、現時点では、その可能性を推測する意味はありません。
ただ、10種類のRTX 4000シリーズデスクトップGPUと12種類のRTX 3000シリーズデスクトップバリエーション(3060 12GB / 8GBと3050 8GB / 6GBを異なるモデルとしてカウント)があることに注意してください。
将来のGPUの展望
次世代グラフィックスカードはNvidiaだけではない。
IntelのBattlemageも今秋リリースされることを示唆する証拠はたくさんあるし、AMDのRDNA 4も、今年ではないかもしれないが、遅くとも2025年初頭には登場するだろう。
(これら2つについては、できれば近いうちに詳細な記事を掲載する予定なので、お楽しみに)。
しかし、確かに競争はあるだろうが、Nvidiaは過去10年間GPUの状況を支配してきた。
現在、Steam Hardware Surveyによると、Nvidiaはグラフィックカード市場の78%を占め、AMDは14.6%、Intelはわずか7.2%(「その他」は0.12%)である。
しかし、これは全容を語っているわけではない。
AMDとインテルはともに統合型グラフィックスを製造しており、それぞれの市場シェアの大部分は、専用GPUを搭載していないノートPCやデスクトップPCによるものであることは間違いない。
専用GPUであることが明らかなAMDの市場シェアが最も高いのはRX 580で、0.81%で31位につけている。
インテルはこの調査に専用GPUを掲載していない。
過去3世代のAMDとNvidiaの専用GPUについては、Steamの調査によると、Nvidiaが市場の92.6%を占め、AMDは7.4%だった。
とはいえ、Valveがどのようにデータを収集しているのか詳細は不明であり、AMDはこの調査結果よりも好調なのかもしれない。
それでも、Nvidiaカードが緑の波となってチャートの上位を占めている。
我々がインテルから聞いたところによると、Battlemageはグラフィックス分野のメインストリームや低価格帯で競争するつもりらしい。
つまり、200ドルからおそらく600ドルの価格帯ということだ。
しかし、インテルは最近あまり発言していないので、変わっている可能性もある。
AMDは当分の間、パフォーマンスとドライバ、効率性の両面でNvidiaより優れているのは間違いないが、GPUが「Ryzenのような飛躍の瞬間」をまだ待っているところだ。
現在のところ、Nvidiaの方が全体的な性能は高く、レイトレーシング性能もはるかに高い。
また、DLSS3.5 Ray Reconstructionを含むDLSSやBroadcastなどの関連技術により、AI分野でも優位に立っている。
少なくとも統合グラフィックス分野以外でAMDとIntelが差を縮め、大きな市場シェアを獲得するには多大な努力が必要だろう。
その一方で、Nvidiaの価格が高く、非ゲーム市場向けのAIに重点を置いているため、競合他社が参入する余地が残されている可能性もある。
今年後半には、チップの着地点が見えてくるだろう。
解説:
あまりに長い記事なので、解説は別に上げる予定です。