NVIDIA GeForce RTX 3080とRTX 3090とクラッシュ - コンデンサが重要な理由とその背景にあるもの

GeForce RTX 3080とRTX 3090に搭載されているコンデンサについての私の記事が多くの波紋を呼んだ後、私は2つの点で自分自身を批判しなければならない。

私は、読者が状況や背景についてのやや長く、より技術的な説明に興味を持つかもしれないこと、そして、第二に、メーカーが一般的に使用している用語を(軽率に)採用したことが、一般的な説明の残りの部分に疑問を抱くことになるかもしれないことを過小評価していました。

さらに、私は、あるカードがMLCCにもかかわらずクラッシュすることができる理由や、あるカードが、より悪いとされる固体キャップを独占的に装備しているにもかかわらずクラッシュしない理由を前面に出していました。

残念ながら、多くの人がこれを見落としています。これは最後の最後に戻りますが、一般的に私が言っていることを知りたいのであれば、これをもう一度読んで最初の数段落に集中してください。

NVIDIA GeForce RTX 3080とRTX 3090のクラッシュや不安定性の原因として考えられること

ところで、私は（再び）以下をわかりやすいレベルに分解してみましたが、実際の問題とは関係ないので、意図的に多くの詳細を省いています。

しかし、電圧サプライチェーン全体の末端にあるコンデンサが何なのか、なぜコンデンサが必要なのか、なぜ影響を受けるのはNVIDIAカードだけではないのか、そしてそこからどのような結論を出すべきなのかを理解するためには、まず現在のグラフィックスカードの電圧レギュレーションとテレメトリーを見る必要があります。

現在のグラフィックカードのテレメトリ

NVIDIAのBoost(およびAMDのPower Tuneも)は、消費電力を最小限に抑えつつ、廃熱などの副作用を抑えてグラフィックス性能を最大限に発揮できるように設計された、非常に複雑な存在だ。

細部や技術的な実装にかなりの違いがあることがあるとしても、この2つのメカニズムは回路図の構造が非常に似ている。残念なことに、グラフィックカードは数年前のような忍耐強い「消費者」ではなく、もはや気まぐれな小心者なのです。

主な関心事は、GPUの現在の負荷に実際に必要とされるだけの電力を供給し、最適なクロックレートを達成するように、GPUのコア電圧をリアルタイムで調整することです。

これを強簡化した電圧カーブと呼ぼう。

NvidiaのBoostでは、デフォルトの電圧とともに個々のブーストステップを保存しており、これにより、最も低いブーストレベルのクロックは、いわゆるオフセットによってシフトおよび/または固定され、残りはアービトレーター(マネージャー、ディスパッチャー)によって計算される。

ファームウェアは、非常に短い間隔（すなわち実質的にリアルタイム）でエネルギー消費量を継続的に決定し、すべてのセンサーとGPU予測を同時に照会し、電圧コンバーターのテレメトリデータも含みます。

これらの値は、デジタル電力管理に転送され、その結果、問題の仲裁人に転送されます。この制御複合体はまた、GPU（BIOS、ドライバ）の電力、熱、電流の限界を知っており、それぞれのレジスタから読み取ることができます。

これらの制限の範囲内で、すべての電圧、クロック周波数、ファン速度を制御し、常にカードから最大の性能を引き出すようにしています。

入力変数の一つでも超過またはアンダーカットされた場合、アービトレータは電圧またはクロックを増減させることができます。

注意：クロックレート、電圧、および流れる電流の値は、状況に応じて非常に迅速に変動する可能性があります!
電源の特徴

もちろん、適切な電圧変換と監視の技術的な詳細については、ほとんどの人を退屈させるようなことはしたくありませんが、より良い理解のためには、もう少し深く掘り下げてみる必要があるでしょう。

そこで、重要な電圧変換器（上図右）に直接話を進めてみましょう。電源の制御回路は、通常のスイッチモード電源とほぼ同じように動作しますが、ここでの周波数は通常300～500KHzの間になります。次の図は、電圧変換のプロセスを簡略化したものです。

ここで、既存の制御ループの一つがどのように動作するかを見てみましょう。該当する位相のターンになると、PWMコントローラはMOSFETのゲート端子に小さな制御信号を送ります。

これが導電性になり、電流がソースからドレインに流れます。これでMOSFETの背後にあるコイルが磁界を作り、エネルギーを蓄えて、必要に応じて入力電圧とは逆の電圧を発生させることができるようになります。

MOSFETが燃え尽きるのを防ぐために、制御信号はMOSFETのゲートから直ちに除去され、ゲートは非導電状態になります。コイルに電流が流れなくなり、蓄積されたエネルギーを放出する。

各制御ループの最後には、前述のコイルとより大きなコンデンサがあります。

コイルはこのようにして始動電流を制限し、磁場にエネルギーを蓄えてから対向電圧の誘導を確実にします。

コンデンサは全体を可能な限り滑らかにし、可能な限り滑らかでリップルのない電圧を提供します。

スムーズとは何を意味するのかというと・・・しかし、ほぼ。そして、どれだけ多くの相を制御する必要があり、おそらくインテリジェントにバランスをとる必要があっても、PWMコントローラは、各個別の制御ループ（各相）からのフィードバックとして2つの値を必要とします：実際の電流の流れと温度。この2つの値は、テレメトリにとって重要です。ここでDCR（直流抵抗）の出番です。

これにはさまざまな方法があるため、モニタリングは異なる場合があります。いわゆるスマートパワーステージ（SPS）や、いわゆるMOSFETのDCRについては、よく何かを読んでいますね。

下の図は、完全なバランス、すなわち相間のバランスのために非常に緊急に必要とされる、IMON（およびTMONで温度）を使用して個々の制御ループのための電流値を提供するインテリジェントなSPSとの典型的なレイアウトを示しています。

SPSはどのようにしてこの値を決定しているのでしょうか？MOSFETのドレイン電流はリアルタイムで測定され、この値も非常に正確です。より安価なインダクタDCR、すなわち出力範囲内の各フィルタコイルの誘導抵抗を介して電流を測定する方法については、既存のすべてのバリエーションを説明することは有用ではないので、ここでは割愛させていただきます。

電流は電圧コンバータからGPUに流れますが、ここでは導体トラックの追加インダクタンスを考慮しなければなりません。

例えば、電圧コンバーターに残っている高周波数のゴミや、変化の速い負荷（電圧調整で Boost が反応する）など、すべての高周波数（およびその結果として発生する周波数の混合物）を見てみると、電源電圧は安定してスムーズではありません。

そこで冒頭の話に戻ります。あるクロックサイクルに必要な電圧を得るためには、スムージングとバッファリングが必要です。

そして、GPUにできるだけ近いところで。だからこそ、この記事の対象となるコンデンサは、チップを搭載したBGAの下の基板背面に直接配置されているのだ。そして、そこからが面白いところだ!

ちなみに、GPUの下に例えば2GHz以上の高クロックレートのGPUがあっても、基板上で検出できるというのは間違っている。

GPUが1秒間に何クロックサイクルで動作するかは、間接的にしか問題に関係しない。

しかし、テレメトリと制御速度だけでなく、クロック速度と電圧の関係もすでに把握していた。

ここでは、例えば電圧や周波数が変化するような3桁KHzの範囲での制御プロセスを実証することができる。ところで、これらの変化は、電圧トランスや12ボルト電源レールまで遡って行われます。

安定した動作を実現するためには、当然ながらアービトレータは、有効になっているブーストクロックごとに適切な電圧を印加することを常に求めている。

しかし、負荷の変化が次から次へと非常に迅速に追従する場合、適切にバッファリングされていないと、GPUの下に電圧降下が発生する可能性がある。

これが失敗すると、いわゆる電圧降下と呼ばれるものが発生する。これらが非常に短い時間だけ発生した場合、コンピュータ全体がクラッシュしたり、GPUがフリーズしたりすることはありませんが、わずかな計算エラーや画像エラーから始まり、サイクル全体が完全に故障するまでになります。

その後、それぞれのプログラム（ゲーム）だけがクラッシュして、あなたは最初に再びデスクトップに着陸します。

MLCCとSP-CAPやPOS-CAPの違いは何ですか？

電気的なデータの多くは、次の考察のためにむしろ重要ではありません。コンポーネントが与えられた仕様の範囲内で動作する限り、温度、抵抗値、その他のパラメータさえも重要ではありません。

ここで本当に重要なのは、一方では充放電の速度であり、他方では蓄えられるものの量（容量）である。エンジニアが（正確な設計にかかわらず）すべてのポリマーコンデンサを（パナソニックのものだけでなく）POS-CAPと呼ぶのは、これらの部品がどのように流通しているかということと、開発者が「Piece-Of-Shit CAPs」と呼ぶのが好きだからです。回路基板上にポリマーコンデンサとして正確に何が搭載されていたかは、動作モードにおいて主要な役割を果たしていません。

次の写真は、コア電圧(NVVDD)を供給するためのFounders Editionの混合アセンブリを示しています。

2つのポリマーコンデンサと積層セラミックコンデンサ（MLCC）のグループが見えます。

ちなみに、バケットを使うと、その違いがよくわかります。ポリマーコンデンサの方が容量が大きい。

そのため、容量が大きいバケツの方が容量が大きいのですが、その分、充填や空になるまでにかなり時間がかかります。

MLCCからのグループは、多くの小さなバケツのようなもので、より早く充填して空にすることができます。

しかし、同じ量の水を貯めて放出するためには、同時に働くいくつかのグループが必要です。

これは GPU のクロックと何の関係があるのでしょうか？

基本的には何もありません。それが、私がそれを説明するときにテレメトリを介して回り道をした理由です。

しかし、GPUのクロック周波数が高いほど、必要な電圧が高くなります。

だから、蓄積された限界に近づけば近づくほど、補正の頻度が高くなり、負荷の変化も大きくなる。間隔が短くなればなるほど、バッファリングが速くなる。しかし、これはまさにMLCCの小さなバケットの出番です。