NVIDIAは、GoogleのTPUが自社のAIスタックを追い抜く可能性があるという主張に反論し、ASICよりも「優れたパフォーマンスと汎用性」を提供すると述べた。

NVIDIAは、GoogleのTPUをめぐる「話題」や、その外部採用に関する報道に対し、ASICは「特定のAIフレームワーク」に限定されていると反論しました。

NVIDIAは、ASICは特定のワークロードに限定されているとしながらも、AI革命全体は自社が担っていると主張

GoogleのTPUは最近「話題」となっており、特にMetaやAnthropicといった企業が同社のAIチップを採用しているという報道が相次いでいます。
ここ数年、Team Greenが独占してきた市場において、あるASICメーカーがNVIDIAに取って代わろうとしているという噂も浮上しています。

これを受けてNVIDIAは、GoogleのTPUに関する報道に対し、この巨大テクノロジー企業の成功を「大変嬉しく思う」と述べました。

しかし同時に、同社はASICによる競争にも対抗しています。

Googleの成功を大変嬉しく思います。GoogleはAIにおいて大きな進歩を遂げており、当社は引き続きGoogleに製品を供給しています。NVIDIAは業界の一世代先を進んでおり、あらゆるAIモデルをあらゆるコンピューティング環境で実行できる唯一のプラットフォームです。
NVIDIAは、特定のAIフレームワークや機能向けに設計されたASICよりも、優れたパフォーマンス、汎用性、そして互換性を提供しています。
- NVIDIAの広報担当者によるWccftechへの声明

この声明は、The Informationが以前報じた記事に基づくもので、MetaがAIワークロード向けに「数十億ドル」相当のGoogle TPUを購入する予定であり、最終的にはGoogle製ASICの外部導入がNVIDIAのAI売上高の10%を占める可能性があると予測されていました。

ここでのポイントは、Googleが自社開発のTPUとAIワークロード、特に推論ワークロードを垂直統合することに成功し、NVIDIAが提供するものよりも優れたパフォーマンスパラメータを実現しているということです。

ASIC志向の企業の中で、Googleは最も競争力のある企業の一つと言っても過言ではないでしょう。

特に、同社は10年近くもこの分野に参入しているからです。

しかし、NVIDIAの見解によれば、ASICは「特定のフレームワーク」向けに設計されているのに対し、同社の技術スタックは、コンピューティングアーキテクチャであれCUDAプラットフォームであれ、AIエコシステム全体をターゲットとしています。

さらに、GoogleはNVIDIAのAIハードウェアの主要顧客であり、TPUはNVIDIAが依然として主導的な地位を占める広範な市場の重要なコンポーネントとなっていることも注目に値します。

ASICとNVIDIAの技術の競争がどのように進展していくのか興味深いところですが、特に推論がAI大手にとって「真価」を問われる世界へと移行するにつれて、この分野の競争は間違いなく激化していくでしょう。

ソース：wccftech - NVIDIA Hits Back at Claims That Google’s TPUs Could Overtake Its AI Stack, Saying It Offers “Greater Performance and Versatility” Than ASICs

解説：

MetaがGoogleがTPUを外販へ、MetaがGoogleのTPUを導入

ASICはNVIDIAの独占を打ち破る一手になるか？

GoogleのTPUIronwoodは効率でも性能でもNVIDIA製品を上回っているとされています。

今まで、自社のデータセンターの製品を貸すことはありましたが、外販してオンプレミスにも対応するのは初とのこと。

NVIDIAはそれを「歓迎する」といってるのでまだまだ余裕ですね。

pytorchにしてもGoogleが自ら作っているTensorFlowにしても最初に基準となるのはNVIDIAのGPUであり、他の製品はそれの移植ということになります。

これはROCmやoneAPIにしてもそうです。

まず真っ先に新しいバージョンが動くのはNVIDIA製品であり、他社製品はその環境の一部を再現できた他だけでも高く評価されます。

NVIDIAが実装する独自の機能に対応した場合、移植されないか性能が大きく落ちる場合もあります。

「推論のワークロードに使える」とは言っても、NVIDIA用に開発されている膨大な数のフィルターやプラグインがすべて移植されているわけではなく、まったく同じ環境で使えるかといえばそうではありません。

NVIDIAが今まで育ててきた開発者コミュニティは草の根レベルまで広がって、すぐには追従できないでしょう。

これがNVIDIAの余裕の発言につながっているのだと思います。

サーバーだと用途がはっきり決まっていて、ある意味、ユーザーのイメージと実際にできることの差は小さいとも言えます。

製品のパワーとはエコシステムの巨大さであり、NVIDIAがAI市場で築いてきたすべてのものです。

これがハードウェア製品の仕様、何十TOPSとかメモリ速度2TB/sなどに入らない性能であり、市場の趨勢が簡単には覆らない本当の理由です。

どんなに高性能な製品を作ってもソフトがなければただの箱です。

スペックだけしか見てない人はこういうことを理解できていません。

私もROCmを多少はいじっていますので、NVIDIA製品とその他の差をいやというほど思い知っています。

例えば、最新のROCmに対応するpytorchは最新のものだけです。

ソースの改変なしでそのままはビルドが通りませんし、過去のバージョンはほとんどだれもメンテしていません。

これでも問題はないですが、昔のソフトウェアだと稼働させた実績がないということになります。

例えば、過去のバージョンを使いたい人はNVIDIA製品を使うしかないです。