インテルは、最新のGaudi 2アクセラレータベンチマークをMLPerf Training v4.0で発表し、AI Computeと生成AIワークロードのための低コストな代替品であるとしている。
インテルのGaudi 2 AIアクセラレータが最新のMLPerf AIベンチマークでコスパで輝き、生成AIとコンピュート性能をさらにチューニング
本日のMLPerf Training v4.0ベンチマークは、インテルにとって特別なものです。
なぜなら、インテルのAIポートフォリオの性能とスケーラビリティを実証するために、1024個のアクセラレータを組み込んだ大規模なGaudi 2システムの性能を、インテルのTuber Developer Cloud上で初めて提出したからです。
このソフトウェアエコシステムは、MLPerfのGPT-3 175Bパラメータモデル内でこれらのアクセラレータの性能を微調整するために使用されました。
インテルは、これらの新しいベンチマークによって、インテルのGaudi 2アクセラレータが、700億、最大1750億のパラメータでLLMを訓練できる、スケーラブルで手頃な価格の、アクセス可能な生成AI & AIコンピュートソリューションであることを実証し、次世代Gaudi 3アクセラレータは、オープンなソフトウェアスイートをサポートしながら、性能の次の飛躍になるだろうと述べている。
この最新のMLPerf v4.0ベンチマークを通じて、インテルは、175Bの実行を66.9分のTTT(Time-To-Train)で完了したNVIDIAのH100に代わるAIコンピュートの唯一のベンチマークであることを証明しました。
それだけでなく、LoRA(低ランク・アダプター)を使用した新しい微調整されたLlama 2 70Bモデルでは、インテルはわずか8個のGaudi 2アクセラレーターで78.1分のTTTを達成した。
インテル Gaudi 2 の MLPerf 結果が透明性を実証 MLPerf の結果は、Gaudi 2 が Nvidia H100 に代わる唯一の AI 計算用 MLPerf ベンチマークであることを示しています。
Tiber Developer CloudでトレーニングされたインテルのGPT-3の結果は、1,024台のGaudiアクセラレータを搭載したAIシステムで66.9分というtime-to-train (TTT)を達成し、開発者クラウド環境内の超大規模LLMにおけるGaudi 2の強力なスケーリング性能を証明しました。
このベンチマーク・スイートでは、低ランク・アダプタ(LoRa)を使用したLlama 2 70Bパラメータ・モデルの微調整という新しい測定が行われました。
LLMの微調整は、多くの顧客やAIの専門家にとって一般的なタスクであり、日常的なアプリケーションに関連するベンチマークとなっている。
インテルが提出したベンチマークは、8台のGaudi 2アクセラレーターで78.1分のtime-to-trainを達成した。
インテルは、Optimum Habanaのオープンソースソフトウェアを利用し、大規模モデル学習時のメモリ効率とスケーリングを最適化するためにDeepSpeedのZero-3、注意メカニズムを高速化するためにFlash-Attention-2を活用しました。
ベンチマーク・タスクフォースは、インテルのHabana LabsとHugging Faceのエンジニアリング・チームが主導し、リファレンス・コードとベンチマーク・ルールを担当した。
インテルが強調したGaudi 2アクセラレーターの大きなセールスポイントは価格だ。
COMPUTEXでインテルは、8基のアクセラレータとユニバーサル・ベースボード(UBB)を備えたGaudi 2 AIシステムが、競合ソリューションの1/3のコストと推定される65,000ドルで提供されることを発表した。
それだけでなく、同様の構成を持つインテルのGaudi 3キットは125,000米ドルで販売される予定だ。
Gaudi 3アクセラレータは、NVIDIAのH100よりも高速であると同時に、AI市場に参入する際にはH200ソリューションに対して非常に競争力があると期待されている。Gaudiシステムの価値が高いことから、NVIDIAの製品よりもGaudiシステムを選択する顧客もいる:
韓国のクラウドサービスプロバイダーであり、6億人以上のユーザーを抱える大手検索エンジンのNaverは、新しいAIエコシステムを構築し、顧客の開発コストとプロジェクト期間を削減することで、LLMの広範な導入を可能にする障壁を低くしている。
スウェーデン政府と民間企業の連合体であるAIスウェーデンは、業務効率を改善し、スウェーデンの有権者のための公共サービスを強化するために、ドメイン固有の自治体コンテンツで微調整するためにGaudiを活用しています。
インテルは、次回の公開MLPerfベンチマークにおいて、Gaudi 3アクセラレータの結果を推論ベンチマークで公表することを確認した。
これらのAIアクセラレーターは、2024年秋までにOEMを通じて一般に販売される予定だ。
解説:
Gaudi2アクセラレーターの話が今頃出ていましたので取り上げてみました。
Intelは最新のGaudi3アクセラレーターを発表ししたばかりですが、その旧製品に当たるGaudi2を今頃プッシュするのはいまいち売れていない感が出ています。
定期的に評判が良いといわれるAMDのMI300シリーズもあまり情報は出てきませんが、Gaudi2の場合さらに輪をかけて情報が出てきません。
このあたり、CUDAとの互換性を最重視していてるROCmとIntelの大がかりなOneAPIとの差が出ているのかもしれません。
わかりやすくstable diffusionの生成速度で比較するとguadi2は(おそらく)1ユニット有田512×512で4枚画像を生成すると5.7秒らしいです。
こちら同様の条件でNVIDIAのA100(Ampere)では9.1秒らしいので速いといえば速いのでしょう。
しかし、この速度だとどのような設定でも(おそらく)RTX4090よりは遅いということになります。
おそらく、Gaudi3が発表されたのにGaudi2のコスパをアピールのするのは在庫処分のためなのだと思います。
それ以外には思いつきませんし。
今のところ、CUDAに代わる新しい代替手段をアピールするより、CUDAとの高い互換性を謳ったほうが顧客に受けるようですね。
将来性はもちろんOneAPIのほうがあるのでしょう。
しかし、今のところは互換路線を行ったほうが堅実に売り上げを伸ばせるようです。
Gaudi3発表後にGaudi2のコスパを強調するのはIntelはかなり販売に苦戦しているなあという事実を印象付けるニュースです。