AMD Instinct MI350P 発表 — 4年ぶりPCIe版Instinct、CDNA 4搭載で4.6 PFLOPSのAI演算性能

■事実

製品概要・位置づけ

MI300X、MI325X、OAM版MI350XはいずれもOAM（OCP Accelerator Module）形式で、専用シャーシが必須でした。

MI350Pはその制約を取り除き、一般的な空冷サーバーにドロップイン搭載できる設計です。

AMDは「エンタープライズのAI導入曲線に合わせた選択肢の提供」と位置づけです。

AMDがInstinct MI350P PCIe GPUアクセラレータを発表・販売開始します。

2022年のInstinct MI210（CDNA 2）以来、約4年ぶりとなるPCIeフォームファクターのInstinct製品です。

ダイ構成・チップ仕様

アーキテクチャ: CDNA 4
XCD（Accelerator Compute Die）× 4構成（MI350Xは × 8、MI350Pはその半分）
IOダイ × 1（TSMC 6nm FinFET）
XCDはTSMC 3nm（N3P）プロセス
トランジスタ数: 730億
コンピュートユニット（CU）: 128基
ストリームプロセッサ（SP）: 8,192基（CU × 64）
Matrixコア: 512基
ピーククロック: 2,200 MHz
パーティション機能: 最大4分割（1パーティション = 1 XCD + 36GB HBM）

メモリ仕様

HBM3E × 4スタック: 144GB
バス幅: 4,096-bit
メモリ帯域幅: 4 TB/s
LLC（Infinity Cache）: 128MB（オンダイ）
ECC: フルチップ対応
比較: MI350Xは HBM3E × 8スタック 288GB、8,192-bit、8 TB/s

フォームファクター・電源

フォームファクター: フルハイト・フルレングス・デュアルスロット
カード全長: 10.5インチ（267mm）
インターフェース: PCIe Gen 5 x16
冷却: パッシブ（シャーシファンによる排熱を想定）
電源コネクタ: 12V-2×6（16-pin）
TBP（Total Board Power）: 600W（デフォルト）/ 450W（省電力モード）
AMD初の12V-2×6コネクタで600Wに達するPCIeカード

AI演算性能

精度フォーマット	性能（ピーク）
MXFP4	4.6 PFLOPS
MXFP6	4.6 PFLOPS
MXFP8	2.3 PFLOPS
OCP-FP8	2.3 PFLOPS
FP16（Sparsity）	2.3 PFLOPS
FP16	1.15 PFLOPS
BF16（Sparsity）	2.3 PFLOPS
BF16	1.15 PFLOPS
INT8（Sparsity）	4.6 POPS
INT8	2.3 POPS
FP32	72 TFLOPS
FP64	36 TFLOPS

MXFPとはMicroscaling形式（OCP準拠のブロックスケール浮動小数点）、MXFP4/MXFP6はCDNA 4でネイティブ対応です。

AMDはMI350Pが「エンタープライズPCIeカードの中で現在最高のMXFP4性能」と主張しています。

MI350XとはFP64が同一の36 TFLOPSです。（電力制約による帯域分の損失）

競合製品との比較

製品	GPU	メモリ	帯域幅	FP8性能（ピーク）	FP16性能（ピーク）	接続
AMD MI350P	CDNA 4（4 XCD）	HBM3E 144GB	4 TB/s	2.3 PFLOPS	1.15 PFLOPS	PCIe Gen 5
NVIDIA H200 NVL	Hopper H200	HBM3E 141GB	4.8 TB/s	約1.7 PFLOPS	約0.80 PFLOPS	PCIe Gen 5 + NVLink
NVIDIA RTX PRO 6000 Blackwell（Server）	GB202	GDDR7 96GB	約1.8 TB/s	—	—	PCIe Gen 5

H200 NVLとの比較: MI350PはFP8で約38〜39%高い演算性能、FP16で約43%高くなっています。

H200 NVLはHBMを6スタック持ち、メモリ帯域幅はMI350Pより約20%高いです。（4.8 TB/s）

H200 NVLはNVLinkチップ間接続に対応するが、MI350PにInfinity Fabric相当の高速チップ間接続はありません。

H200 NVLの市場価格: $30,000〜$40,000前後です。

NVIDIAは現時点でBlackwell世代のHBM搭載PCIeアクセラレータ（B200相当品）を未発売です。

RTX PRO 6000 Blackwell ServerはGB202ベース（ワークステーション用チップ）、HBMではなくGDDR7です。

Intel Crescent Islandも2026年内にPCIe AIアクセラレータとして登場予定です。（160GB LPDDR5X）

エコシステム・ソフトウェア

ROCm対応です。（オープンソースGPUコンピュートスタック）

AMD Enterprise AI リファレンススタックをパートナー向けに無償提供しています。

1〜8枚の構成でスケール可能です。（空冷19インチサーバー前提）

RAGパイプライン、推論ワークロード向けに最適化した設計とAMDは説明しています。

価格は未発表です。

解説

「MI350Xを半分に切っただけ」と書くと身も蓋もないが、実際やっていることはほぼそれ — ただ、半分でも現行世代のPCIeとしては世界最速なので、切り方は正しかった。

価格次第で中規模企業のオンプレAI推論サーバーの選択肢が一気に広がる可能性がある。H200 NVLの$3〜4万という実勢価格を大幅に下回れるかどうかが普及の鍵になるが、AMDはまだその数字を出していない。

MI350PはMI350Xの"半割り"で作られた製品で、技術的な新規性というよりMI350Xで確立したCDNA 4の恩恵をPCIe市場へ水平展開したものだ。

2022年のMI210以来、AMDはAI向けの主力製品をすべてOAM専用にしてきた。PCIe版が空白になっていた背景には、データセンターのHGX/OAM需要がそれだけ大きかったという事情がある。

PCIe版の空白はAMDにとってもビジネス上の損失だった — 専用シャーシを購入する体力のない中規模企業や、既存サーバーインフラを延命したいユーザーへのルートが4年間途絶えていた。

今回の最も重要なポイントは「既存の空冷サーバーに刺さる」という1点。投資コストが大幅に下がり、意思決定のハードルが違う。

NVIDIAはBlackwell世代のHBM搭載PCIeカード（B200 PCIeなど）を出していないため、この時点でMI350Pは事実上このカテゴリの独壇場になる。市場競争がない分、価格設定はAMDの裁量次第だ、

H200 NVLとの比較で演算性能は約40%高い一方、メモリ帯域幅は20%劣る。AIの推論ワークロードで帯域幅の差がどう出るかは、モデルのサイズや構造に依存する — ベンチマーク次第でどちらが優れているかが入れ替わる可能性がある。

Infinity Fabricを非搭載という点は地味に重要。マルチGPU接続はPCIe Gen 5の128GB/sに制限される。8枚構成での大規模推論はH100 NVLと同じ制約を受ける。

ROCmエコシステムの成熟度は引き続き問われる。ハードウェアスペックは揃ってきたが、推論フレームワーク（vLLM、TGI等）の実運用実績でNVIDIAとの差がどれほど縮まっているかが導入の現実的な判断基準になる。

AMDはMI400シリーズも2026年に控えており、MI350PはMI350世代の"末端まで売り切る"製品という側面もある。

個人的な興味で言えば、非常にある。

RTX Pro 6000 Blackwellを超えるPCIe製品で、ROCmの最近の躍進ぶりを考えるとWindowsで普通にローカル生成AI用途で使えそうだ。(未確認)

このクラスでHBM3Eの144GBは唯一無二の存在だ。

価格は発表されてないが、きっと一気に夢から覚める価格になるのだろう。