AMD & IntelがAI向けCPU命令拡張「ACE」最新仕様を公開——AVX10比16倍の行列演算密度

■事実

今回のニュース（2026年6月）

WCCFtechが2026年6月19日に報道：AMD & Intelが共同でACE（AI Compute Extensions）の最新仕様をリリースし、AI処理のためのx86命令拡張をさらに詳細化しました。

ACEの正式ホワイトペーパーv1.0は2026年4月15日にx86 Ecosystem Advisory Group（EAG）名義で公開済みです。今回の報道はその後続の仕様詳細化と普及推進に関するものです。

x86 EAGとACEの背景

x86 Ecosystem Advisory Group（EAG）：AMD・Intelが2024年に設立した共同技術標準化機関。ARMアーキテクチャの台頭に対抗し、x86の将来仕様を統一的に策定することが目的です。

EAGが定める4つの主要機能：FRED（割り込みモデルの現代化）、AVX10（512ビットSIMD命令の標準化）、ChkTag（メモリ安全性タグ）、ACE（AI演算拡張）です。

このうちChkTagは未公開。残る3機能はすでに仕様公開済みです。

ホワイトペーパーの著者：AMD側8名（Gabriel Loh、Brian Thompto等）＋Intel側3名（Pradeep Dubey等）という布陣です。

ACEの技術概要

正式名称はAI Compute Extensions（AI計算拡張命令）。x86の新しいISA拡張として位置づけています。

目的：ニューラルネットワーク・LLMの中核演算である**行列積（Matrix Multiplication）**をCPUコア上でネイティブに高速化することです。

既存のAVX/SIMD命令は1次元のベクトル演算を前提としており、行列積には本質的に非効率。ACEはこれを2次元のタイルレジスタで解決します。

タイルレジスタアーキテクチャ（技術詳細）

ACEは8個のアーキテクチャタイルレジスタを新設し、各レジスタは512ビット幅×16行の構造（32ビット精度の場合、16×16行列を格納可能）です。

**外積演算（Outer Product）**ベースの演算設計を採用。これにより2次元スケールでの計算密度がN²スケールで向上します。

AVX10の512ビットZMMレジスタを入力に使い、タイルレジスタを累積器として動作する設計。既存のAVX最適化コードとの協調動作を前提とした設計です。

Block Scale Register（1024ビット幅）を1個追加し、OCP MX標準のブロックスケーリングに対応します。

AVX10の豊富なデータ変換命令を活用し、タイルレジスタとZMMレジスタ間のデータ移動を高速に処理できます。

対応データ形式

データ形式	ビット幅	特徴
INT8	8ビット整数	推論定番フォーマット
OCP FP8	8ビット浮動小数点	動的レンジがINT8より広い
OCP MXFP8	8ビット（ブロックスケール付き）	LLM推論向けの精度と効率のバランス
OCP MXINT8	8ビット整数（ブロックスケール付き）	同上
BF16	16ビット脳内浮動小数点	学習・推論の汎用フォーマット

性能向上の数値

AVX10の通常の積和演算と比較して、計算密度が最大16倍という数値をホワイトペーパーが提示しました。

内訳の考え方はAVX-512の512ビットZMMレジスタを8ビットデータで使うと64要素の積和演算が可能→ACEのタイルレジスタは同じ入力から1,024回の積和→16倍の計算密度です。

ソフトウェア対応状況

PyTorch・TensorFlowへのACEカーネル組み込みが進行中です。

NumPy・SciPy（Pythonの数値演算ライブラリ）にもACEアクセラレーションを統合する作業中です。

LLM推論向けGEMM（汎用行列積）カーネルの最適化も開発中です。

現時点でACE対応CPUは1製品も発表されていない——仕様先行、シリコンは次世代以降です。

実装ロードマップ

AMDは次世代Zen 6ベースのEPYC「Venice」が2026年後半〜2027年想定で（諸説あり）、コンシューマー向けRyzen 10000「Olympic Ridge」は2027年CES前後が有力です。

IntelはNova Lake（Core Ultra Series 4）もCES 2027前後の見通しに後退しているとの情報ありね当初はLip-Bu Tan CEOが2026年末を示唆していました。

いずれの場合もACEがどの世代のCPUから実装されるかは現時点で未確定です。

解説

ACEを読み解く上で最重要の文脈は「AVX-512の失敗をどう繰り返さないか」という問題意識だ。AVX-512はIntelがXeonや一部のCore世代に搭載したものの、Alder Lakeでは意図的に無効化されるなど混乱が続いた。AMDはZen 4でフル実装したが、その頃にはIntelのコンシューマー製品では使えないという断片化問題が定着してしまっていた。

EAGを設立してAMD・Intel共同でACEを標準化しているのは、この教訓を踏まえた動き。「どのメーカーのx86 CPUを買ってもACEが使える」という状態を最初から担保しようとしている。ソフトウェア開発者の視点では、これは非常に重要な保証だ。

IntelはサーバーCPU（Xeon）向けには**AMX（Advanced Matrix Extensions）**をすでにSapphire Rapids（2023年）から実装している。AMXとACEは似た発想の命令セットだが、AMXはIntel独自・サーバー専用だった。ACEはそれをAMD含むx86全体に開放・標準化した形とも言える——「Intelが持っていた技術をAMDが道連れにして標準にした」ともとれる。

「CPUでAI演算をやる意義はどこにあるのか」という根本的な問いがある。NPU（専用AIチップ）やGPUと比べると絶対性能では劣るのは否定できない。ただしCPUで動かす価値は「どのPCでも動く」という普遍性にある。GPUやNPUを持たない環境（エッジ・組み込み・軽量推論）での活用や、推論パイプラインの前処理・後処理をCPUで担うユースケースでACEは有効だ。

ARMはすでに**SME（Scalable Matrix Extension）**を保有しており、Apple M4に実装済み。x86のACEとARMのSMEは「CPUにテンソル演算コアを積む」という同じ方向性の答え。ARM陣営に先行を許していた領域をACEが追いかける構図だ。

「まだシリコンがない」という現実は正直に言って痛い。仕様だけ先に出てソフトウェアの準備を整えるというアプローチは戦略的に理解できるが、ユーザー・開発者からすると「いつ使えるのか」が明確でない状態が続く。

Zen 6・Nova Lakeともに2027年CES前後という見通しが出てきており、ACEが実際に動くハードウェアが手に入るのは早くて2027年初頭になりそうだ。DRAM不足・製造コスト上昇の波がCPU市場のスケジュールにも影響を及ぼしている。

AMDとIntelが協力して規格を作るというのは、東西冷戦中にNATOとワルシャワ条約機構が「核兵器の取り扱い説明書」を共同執筆するようなものであり、それだけARMという共通の脅威が二社の距離を縮めたということだ。

CPUがAI演算を「ネイティブにできる」時代が近づいている。それが「GPUの代替」になるわけではないが、AIを動かすためにGPUが必須という前提が少しずつ崩れていく予兆として、ACEは注目に値する。

ACEの「AVX10比16倍の計算密度」という数字は、デコードフェーズのような帯域律速ワークロードでは実質的に意味をなさない。LLM推論は1トークン生成のたびに巨大なウェイト行列を読み直す構造であり、演算強度（FLOP/byte）が極めて低い。DDR5デュアルチャネルの約100 GB/sという帯域の天井は、CPUの演算コアがどれだけ速くなっても動かない。

ACEが効果を発揮できる条件は相当限定的——プリフィルフェーズ（プロンプト一括処理）、L3キャッシュに収まる超小型モデル（INT4量子化で1〜2B程度）、バッチ処理による演算強度の向上、これらが揃わないと恩恵はほぼない。

裏を返せば、ACEの主な存在意義は演算性能の向上よりもARMのSMEへの対抗姿勢とエコシステムの統一にある。「x86でもAIが動く」という市場へのメッセージとして機能させることが本質的な狙いと見るべきで、帯域律速の根本問題を解決するものではない。