台湾のSkymizer、700Bパラメータ対応PCIe AIアクセラレータ「HTX301」を発表 — 240Wで動くが「GPUへの挑戦」は字義どおりではない

■事実

会社・製品の概要

Skymizer（台湾発展軟体科技股份有限公司）は台湾・新竹に拠点を置くAI推論特化のスタートアップです。

2026年4月23日、Computex 2026の展示に先立ちHTX301推論チップと対応PCIeカードを発表しました。

HTX301はSkymizer独自の「HyperThought」プラットフォーム上に構築された最初のリファレンスチップです。

HyperThoughtプラットフォーム自体はComputex 2025（2025年5月）で初公開済みです。

製品の初回出荷は2026年後半を予定とされており、現時点ではまだ量産前の段階です。

COMPUTEX 2026会場でのプレビュー展示が最初の公開デモとなります。

HTX301チップの基本仕様

チップ種別: LPU（Language Processing Unit） — 汎用GPUではなくLLM推論特化の専用プロセッサ

製造プロセス: 28nm（TSMC/TSMCではない可能性もあり、旧世代プロセス）

コア構成: Octa-Core（8コア）LPU

演算性能: 0.5 TOPS（1チップあたり）、対応メモリ帯域幅100 GB/s

独自ISA: LISA（Language Instruction Set Architecture）v3を採用 — Transformerの推論に特化した命令セット

1チップ単体でのLlama2 7Bプリフィル速度: 240トークン/秒

PCIeカードとしての構成

1枚のPCIeカードにHTX301チップを6基搭載

搭載メモリ: LPDDR4またはLPDDR5 DRAM（HBMでもGDDR6/7でもない標準DRAM）

最大メモリ容量: 384 GB

スケール構成: 1チップ（32GB）〜6チップ（384GB）で展開可能

6チップ構成時のLlama2 7Bプリフィル速度: 最大1,200トークン/秒

700Bパラメータモデルの推論サポートを謳う

TDP: 約240W

フォームファクター: 標準PCIe Add-in-Card（AIR-cooled server対応）

HyperThought固有のアーキテクチャ設計

LLM推論の2フェーズ「Prefill」と「Decode」を明確に分離して扱う設計です。（P/D Disaggregation）

Prefill（プロンプト処理、演算ヘビー）: 既存のGPUに担当させます。

Decode（トークン生成、メモリ帯域ヘビー）: HTX301が専担します。

KVキャッシュマネージャー・フェーズ認識スケジューラー・動的配置エンジンを含むソフトウェアスタックが両者を統合オーケストレーションします。

HTX301はGPUの「代替」ではなく「デコード特化のコプロセッサ」という位置づけです。

エッジからミニデータセンターまで同じLISA ISAで統一します。

圧縮技術の詳細

重みの圧縮（長期記憶）はオープンソースのllama.cppと比較して9〜17.8%の圧縮率改善です。

KVキャッシュ圧縮（短期記憶）はパープレキシティ（品質指標）の劣化は0.06〜3.52%以内と主張しています。

圧縮技術により、容量が限られたLPDDR系メモリでも大規模モデルを扱えると説明しています。

競合比較とポジショニング

項目	Skymizer HTX301 （6チップカード）	AMD Instinct MI350P	NVIDIA RTX PRO 6000 Blackwell
メモリ容量	384 GB（LPDDR4/5）	144 GB（HBM3E）	96 GB（GDDR7）
メモリ帯域幅（理論値）	〜600 GB/s程度（推定）	4,000 GB/s	〜1,800 GB/s
TDP	約240W	600W（設定により450W）	300W前後
プロセス	28nm	TSMC 3nm + 6nm	TSMC 4nm
用途	推論専用（Decodeに特化）	汎用AI推論・学習	汎用AI推論・学習
価格	未公表	未公表	$8,000〜$10,000前後（ワークステーション版）

700Bモデルを動かせる理由はメモリ容量（384GB）と圧縮技術の組み合わせ — 生のパラメータ数への対応ではありません。

■解説

「700Bパラメータモデルを1枚のPCIeカードで動かす」というキャッチコピーは技術的に正確だが、そのまま受け取ると誤解を生む。

HTX301が700Bを扱える理由は「384GBのLPDDR5 + 重み圧縮」の組み合わせ — つまり量子化・圧縮済みのモデルを大容量の安価なDRAMに収めるという発想だ。

0.5 TOPSという演算性能は極めて低い。現行のGPUは数百〜数千TOPSを持つ。HTX301はそもそも「コンピュート」で戦う製品ではなく、「帯域効率の良いデコード専用エンジン」として設計されている。

Prefill/Decode分離アーキテクチャは賢い設計だが、Prefillは依然GPUが必要という点を見落としてはいけない — 単独では完結しない。

帯域幅の問題が本質: LPDDR5の帯域幅はHBM3Eの数十分の一。384GBの容量があっても、トークン生成速度は帯域律速になりやすい。スループットが売りにならない構成だ。

「240W vs 600W」の電力比較は製品カテゴリが違う比較。専用デコードチップとフルスペックのAI演算アクセラレータを並べるのは、軽トラックとトレーラーを燃費で比べるようなものだ。

28nmというプロセスは2010年代前半に主流だったノード。低コスト・枯れた技術という意味では量産コスト面での優位性はあり得るが、性能密度では最新GPUと比較にならない。

LISAというプロプライエタリISAはエコシステムの囲い込みリスクを伴う — ソフトウェアスタックの互換性・移植コストが導入障壁になり得る。

現時点では独立した第三者によるベンチマーク結果が存在しない。Computex 2026が初の公開デモ。出荷は2026年後半予定であり、ここに挙がっている数値はすべて自社発表値だ。

「GPUクラスターが不要になる」という主張は過剰。正確には「デコードフェーズのオフロード先として、既存GPUインフラの補完になり得る」製品だ。

Computex 2026で実際の動作デモを見てから評価すべき製品。「紙の上では印象的」というのは記事ソース自身も認めているとおり。

メーカーによると製品は一言でいうとGPUと組み合わせるLLM推論アクセラレーターだ。

どの程度のGPUと組み合わせることが出来るのかでその価値が決まる。

詳細はcomputexまでわからないということだ。