Tenstorrent BlackholeとWormhole：ホビー向け生成AIには使えるのか？【2025年版実態調査】

2024年から2025年にかけて、Jim Keller率いるTenstorrentが提供するBlackholeとWormholeアクセラレータが話題を集めています。オープンソース戦略とRISC-Vアーキテクチャで「CUDA独占への挑戦」を掲げるこの製品は、技術者の理想を体現しているように見えます。

しかし、実際のところはどうでしょうか？ホビー向け生成AI用途で本当に使えるのか？ ComfyUIやStable Diffusion WebUIは動くのか？AMD ROCmやNVIDIA CUDAと比べてどうなのか？この記事では、2026年2月時点での現実を、技術的事実とエコシステムの観点から徹底検証します。

第1部：Tenstorrentとは何か

1.1 製品の基本スペック

モデル	世代	コア数	VRAM	帯域幅	価格
Blackhole p150a	最新	120 Tensix^*	32GB GDDR6	512 GB/s	$1,399
Blackhole p100a	最新	120 Tensix^*	28GB GDDR6	448 GB/s	$999
Wormhole n300d	前世代	128 Tensix（2チップ）	24GB GDDR6	576 GB/s	$1,449

^*2026年1月のファームウェア更新で140コアから120コアにダウングレード。詳細は後述。
[出典] Tenstorrent公式サイト^[1]

1.2 アーキテクチャの特徴

Blackholeの最大の特徴は、チップ単体でLinuxを実行できることです^[2]。16個の「Big RISC-V」64bitコア（デュアルイシュー、インオーダー実行）がホストOSとして機能し、さらに752個の「Baby RISC-V」コアがメモリ管理とデータ処理を担当します。

Blackhole RISC-V構成

Big RISC-V: 16コア（4クラスタ）→ Linux実行可能
Baby RISC-V: 752コア → メモリ管理、通信、処理
Tensixコア: 120コア（2026年1月ファームウェア更新で140→120にダウングレード）
FP8性能: 664 TFLOPS（BLOCKFP8、120コア時）
消費電力: 300W（RTX 4090の450Wより低消費電力）

1.3 【速報】コアダウングレード問題

2026年1月、Tenstorrentは突如としてBlackhole p150a/p100aのTensixコア数を140コアから120コアにダウングレードするファームウェア更新を実施しました^[14,15]。

⚠️ スペックダウンの実態

発売当初: 140 Tensixコア、774 TFLOPS（BLOCKFP8）
2026年1月以降: 120 Tensixコア、664 TFLOPS（約14%ダウン）
理由: 公式説明なし、「安定性向上のため」と推測されるのみ
補償: なし（既購入者への返金・交換なし）

Tom’s Hardware、VideoCardzなどのメディアが報じましたが、Tenstorrentからの正式な説明は限定的です^[14,15]。これは、同社のエコシステム成熟度の低さを示す象徴的な出来事と言えるでしょう。製品発売後にスペックダウンするという事態は、ハードウェア設計の不安定さ、あるいはソフトウェア最適化の遅れを示唆しています。

第2部：PythonとPyTorchの統合状況

2.1 ソフトウェアスタックの複雑さ

Tenstorrentは2025年現在、複数のフロントエンドを提供していますが、その状況は混沌としています。

Tenstorrentソフトウェアスタック（2025年2月時点）：PyTorchモデル

↓

【TT-XLA】 ← 現在の推奨フロントエンド（シングル/マルチチップ対応）

↓

【TT-MLIR】 ← MLIRベースコンパイラ

↓

【TT-NN】 ← ニューラルネットワークライブラリ

↓

【TT-Metal】 ← 低レベルプログラミングモデル

↓

Blackhole/Wormholeハードウェア非推奨：

– TT-Torch（PyTorch 2.0ベース、2025年時点で非推奨）

– TT-Buda（旧ソフトウェアプラットフォーム）

– pytorch2.0_ttnn（Deprecated）制限付き：

– TT-Forge-FE（単一チップのみ、マルチチップ非対応）

[出典] Tenstorrent GitHub – tt-forge^[3], tt-xla^[4]

⚠️ 重要ポイント

Tenstorrentは現在、TT-XLAへの統一化を進めています。従来のTT-TorchやTT-Budaは非推奨となり、エコシステムの再構築が進行中です。つまり、ソフトウェアスタック自体が過渡期にあります。

2.2 PyTorch統合の現実

フロントエンド	対応フレームワーク	マルチチップ	ステータス
TT-XLA	PyTorch, JAX	✅ 対応	推奨
TT-Forge-FE	ONNX, TensorFlow, PaddlePaddle	❌ 非対応	制限付き
TT-Torch	PyTorch 2.0	–	非推奨

[出典] TT-Forge公式ドキュメント^[3]

第3部：対応モデルの衝撃的な実態

3.1 公式サポートモデル（2025年2月時点）

✅ 動作確認済みモデル

LLM: Llama 3.1/3.3（8B、70B）、Mistral、Mixtral、Falcon、Qwen
画像生成: Stable Diffusion 1.4、SD 3.5 Medium（512×512）
音声: Whisper (distil-large-v3)
ビジョン: ResNet-50

❌ 非対応（ホビー向け重要モデル）

❌ Stable Diffusion XL
❌ Flux（全バージョン）
❌ ComfyUIネイティブ統合
❌ Automatic1111 WebUI
❌ LoRA、ControlNetなどの拡張機能
❌ Qwen2.5-VL、Gemma、最新のHugging Faceモデル大半

[出典] Tenstorrent Developers Hub^[5]

3.2 バウンティプログラムとコミュニティ戦略

Tenstorrentは積極的にバウンティプログラムを実施しています^[6]。例えば：

Depth-Anything-V2-Large実装：$1,500
その他多数のモデル移植にバウンティ設定

これはオープンソースプロジェクトとして、コミュニティの力を借りて開発を加速する戦略です。しかし裏を返せば、リソースが限られたスタートアップが、主要なモデル対応すら外部に依存している状況とも言えます。NVIDIAやAMDのような大企業と比べ、自社での最適化リソースが不足していることは明らかです。

第4部：パフォーマンスの残酷な現実

4.1 The Registerの実機レビューが暴いた問題

2025年11月、The Registerが実施したBlackhole QuietBoxの実機レビュー^[7]で、衝撃的な事実が明らかになりました：

⚠️ 性能未達の実態

理論値の半分程度しか性能が出ていない
Blackholeのメモリ帯域幅（384 GB/s）が活かされていない
実測値は前世代Wormhole（288 GB/s）相当
各モデルに手書きカスタムカーネルが必要
Blackhole用の最適化がほとんど進んでいない

4.2 LLM推論速度の比較

プラットフォーム	モデル	速度（tokens/s）	備考
Tenstorrent（公式）	Llama 3.1 8B	24 t/s/u	最適化済み（2024年）
Tenstorrent（GGML個人開発）	TinyLLaMA 1B	6 t/s	2024年11月初期実装、150W消費
NVIDIA RTX 4090	Llama 3.1 8B	130-150 t/s	llama.cpp Q4量子化
AMD RX 7900 XTX	Llama 3.1 8B	70-90 t/s	ROCm経由、Q4量子化（筆者推定値）

[出典] The Register^[7], Martin’s Blog (GGML実装、2024年11月)^[8], 各種ベンチマーク

4.3 メモリ帯域幅の致命的な弱点

LLM推論ではメモリ帯域幅が速度を決定します。VRAMが多くても、帯域幅が不足していれば大幅に遅くなります。

モデル	VRAM	帯域幅	価格（概算）
Blackhole p150a	32GB	512 GB/s	$1,399
RTX 3090（中古）	24GB	936 GB/s	$1,000
RTX 5090	32GB	1,792 GB/s	$2,000
RX 7900 XTX	24GB	960 GB/s	$900

Blackhole p150aは32GBという大容量VRAMを搭載していますが、メモリ帯域幅は512 GB/sとNVIDIA/AMD製品の半分程度しかありません。これがLLM推論の大きなボトルネックになっています。

第5部：エコシステムの決定的な欠如

5.1 NVIDIAの圧倒的優位性

NVIDIA CUDAが強い理由は、ハードウェア性能だけではありません：

2007年から17年以上の蓄積
cuDNN、cuBLAS、TensorRTなど最適化ライブラリ群
PyTorch/TensorFlowのネイティブサポート
ComfyUI、A1111、Kohya_ss：すべて「動いて当然」
HuggingFaceモデル：99%がそのまま動く
Stack Overflow、GitHub：膨大な知識ベース

5.2 AMD ROCmとTenstorrentの比較

項目	AMD ROCm	Tenstorrent
PyTorch統合	torch.cuda互換で比較的スムーズ	TT-XLA経由、複雑な構成
ComfyUI	✅ 動作（一部課題あり）	❌ 完全非対応
SD WebUI	✅ 動作	❌ 完全非対応
モデル対応	大半のHugging Faceモデル	公式対応モデルのみ
ドキュメント	充実してきた	断片的
コミュニティ	活発（日本語情報も増加）	極小
メモリ帯域幅	RX 7900 XTX: 960 GB/s	p150a: 384 GB/s

5.3 Tenstorrentの現状まとめ

提供されているのは「ハードウェア + 低レベルAPI」のみ。その上に構築されるべき膨大なミドルウェア層が存在しません：

❌ 欠如しているもの

ComfyUIプラグイン
Stable Diffusion WebUI対応
HuggingFace Transformers直接サポート
LoRA/ControlNet
日本語チュートリアル
活発なDiscordコミュニティ

第6部：過去の失敗例に学ぶ

6.1 理念は立派、現実は厳しい

歴史は、理念だけではエコシステムを作れないことを教えてくれます。

プロジェクト	期間	理念	現実	結果
OpenCL	2008-2015頃	ベンダー中立、オープン標準	誰も最適化しない、NVIDIAは本気出さない	事実上死亡
Itanium	2001-2021	EPIC、VLIWの革命	コンパイラが追いつかない、x86に敗北	20年かけて終了
FirefoxOS	2013-2016	オープンなモバイルOS	アプリエコシステムがない	3年で撤退

[出典] Wikipedia各項目、技術史資料

6.2 NVIDIAの「汚い勝ち方」

Jensen Huangは理念より実利を選びました：

CUDA囲い込み（クローズド、でも完璧に動く）
大学への無償提供（エコシステム育成に10年投資）
ライブラリ整備（cuDNN、TensorRT、全部自前）
開発者体験最優先（ドキュメント、サンプル、充実したサポート）

「オープンじゃない」「ロックインだ」と批判されても、圧倒的に使いやすいから勝ちました。

第7部：Jim Kellerの理想と現実のギャップ

7.1 掲げる理念（95点）

✅ Tenstorrentの理念

オープンソース徹底（”access down to the metal”）
RISC-V（ロイヤリティフリー）
ベンダーロックイン回避
スケーラブルなアーキテクチャ
CUDA独占への挑戦

技術者として、これらはすべて正しい方向性です。

7.2 現実の評価（15点）

❌ 実用性の評価

エコシステム不在
ドキュメント断片的
コミュニティ極小
パフォーマンス未最適化
対応モデル限定的
ホビー用途で使えない

第8部：誰が買うべきか、買うべきでないか

8.1 買ってもいい人（デベロッパー限定）

✅ こんな人なら検討可能

バウンティプログラムで報酬を得たい
RISC-VやMLIRコンパイラ技術に興味がある
オープンソースコントリビューションが好き
論文執筆や研究目的
2-3年後を見据えた先行投資

8.2 絶対に買うべきでない人（ホビーユーザー）

❌ こんな人は買ってはいけない

Stable DiffusionやFluxを使いたい
ComfyUIで快適に画像生成したい
LLMローカル実行環境を構築したい
最新モデルをすぐ試したい
セットアップに時間をかけたくない
実用的な速度が必要

⚠️ 結論

2025年2月時点で、ホビー向け生成AI用途には完全に時期尚早です。

第9部：実用的な代替案

9.1 現時点でのベストチョイス

カテゴリ	推奨製品	VRAM	価格	備考
NVIDIA（ハイエンド）	RTX 5090	32GB	$2,000	入手困難
NVIDIA（ミドル）	RTX 4070 Ti SUPER	16GB	$800前後	バランス良好
NVIDIA（中古）	RTX 3090	24GB	$900-1,100	帯域幅936 GB/sは今でも強力
AMD	RX 7900 XTX	24GB	$900前後	ROCmスクリプト整備進行中
AMD（新型）	RX 9070 XT	16GB	$549	2025年発売

9.2 AMD ROCmの可能性

ROCmは確かに課題がありますが、Tenstorrentより遥かに実用的です：

torch.cuda互換性がある程度ある
ComfyUI、WebUIが動く
日本語情報が増えつつある
ハードウェア性能は十分
環境構築スクリプトが充実してきた

第10部：今後の展望

10.1 Tenstorrentが使えるようになる条件

条件	予想時期	内容
1. Blackhole最適化完了	2026年後半？	メモリ帯域幅を活かしきる、LLM推論速度が実用レベルに
2. エコシステム構築	2027年以降？	ComfyUI/WebUI統合、HuggingFace直接サポート、LoRA/ControlNet対応
3. コミュニティ形成	時期不明	日本語情報充実、Stack Overflow質問蓄積、YouTubeチュートリアル

10.2 2027年のAI市場調整との関係

市場調整が起きた場合、Tenstorrentにとってはチャンスになり得ます：

NVIDIA独占が揺らぐ可能性
オープンソース戦略が価値を持つ
RISC-Vの柔軟性が活きる

しかしそれまでにエコシステムを構築できるかが鍵です。AMD ROCmですら数年かかっている現実を考えると、楽観はできません。

まとめ

理念は素晴らしいが、現実は厳しい

Jim Kellerは天才であり、Tenstorrentの理念は正しい。しかし：

エコシステムなきハードウェアは、ホビー向けには使えない高価なデベロッパーキットである

2025年2月時点での結論

用途	推奨度	コメント
ホビー向け画像生成	★☆☆☆☆	完全非対応、代替案を推奨
ホビー向けLLM	★☆☆☆☆	速度・対応モデルで実用性なし
研究・開発	★★★☆☆	バウンティ目的なら可
先行投資	★★☆☆☆	2-3年後に化けるかは不明

技術サイト運営者としての責任

理念に共感はできても、実用性がないものを読者に薦めるわけにはいかない。

現時点でのベストアドバイス：

NVIDIA RTX 4090/5090を入手するか
AMD RX 7900 XTX/9070 XTでROCm環境構築するか
中古RTX 3090でコストを抑えるか

Tenstorrentは「ウォッチリスト入り、購入は2027年以降」という位置づけが妥当です。

最後に

10年後振り返って「Tenstorrentは先見の明があった」と言われる可能性はあります。しかし2026年時点で$1,399のp150aを買ってTinyLLaMA 1Bを6 tok/sで動かすのは、趣味としても苦行です。

技術の進化を追跡する価値はありますが、実用するには明らかに時期尚早。エコシステムの成熟を待つのが賢明な判断です。

参考文献

Tenstorrent公式サイト「Blackhole™」
https://tenstorrent.com/en/hardware/blackhole
The Register「Tenstorrent details its RISC-V packed Blackhole chips」（2024年8月27日）
https://www.theregister.com/2024/08/27/tenstorrent_ai_blackhole/
GitHub「tenstorrent/tt-forge」
https://github.com/tenstorrent/tt-forge
Tenstorrent Docs「TT-XLA documentation」
https://docs.tenstorrent.com/tt-xla/
Tenstorrent「Developers Hub」
https://tenstorrent.com/developers
GitHub「tenstorrent/tt-metal – Issues」Bounty Program
Tenstorrent Bounty Issues
The Register「Blackhole QuietBox, Tenstorrent’s AI workstation reviewed」（2025年11月27日）
https://www.theregister.com/2025/11/27/tenstorrent_quietbox_review/
Martin’s website/blog「Full LLMs running on Tenstorrent + GGML」（2024年11月13日）
Martin’s Blog – GGML Implementation
GitHub「tenstorrent/pytorch2.0_ttnn」（Deprecated）
https://github.com/tenstorrent/pytorch2.0_ttnn
SemiAnalysis「Tenstorrent Blackhole, Grendel, And Buda」（2022年4月12日）
https://semianalysis.com/2022/04/12/tenstorrent-blackhole-grendel-and/
HotHardware「Tenstorrent Wormhole Dev Kits and Workstations Power High-End AI Development」（2024年7月18日）
https://hothardware.com/news/tenstorrent-wormhole-developer-kits-workstations
Hardware Corner「Running Local LLMs? This 32GB Card Might Be Better Than Your RTX 5090」（2025年4月14日）
https://www.hardware-corner.net/tenstorrent-card-is-it-better-then-rtx/
EE Times「Tenstorrent Shows Off Single-User LLM Speed For Workstation」（2024年10月1日）
https://www.eetimes.com/tenstorrent-shows-off-single-user-llm-speed-for-workstation/
Tom’s Hardware「Tenstorrent Blackhole AI Accelerator Downgrades to 120 Tensix Cores」（2026年2月5日）
Tom’s Hardware
VideoCardz「Tenstorrent Blackhole Gets Firmware Update Reducing Core Count」（2026年2月6日）
VideoCardz

本記事は、事実確認を複数回実施し、15の信頼できる出典を基に執筆しました。（2026年2月）