自作PCユーザーがゲーム用PCの解説をします

自作ユーザーが解説するゲーミングPCガイド

Tenstorrent BlackholeとWormhole:ホビー向け生成AIには使えるのか?【2025年版実態調査】

投稿日:

2024年から2025年にかけて、Jim Keller率いるTenstorrentが提供するBlackholeとWormholeアクセラレータが話題を集めています。オープンソース戦略とRISC-Vアーキテクチャで「CUDA独占への挑戦」を掲げるこの製品は、技術者の理想を体現しているように見えます。

しかし、実際のところはどうでしょうか?ホビー向け生成AI用途で本当に使えるのか? ComfyUIやStable Diffusion WebUIは動くのか?AMD ROCmやNVIDIA CUDAと比べてどうなのか?この記事では、2026年2月時点での現実を、技術的事実とエコシステムの観点から徹底検証します。

第1部:Tenstorrentとは何か

1.1 製品の基本スペック

モデル 世代 コア数 VRAM 帯域幅 価格
Blackhole p150a 最新 120 Tensix* 32GB GDDR6 512 GB/s $1,399
Blackhole p100a 最新 120 Tensix* 28GB GDDR6 448 GB/s $999
Wormhole n300d 前世代 128 Tensix(2チップ) 24GB GDDR6 576 GB/s $1,449

*2026年1月のファームウェア更新で140コアから120コアにダウングレード。詳細は後述。
[出典] Tenstorrent公式サイト[1]

1.2 アーキテクチャの特徴

Blackholeの最大の特徴は、チップ単体でLinuxを実行できることです[2]。16個の「Big RISC-V」64bitコア(デュアルイシュー、インオーダー実行)がホストOSとして機能し、さらに752個の「Baby RISC-V」コアがメモリ管理とデータ処理を担当します。

Blackhole RISC-V構成

  • Big RISC-V: 16コア(4クラスタ)→ Linux実行可能
  • Baby RISC-V: 752コア → メモリ管理、通信、処理
  • Tensixコア: 120コア(2026年1月ファームウェア更新で140→120にダウングレード)
  • FP8性能: 664 TFLOPS(BLOCKFP8、120コア時)
  • 消費電力: 300W(RTX 4090の450Wより低消費電力)

1.3 【速報】コアダウングレード問題

2026年1月、Tenstorrentは突如としてBlackhole p150a/p100aのTensixコア数を140コアから120コアにダウングレードするファームウェア更新を実施しました[14,15]

⚠️ スペックダウンの実態

  • 発売当初: 140 Tensixコア、774 TFLOPS(BLOCKFP8)
  • 2026年1月以降: 120 Tensixコア、664 TFLOPS(約14%ダウン)
  • 理由: 公式説明なし、「安定性向上のため」と推測されるのみ
  • 補償: なし(既購入者への返金・交換なし)

Tom’s Hardware、VideoCardzなどのメディアが報じましたが、Tenstorrentからの正式な説明は限定的です[14,15]。これは、同社のエコシステム成熟度の低さを示す象徴的な出来事と言えるでしょう。製品発売後にスペックダウンするという事態は、ハードウェア設計の不安定さ、あるいはソフトウェア最適化の遅れを示唆しています。

第2部:PythonとPyTorchの統合状況

2.1 ソフトウェアスタックの複雑さ

Tenstorrentは2025年現在、複数のフロントエンドを提供していますが、その状況は混沌としています。

Tenstorrentソフトウェアスタック(2025年2月時点):PyTorchモデル

【TT-XLA】 ← 現在の推奨フロントエンド(シングル/マルチチップ対応)

【TT-MLIR】 ← MLIRベースコンパイラ

【TT-NN】 ← ニューラルネットワークライブラリ

【TT-Metal】 ← 低レベルプログラミングモデル

Blackhole/Wormholeハードウェア非推奨:
– TT-Torch(PyTorch 2.0ベース、2025年時点で非推奨)
– TT-Buda(旧ソフトウェアプラットフォーム)
– pytorch2.0_ttnn(Deprecated)制限付き:
– TT-Forge-FE(単一チップのみ、マルチチップ非対応)

[出典] Tenstorrent GitHub – tt-forge[3], tt-xla[4]

⚠️ 重要ポイント

Tenstorrentは現在、TT-XLAへの統一化を進めています。従来のTT-TorchやTT-Budaは非推奨となり、エコシステムの再構築が進行中です。つまり、ソフトウェアスタック自体が過渡期にあります。

2.2 PyTorch統合の現実

フロントエンド 対応フレームワーク マルチチップ ステータス
TT-XLA PyTorch, JAX ✅ 対応 推奨
TT-Forge-FE ONNX, TensorFlow, PaddlePaddle ❌ 非対応 制限付き
TT-Torch PyTorch 2.0 非推奨

[出典] TT-Forge公式ドキュメント[3]

第3部:対応モデルの衝撃的な実態

3.1 公式サポートモデル(2025年2月時点)

✅ 動作確認済みモデル

  • LLM: Llama 3.1/3.3(8B、70B)、Mistral、Mixtral、Falcon、Qwen
  • 画像生成: Stable Diffusion 1.4、SD 3.5 Medium(512×512)
  • 音声: Whisper (distil-large-v3)
  • ビジョン: ResNet-50

❌ 非対応(ホビー向け重要モデル)

  • ❌ Stable Diffusion XL
  • ❌ Flux(全バージョン)
  • ❌ ComfyUIネイティブ統合
  • ❌ Automatic1111 WebUI
  • ❌ LoRA、ControlNetなどの拡張機能
  • ❌ Qwen2.5-VL、Gemma、最新のHugging Faceモデル大半

[出典] Tenstorrent Developers Hub[5]

3.2 バウンティプログラムとコミュニティ戦略

Tenstorrentは積極的にバウンティプログラムを実施しています[6]。例えば:

  • Depth-Anything-V2-Large実装:$1,500
  • その他多数のモデル移植にバウンティ設定

これはオープンソースプロジェクトとして、コミュニティの力を借りて開発を加速する戦略です。しかし裏を返せば、リソースが限られたスタートアップが、主要なモデル対応すら外部に依存している状況とも言えます。NVIDIAやAMDのような大企業と比べ、自社での最適化リソースが不足していることは明らかです。

第4部:パフォーマンスの残酷な現実

4.1 The Registerの実機レビューが暴いた問題

2025年11月、The Registerが実施したBlackhole QuietBoxの実機レビュー[7]で、衝撃的な事実が明らかになりました:

⚠️ 性能未達の実態

  1. 理論値の半分程度しか性能が出ていない
  2. Blackholeのメモリ帯域幅(384 GB/s)が活かされていない
  3. 実測値は前世代Wormhole(288 GB/s)相当
  4. 各モデルに手書きカスタムカーネルが必要
  5. Blackhole用の最適化がほとんど進んでいない

4.2 LLM推論速度の比較

プラットフォーム モデル 速度(tokens/s) 備考
Tenstorrent(公式) Llama 3.1 8B 24 t/s/u 最適化済み(2024年)
Tenstorrent(GGML個人開発) TinyLLaMA 1B 6 t/s 2024年11月初期実装、150W消費
NVIDIA RTX 4090 Llama 3.1 8B 130-150 t/s llama.cpp Q4量子化
AMD RX 7900 XTX Llama 3.1 8B 70-90 t/s ROCm経由、Q4量子化(筆者推定値)

[出典] The Register[7], Martin’s Blog (GGML実装、2024年11月)[8], 各種ベンチマーク

4.3 メモリ帯域幅の致命的な弱点

LLM推論ではメモリ帯域幅が速度を決定します。VRAMが多くても、帯域幅が不足していれば大幅に遅くなります。

モデル VRAM 帯域幅 価格(概算)
Blackhole p150a 32GB 512 GB/s $1,399
RTX 3090(中古) 24GB 936 GB/s $1,000
RTX 5090 32GB 1,792 GB/s $2,000
RX 7900 XTX 24GB 960 GB/s $900

Blackhole p150aは32GBという大容量VRAMを搭載していますが、メモリ帯域幅は512 GB/sとNVIDIA/AMD製品の半分程度しかありません。これがLLM推論の大きなボトルネックになっています。

第5部:エコシステムの決定的な欠如

5.1 NVIDIAの圧倒的優位性

NVIDIA CUDAが強い理由は、ハードウェア性能だけではありません:

  • 2007年から17年以上の蓄積
  • cuDNN、cuBLAS、TensorRTなど最適化ライブラリ群
  • PyTorch/TensorFlowのネイティブサポート
  • ComfyUI、A1111、Kohya_ss:すべて「動いて当然」
  • HuggingFaceモデル:99%がそのまま動く
  • Stack Overflow、GitHub:膨大な知識ベース

5.2 AMD ROCmとTenstorrentの比較

項目 AMD ROCm Tenstorrent
PyTorch統合 torch.cuda互換で比較的スムーズ TT-XLA経由、複雑な構成
ComfyUI ✅ 動作(一部課題あり) ❌ 完全非対応
SD WebUI ✅ 動作 ❌ 完全非対応
モデル対応 大半のHugging Faceモデル 公式対応モデルのみ
ドキュメント 充実してきた 断片的
コミュニティ 活発(日本語情報も増加) 極小
メモリ帯域幅 RX 7900 XTX: 960 GB/s p150a: 384 GB/s

5.3 Tenstorrentの現状まとめ

提供されているのは「ハードウェア + 低レベルAPI」のみ。その上に構築されるべき膨大なミドルウェア層が存在しません

❌ 欠如しているもの

  • ComfyUIプラグイン
  • Stable Diffusion WebUI対応
  • HuggingFace Transformers直接サポート
  • LoRA/ControlNet
  • 日本語チュートリアル
  • 活発なDiscordコミュニティ

第6部:過去の失敗例に学ぶ

6.1 理念は立派、現実は厳しい

歴史は、理念だけではエコシステムを作れないことを教えてくれます。

プロジェクト 期間 理念 現実 結果
OpenCL 2008-2015頃 ベンダー中立、オープン標準 誰も最適化しない、NVIDIAは本気出さない 事実上死亡
Itanium 2001-2021 EPIC、VLIWの革命 コンパイラが追いつかない、x86に敗北 20年かけて終了
FirefoxOS 2013-2016 オープンなモバイルOS アプリエコシステムがない 3年で撤退

[出典] Wikipedia各項目、技術史資料

6.2 NVIDIAの「汚い勝ち方」

Jensen Huangは理念より実利を選びました:

  1. CUDA囲い込み(クローズド、でも完璧に動く)
  2. 大学への無償提供(エコシステム育成に10年投資)
  3. ライブラリ整備(cuDNN、TensorRT、全部自前)
  4. 開発者体験最優先(ドキュメント、サンプル、充実したサポート)

「オープンじゃない」「ロックインだ」と批判されても、圧倒的に使いやすいから勝ちました。

第7部:Jim Kellerの理想と現実のギャップ

7.1 掲げる理念(95点)

✅ Tenstorrentの理念

  • オープンソース徹底(”access down to the metal”)
  • RISC-V(ロイヤリティフリー)
  • ベンダーロックイン回避
  • スケーラブルなアーキテクチャ
  • CUDA独占への挑戦

技術者として、これらはすべて正しい方向性です。

7.2 現実の評価(15点)

❌ 実用性の評価

  • エコシステム不在
  • ドキュメント断片的
  • コミュニティ極小
  • パフォーマンス未最適化
  • 対応モデル限定的
  • ホビー用途で使えない

第8部:誰が買うべきか、買うべきでないか

8.1 買ってもいい人(デベロッパー限定)

✅ こんな人なら検討可能

  • バウンティプログラムで報酬を得たい
  • RISC-VやMLIRコンパイラ技術に興味がある
  • オープンソースコントリビューションが好き
  • 論文執筆や研究目的
  • 2-3年後を見据えた先行投資

8.2 絶対に買うべきでない人(ホビーユーザー)

❌ こんな人は買ってはいけない

  • Stable DiffusionやFluxを使いたい
  • ComfyUIで快適に画像生成したい
  • LLMローカル実行環境を構築したい
  • 最新モデルをすぐ試したい
  • セットアップに時間をかけたくない
  • 実用的な速度が必要

⚠️ 結論

2025年2月時点で、ホビー向け生成AI用途には完全に時期尚早です。

第9部:実用的な代替案

9.1 現時点でのベストチョイス

カテゴリ 推奨製品 VRAM 価格 備考
NVIDIA(ハイエンド) RTX 5090 32GB $2,000 入手困難
NVIDIA(ミドル) RTX 4070 Ti SUPER 16GB $800前後 バランス良好
NVIDIA(中古) RTX 3090 24GB $900-1,100 帯域幅936 GB/sは今でも強力
AMD RX 7900 XTX 24GB $900前後 ROCmスクリプト整備進行中
AMD(新型) RX 9070 XT 16GB $549 2025年発売

9.2 AMD ROCmの可能性

ROCmは確かに課題がありますが、Tenstorrentより遥かに実用的です:

  • torch.cuda互換性がある程度ある
  • ComfyUI、WebUIが動く
  • 日本語情報が増えつつある
  • ハードウェア性能は十分
  • 環境構築スクリプトが充実してきた

第10部:今後の展望

10.1 Tenstorrentが使えるようになる条件

条件 予想時期 内容
1. Blackhole最適化完了 2026年後半? メモリ帯域幅を活かしきる、LLM推論速度が実用レベルに
2. エコシステム構築 2027年以降? ComfyUI/WebUI統合、HuggingFace直接サポート、LoRA/ControlNet対応
3. コミュニティ形成 時期不明 日本語情報充実、Stack Overflow質問蓄積、YouTubeチュートリアル

10.2 2027年のAI市場調整との関係

市場調整が起きた場合、Tenstorrentにとってはチャンスになり得ます:

  • NVIDIA独占が揺らぐ可能性
  • オープンソース戦略が価値を持つ
  • RISC-Vの柔軟性が活きる

しかしそれまでにエコシステムを構築できるかが鍵です。AMD ROCmですら数年かかっている現実を考えると、楽観はできません。

まとめ

理念は素晴らしいが、現実は厳しい

Jim Kellerは天才であり、Tenstorrentの理念は正しい。しかし:

エコシステムなきハードウェアは、ホビー向けには使えない高価なデベロッパーキットである

2025年2月時点での結論

用途 推奨度 コメント
ホビー向け画像生成 ★☆☆☆☆ 完全非対応、代替案を推奨
ホビー向けLLM ★☆☆☆☆ 速度・対応モデルで実用性なし
研究・開発 ★★★☆☆ バウンティ目的なら可
先行投資 ★★☆☆☆ 2-3年後に化けるかは不明

技術サイト運営者としての責任

理念に共感はできても、実用性がないものを読者に薦めるわけにはいかない

現時点でのベストアドバイス:

  1. NVIDIA RTX 4090/5090を入手するか
  2. AMD RX 7900 XTX/9070 XTでROCm環境構築するか
  3. 中古RTX 3090でコストを抑えるか

Tenstorrentは「ウォッチリスト入り、購入は2027年以降」という位置づけが妥当です。

最後に

10年後振り返って「Tenstorrentは先見の明があった」と言われる可能性はあります。しかし2026年時点で$1,399のp150aを買ってTinyLLaMA 1Bを6 tok/sで動かすのは、趣味としても苦行です。

技術の進化を追跡する価値はありますが、実用するには明らかに時期尚早。エコシステムの成熟を待つのが賢明な判断です。

参考文献

  1. Tenstorrent公式サイト「Blackhole™」
    https://tenstorrent.com/en/hardware/blackhole
  2. The Register「Tenstorrent details its RISC-V packed Blackhole chips」(2024年8月27日)
    https://www.theregister.com/2024/08/27/tenstorrent_ai_blackhole/
  3. GitHub「tenstorrent/tt-forge」
    https://github.com/tenstorrent/tt-forge
  4. Tenstorrent Docs「TT-XLA documentation」
    https://docs.tenstorrent.com/tt-xla/
  5. Tenstorrent「Developers Hub」
    https://tenstorrent.com/developers
  6. GitHub「tenstorrent/tt-metal – Issues」Bounty Program
    Tenstorrent Bounty Issues
  7. The Register「Blackhole QuietBox, Tenstorrent’s AI workstation reviewed」(2025年11月27日)
    https://www.theregister.com/2025/11/27/tenstorrent_quietbox_review/
  8. Martin’s website/blog「Full LLMs running on Tenstorrent + GGML」(2024年11月13日)
    Martin’s Blog – GGML Implementation
  9. GitHub「tenstorrent/pytorch2.0_ttnn」(Deprecated)
    https://github.com/tenstorrent/pytorch2.0_ttnn
  10. SemiAnalysis「Tenstorrent Blackhole, Grendel, And Buda」(2022年4月12日)
    https://semianalysis.com/2022/04/12/tenstorrent-blackhole-grendel-and/
  11. HotHardware「Tenstorrent Wormhole Dev Kits and Workstations Power High-End AI Development」(2024年7月18日)
    https://hothardware.com/news/tenstorrent-wormhole-developer-kits-workstations
  12. Hardware Corner「Running Local LLMs? This 32GB Card Might Be Better Than Your RTX 5090」(2025年4月14日)
    https://www.hardware-corner.net/tenstorrent-card-is-it-better-then-rtx/
  13. EE Times「Tenstorrent Shows Off Single-User LLM Speed For Workstation」(2024年10月1日)
    https://www.eetimes.com/tenstorrent-shows-off-single-user-llm-speed-for-workstation/
  14. Tom’s Hardware「Tenstorrent Blackhole AI Accelerator Downgrades to 120 Tensix Cores」(2026年2月5日)
    Tom’s Hardware
  15. VideoCardz「Tenstorrent Blackhole Gets Firmware Update Reducing Core Count」(2026年2月6日)
    VideoCardz

本記事は、事実確認を複数回実施し、15の信頼できる出典を基に執筆しました。(2026年2月)