Anthropicが「危険すぎる」としてClaude Fable 5にブロックリストを設定——サイバーセキュリティ・生物学・化学に回答せず、企業には強制30日データ保持の波紋も

■事実

Claude Fable 5の概要

Anthropicが2026年6月9日、「Mythosクラス」初の一般公開モデル「Claude Fable 5」をリリースしました。

MythosクラスはこれまでのOpus系の上位に新設された新カテゴリです。

Claude Fable 5とClaude Mythos 5は実質的に同じ基盤モデルを共有——違いはセーフティクラシファイアの有無のみです。

コンテキストウィンドウ：100万トークン、出力上限は128,000トークンです。

Mythos 5との2層構造

Mythos 5はProject Glasswingを通じた審査済みパートナー（15カ国の重要インフラ管理組織等）のみにアクセス許可、サイバーセキュリティ制限を解除した版です。

Fable 5は一般ユーザー向け——同じモデルにセーフティクラシファイアを適用した版です。

Mythos Previewは今年4月7日から約50の防衛セキュリティパートナーに限定提供していたものです。

回答拒否するカテゴリ（セーフティクラシファイア）

ブロック対象の4カテゴリで、サイバーセキュリティ、生物学、化学、モデル蒸留（distillation）です。

ブロック発動時は自動的にClaude Opus 4.8にフォールバックし、処理を続行します。

ユーザーにはポップアップで「Fable 5 has safety measures that flag messages on most cybersecurity or biology topics」と表示します。

Fable 5の攻撃的サイバータスク進捗率は0%（ブロッキングモード）です。

Anthropic公表値では全セッションの95%以上でフォールバックは発動しません。

なぜここまで保守的な設定か——ExploitBench問題

Mythos 5がExploitBench（脆弱コードの悪用タスクベンチマーク）で78%を達成しました。

比較するとOpus 4.8は40%、Mythos Preview（旧ベータ）は69%です。

この能力でモデルが「エージェント型ハッキング」——多段階のサイバー攻撃を端から端まで自律実行——を行えるとAnthropicは判断します。

英国AI安全研究所（UK AISI）が「普遍的なジェイルブレイク」に向けて初期テスト窓での部分的進捗を達成したことも公表しています。

Anthropicは外部バグバウンティにて1,000時間超のテストを実施、「普遍的なジェイルブレイク」は未発見と主張しています。

「ミトコンドリアで詰まる」問題

The VergeおよびBusiness Insiderが実証テストを実施しています。

「ミトコンドリアは細胞のパワーハウスですよね？」という質問でもフラグが立ちフォールバック発動を確認しています。

「mRNAワクチンの仕組み」「がんの進行について」でも同様の応答拒否を確認しました。

Anthropicのコメントは「生物学業務に関連するほとんどのクエリをブロックするよう、意図的に保守的な設定にした。リリース後に誤検知を削減していく」とのことです。

ベンチマーク比較

ベンチマーク	Fable 5（公開版）	Mythos 5（制限版）	Opus 4.8
ExploitBench（サイバー悪用）	0%（ブロック）	78.0%	40.0%
SWE-Bench Pro（コーディング）	80.3%	80.3%	69.2%
FrontierCode Diamond	29.3%	—	13.4%

コーディング・知識系はブロック対象外のため、Fable 5でもMythos 5と同等のスコアを発揮します。

強制データ保持ポリシー——企業リスクの火種

Fable 5 / Mythos 5の全トラフィックに対し、30日間のデータ保持を義務化しています。

既存の他Claudeモデル（Opus 4.8・Sonnet 4.6・Haiku 4.5）はZDR（ゼロデータリテンション）契約が可能だが、Fable/Mythosでは例外なしです。

セーフティクラシファイアでフラグが立った場合は最大2年間保持します。

Anthropicは「AIトレーニングには使用しない、安全目的のみ」「複雑・新規な攻撃への対処のみに限定する」と説明しています。

人間によるレビューの可能性を含みます。

Microsoftの社内利用制限

社内GitHub CopilotのモデルピッカーからClaude Fable 5が除外されています。

Microsoftの法務チームがAnthropicの新データ保持ポリシーを評価中です。

懸念の核心は顧客データ・社内機密情報が第三者（Anthropic）側に保持されるリスクがあります。

Opus 4.8等のZDR対応モデルは引き続き社内利用可能です。

生命科学向け特別アクセス枠の計画

将来的に生命科学分野の信頼組織向けに、生物学・化学の制限を緩和する特別枠を設置予定です。

ただしサイバーセキュリティのブロックは維持します。

料金と提供形態

APIは入力$10/百万トークン、出力$50/百万トークン（Opus 4.8の2倍）です。

Pro・Max・Team・Enterpriseプランで2026年6月22日まで無料トライアルを行っています。

6月23日以降はUsage Credits（従量課金）に移行、標準プランへの再統合は「できるだけ早く」とのこと。

Anthropicの企業コンテキスト

2026年6月1日にIPO（株式上場）を機密申請しました。

直近調達ラウンドでの評価額：9,650億ドル（約135兆円）、OpenAIを上回ります。

Fable 5リリースの約1週間前に「AIが再帰的自己改善（RSI）の閾値に近づいている」という公開書簡を発表しました。

2026年初頭時点でのAnthropicのLLM収益シェアは約31.4%（OpenAIをわずかにリード）です。

解説

「ミトコンドリアはパワーハウス」でブロックされる問題が示すこと

分類器の粒度が荒すぎると「生物学っぽい言葉」を含むあらゆるクエリが引っかかる。

がんについて調べる患者、高校生の宿題、製薬エンジニアの実務、すべてが同じ扱いになる。

Anthropicは「意図的に保守的にした」と認めているので、誤検知率が高いことは設計上の選択——ただしそれが実際のユーザー体験とどう折り合うかは別問題だ。

「ミトコンドリアは細胞のパワーハウスです」と入力して生体兵器リスクの警告が出るなら、世界中の中学生の理科の宿題は全員ハイリスク扱いになる。

ExploitBench 78%という数字の重さ

40%（Opus 4.8）から78%（Mythos 5）への跳躍は、単なる性能向上ではなく「質的変化の閾値を超えた可能性がある」とAnthropicが判断したものだ。

多段階サイバー攻撃の自律実行が可能なモデルを何の制限もなく公開することへの危機感は、少なくとも数字の上では根拠がある。

英国AI安全研究所が部分的なジェイルブレイクに成功したという事実を自ら公表したのは、珍しい誠実さだ。

「AIが危険だと警告した翌週にそのモデルを売る」という構図

Anthropicは「AIが危険になりすぎている（RSIリスク）」と訴えた直後にFable 5をリリースした。

これを矛盾と読むか「管理された形での前進」と読むかで評価が分かれる。

ただしIPO申請（評価額9,650億ドル）と同時期であることは事実として記しておく必要がある。

「危機を叫びながら全速前進する」というパターンは、シリコンバレー流のコミュニケーションの定番ではある。

30日強制保持は「最強のモデル」を使えなくする企業が続出する可能性

GDPR・HIPAA・日本の個人情報保護法などの文脈では、第三者による入出力の30日保持はコンプライアンス上の地雷になりうる。

法律事務所・医療機関・金融機関・官公庁での業務利用はほぼ不可能に近い。

Microsoftがすぐに社内制限をかけた事実は、この問題がどれだけ実際的かを示している。

「最強のAI」でも使えない場所が多ければ、商業的優位は限られる。

「モデル蒸留」ブロックはAI安全とIP保護の二重の理由がある

Fable 5の出力を大量に使って自社モデルを学習させるという利用（モデル蒸留）が禁止対象に入っている。

Anthropicは過去に中国系AIラボがClaudeの出力を無断で蒸留利用していると批判した経緯がある。

「安全」という理由と「競合他社による能力コピーの防止」という理由が重なっているのは指摘しておくべき点。

二層構造（一般向けFable / 審査済み機関向けMythos）はAI展開の新しい標準になるか

「一般公開版は安全制限付き」「審査済み組織向けは制限緩和」という設計は、核物質の輸出管理に近い発想だ。

AIの能力が上がるほど「誰でも使える」から「誰が使えるか」へ——能力とアクセス権の分離が進む転換点と見ることができる。

「最強のAIを手に入れた」と思ったら申請フォームの提出を求められる、という未来がすでに来ている。

私見－未来性能のAIは米政府からの厳しい規制が入っていく。

卓越したサイバー攻撃能力があるMythosが話題になったが、ついにそれを制限したモデルFable5が公開になった。

料金はOpusの2倍という現実的でない価格だが、それでも使う企業・個人はいるだろう。

この点に関してももはや安価になる要素は何処にもなく、これからも高くなり続けるのかもしれない。

しかし、金を払って使えるならばまだましな方で、今後は米政府・米軍が許可しない限りは「存在することすら」我々一般人には知らされないかもしれない。

例えば、今までの性能競争において、OpenAIとGoogleは激しいドッグレースを繰り広げてきたが、AnthropicがMythosを出した後は何の音沙汰もない。

OpenAIとGoogleもMythosと同等のモデルは持っていると考えるのが妥当だろう。それは我々の目の前に現れることはないのだろう。

こうした厳しい規制がかかるのは中国がアメリカのAIモデルデータを蒸留して、中身をコピーしていることが理由の一つだろう。

※　上はスマホ農場と呼ばれる複数のスマートフォンを操作して、様々な用途で悪用する仕組み。このような仕組みを介してAIから帰ってくるデータを蓄積して学習に利用する。

新しいモデルを公開すること、イコール、通常の利用経由でデータを詐取されることに他ならない。

今後は一歩引いた位置から新しいモデルが公開されることになるだろう。つまりもう我々が最新のモデルを制限がかかってない状態で使えることは多分ない。

強力な智の結晶は核兵器よりも恐ろしい武器になり得るということでもある。

この智の結晶の威力はAI導入によるリストラなど我々の未来にも降りかかってくることは覚えおいた方がよいだろう。