研究者たちは、このMorris IIワームのテストに成功し、2つの方法を用いてその結果を発表した。
研究者グループは、データを盗み出し、マルウェアを拡散し、電子メールクライアントを介して他の人にスパムを送り、複数のシステムに拡散することができる第一世代のAIワームを作成した。
このワームは、一般的なLLMを使用したテスト環境で開発され、設計通りに機能することに成功した。
研究者らは、このような悪意のあるプログラミングが潜在的に持つ危険性について懸念を共有し、その発見に基づいてGenAI開発者に助言した。
研究チームは研究論文を共有し、データを盗んだり他の電子メールクライアントに影響を与えたりする2つの方法を示すビデオを公開した。
コーネル工科大学のBen Nassi、イスラエル工科大学のStav Cohen、IntuitのRon Bittonがこのワームを作成した。
彼らはこのワームを、1988年にオンライン上で世界的な迷惑行為を引き起こした最初のコンピューター・ワームであるオリジナルのMorrisにちなんで「Morris II」と名付けた。
このワームは、Gen AIアプリや、Gemini Pro、ChatGPT 4.0、LLaVAのようなAIモデルに対してテキストや画像を生成するGen AI対応の電子メール・アシスタントをもターゲットにして動作する。
これは、ジェイルブレイクがAIを使って有害なコンテンツを拡散させるのと同じように、モデルに対して敵対的な自己複製プロンプトを使用することで機能する。
研究者たちは、これらの生成AIエンジンを使って電子メールシステムを作成し、テキストまたは画像ファイルに埋め込まれた自己複製プロンプトを使用することでこれを実証した。
テキストプロンプトは、LLMを使用して電子メールアシスタントに感染し、そのシステム外から余分なデータを使用し、それがテキストコンテンツを作成するためにGPT-4またはGemini Proに送信される。このコンテンツはGenAIサービスをジェイルブレイクし、データを盗むことに成功します。
イメージプロンプト方式は、自己複製するプロンプトをイメージにエンコードし、電子メールアシスタントにプロパガンダや虐待を含むメッセージを全員に転送させ、新しい電子メールクライアントを感染させ、感染した電子メールを転送させる。この2つのプロセスの間に、研究者はクレジットカードの詳細や社会保障番号などの機密情報を発掘することができる。
このようなワームは、たとえ管理された環境下であっても、もはや理論的なものではなく、このような悪意のあるプロンプトが発見されるたびに、効果的なソリューションを導入して真剣に検討する必要があることを証明している。
そこで、このような研究論文の出番となるのである。
このような研究論文は、被害を受けた当事者と共有され、他の人々がシミュレーションや検証を行えるようになっている。
GenAIリーダーの対応と抑止策の展開計画
他の責任ある研究者と同様、チームは調査結果をグーグルとOpenAIに報告した。ワイアードが問い合わせたところ、グーグルはこの研究についてのコメントを拒否したが、OpenAIの広報担当者はこれに応じた。
彼らは、チェックもフィルタリングもされていないユーザー入力に依存することで、プロンプト・インジェクション型の脆弱性を悪用する方法を発見したようだ」と述べた。
彼らはまた、システムをより耐性のあるものにしていると断言し、開発者は有害な入力を使っていないことを確認する方法を使うべきだと付け加えた。
このような方法がGenerative AIアプリケーションに感染し、ユーザーのシステムを危険にさらす可能性があることを考えると、このような発見は、AIやNPUがPC、スマートフォン、自動車、電子メールサービスなどのGPUやCPUに実装され、極めて重要である場合にもたらされる。
場合によっては、AIを搭載したSSDがランサムウェアを特定し、駆除できることもある。
しかしもう一方では、マルウェアを作成できるワームやカスタムLLMがある。
そこで、業界は自らのペースを保ち、一般に公開されるすべてのgenAIベースの製品に対して効果的なソリューションを攻撃または展開するための対策を講じる必要がある。
新しいソリューションやイノベーションは、新たな問題を生み出す可能性がある。
AIアプリの初期段階でこのような問題が露呈するような研究では、潜在的に危害を加える可能性のあるGenAIエンジンの安全確保を優先する必要がある。
解説:
AIが引き起こす新たなリスク
話の内容を見ると、ロボットが作ったロポットが人類に襲いかかるみたいな話でちょっとゲンナリします。
生産性を上げる未来のツールである一方で、クライアントPCやサーバーを攻撃する手段というマイナスの用途にも使われる恐れがあるようです。
Stable Diffusion WebUIで使われるモデルデータも悪意のあるプログラムが埋め込まれることがあってckptからsafetensorsに代わっていっていますが、もっと直接的にリスクのあるプロンプトを狙った攻撃がされるのでは?ということのようです。
研究者たちは、これらの生成AIエンジンを使って電子メールシステムを作成し、テキストまたは画像ファイルに埋め込まれた自己複製プロンプトを使用することでこれを実証した。
確かにプロンプトの安全性というのはすべてが検証されているわけではないわけで、こういったことも可能なようですね。
生成AIが有益なものという先入観から、ここでいう「有害なプロンプト」のようなものがあるというのは頭がすっぽりと抜け落ちていました。
こういったことが可能というのはなかなか怖い話です。