Stable Diffusionは、パイをより大きく切り取った。
今年の夏前に、Stable Diffusion 1.5をRaspberry Pi Zero 2 W上で動作させることに成功した首謀者、Vito Platamuraについて報告したのを覚えているかもしれません。
Plantamuraはプロジェクトを拡張してStable Diffusion XL 1.0をサポートし、298MBのRAMを使用してRaspberry Pi Zero 2 W上で動作させることに成功しました。
Stable Diffusionをご存じない方のために説明すると、これはユーザーが入力した言葉のプロンプトに基づき、AIを使って画像を作成するように設計されたアプリケーションです。
Plantamura氏は以前、オリジナルのStable Diffusion 1.5をRaspberry Pi Zero 2 Wで260MB以下のRAMで動作させることに成功した。
彼が開発したアプリケーションはOnnxStreamと名付けられた。
Plantamura氏によると、Stable Diffusion XL 1.0は10億近いパラメーターを持つトランスフォーマーモデルを搭載しているため、動作させるのが難しかったという。
Raspberry Pi Zero 2 WのRAMは512MBだが、Stable Diffusionを実行するには少なくとも8GBが推奨されている。
言うまでもなく、Plantamura氏はその仕事に向いていた。
適応プロセスは、Stable Diffusion 1.5用に開発されたものと似ているが、いくつかの重要な違いがある。
例えば、Stable Diffusion XL 1.0では、いわゆるタイルデコーディングが採用されている。
このプロセスにより、RAM消費量を4.4GBからわずか298MBに抑えることが可能になりました。
適応プロセスは、Stable Diffusion 1.5用に開発されたものと似ていましたが、いくつかの重要な違いがあります。
たとえば、Stable Diffusion XL 1.0はタイルデコードと呼ばれるものを使用します。
このプロセスは、オーバーRAMの消費を4.4 GBから298 MBに削減することを可能にする一部である。
画像は塊で処理され、最終的に各セクション間のボーダーが見えるタイル状のエフェクトが作成される。
これは、ぼかし効果を有効にすることで緩和されます。
上の写真で、処理前と処理後の例をご覧いただけます。
前にも述べたように、このアプリケーションを使うにはかなり時間がかかるので、このプロジェクトは決して実用的なものではない。
しかし、コンセプトの証明としては素晴らしいものであり、このプロジェクトに費やされた苦労に光を当てることができ、私たちはこの上ない喜びを感じている。
このRaspberry Piプロジェクトをもっと詳しく見たい方は、GitHubでソースをチェックしてください。
Plantamuraをフォローして、今後のプロジェクトやこのプロジェクトに関する最新情報をチェックしてください。
ソース:Tom’s Hardware – Raspberry Pi Zero 2 W Runs Stable Diffusion XL 1.0 Using 298MB of RAM
解説:
RaspberryPi Zero2でStable Diffusion v1.5が実行可能に
と言う話題が手でいましたので取り上げてみます。
上がそのプロジェクトのHPになります。
私も一瞬勘違いしたので但し書きしておきます。
- RasPi Zero2で動作するSDはStable Diffusion(コマンドライン)であってWebUIは付いてない
- このプロジェクトは決して実用的なものではない
したがって使い勝手は良くないです。
非常に実験的な試みと言うことです。
「一応動くよ」と言う程度のものです。
シングルボードであったとしてもnVIDIAのXavierやOrinのようなAI/MLに特化した製品でないと普通に動かすのは難しいでしょう。
参考までに最新のエッジAI向けシングルボードコンピューターの開発キットである「Jetson Orin Nano開発者キット」の販売HPのリンクを張っておきます。
スイッチサイエンス – Jetson Orin Nano開発者キット
ちなみに日本の価格は83,380円と非常に高価ですが既に売り切れています。
昨今のAI人気を象徴するような製品ですが、AI向けのシングルボードと言うことでSwitch2に非常によく似たスペックとなっています。
CUDAコア数こそ1024(Switch2は1280)ですが、6コア Arm® Cortex®-A78AE v8.2 64 bit CPU 1.5MB L2 + 4MB L3 (最大1.5 GHz)同じOrinベースなだけあって、ほとんどSwitch2と言ってもよい感じです。
話が横道にそれましたが、シングルボードコンピューターですのでこうした最新のnVIDIAの開発キットなどを使わないと実用的な速度は出ないのではないかと思います。
横道ついでに「Jetson Orin Nano開発者キット」が払底しているところを見ると、SwitchはバラされてAI/ML開発向けに転用される可能性もあるのかなと思いました。(苦笑。83,380円よりは安くなるでしょうからね・・・。
今後、これらのプロジェクトの成果が別の用途に生かされることを期待ですね。
AI/ML関連のプロジェクトは進展が速く、しばらく見てないととんでもない発展をしていることがあるので、このプロジェクトもどのような結果を産むのかは未知数だと思います。