RTX4000用高速Stable Diffusion WebUI Ada(Automatic1111)配布

別に私はGeforceが嫌いなわけではありません。

と言い訳がましい宣言から入ります。

先にお断りしておきます。

この方法で速くなるのはRTX4000シリーズのみです。

RTX3060では逆に少し遅くなりました。

よって、RTX4000シリーズを持っている人しか関係ないです。

Ampereより古いGPUを持っている方は現状のAutomatic1111を使った方がいいです。

※　2023/5/2現在、公式がアップデートされ、デフォルトでtorch2.0.0+cu118をインストールするようになりました。これに伴って、当サイトで公開されているAda版はダウンロードを停止いたします。

今後はこちらを使いupdate.batを実行してからrun.batを実行すれば正常にインストールされるはずです。(未確認)

Ada Lovelace用Stable Diffusion WebUI(Automatic1111)ダウンロード(配布終了)

※ダウンロード・解凍・インストールの方法に関してはDirectML版と同じです。オプションの記述も同様です。

他に用意するもの。

です。

予めダウンロードしてインストールしておいてください。

RTX4000向けの高速化に関しては既に導入しているユーザーを想定していますので、いつものようにステップバイステップでの説明はしません。

わかる人向けの説明

これはtorch2.0.0にして、xformerをそれに合わせてビルドしているものです。

通常版のtorchは1.13.1です。

Ada版・・・torch2.0.0+cu118

通常版・・・torch1.13.1+cu117

となっています。

私も最近知ったのですが、以前Ada Lovelace向けのxformerと言うことでこのようなスレッドがgithubで立っていました。

それから3か月たって、torchがRTX4000に正式に対応したということです。

ちなみにgithubのスレッドで紹介されている方法は自分でコンパイルしてパッケージをビルドするのですが、滅茶苦茶面倒臭いです。

今回の方法はワンタッチで手軽にできます。

この面倒くさい方法でビルドしたものと今回のワンタッチ版の性能は全く変わりませんので、私のように無駄足を踏みたくなかったら素直にこのワンタッチ版を使った方が幸せになれます。

実際にビルドして比較してみましたので間違いないです。

今回も注釈を入れさせていただきますが、元になっているのは

Google検索 - automatic1111 スタンドアローンセットアップ法・改

の方のものです。

今回初めてワンタッチ版を使われる方はこの方の説明も一読してください。

トラブルシューティングなどは参考になると思います。

私は少し改変しただけですので、元を1から作り上げたこの方に対する感謝も忘れないようにしてください。

個人がみんなのためにささやかな親切心で作り上げているものですので、間違っても荒らしたりしないようにしてください。

また、細かい説明はDirectML版に準拠していますので、そちらの記事も読んでください。

今回も自動でアスカベンチマークが実行できるモデルデータをダウンロードできるようにしてありますが、Ada Lovelace版を使われている方は既存のユーザーが多いという想定からデフォルトでは無効にしてあります。

ダウンロードされたい方は「1_セットアップ.bat」の折り返し無しで38行目の

「REM bitsadmin /transfer・・・」

の先頭の「REM」を取ってください。

また現在RTX4000シリーズは12GB以上のメモリを搭載したモデルしかありませんのでオプションは特にいじる必要はありませんが、オプションは「1_セットアップ.bat」の折り返し無しで50行目、「2_スタート_webui-user.bat」の折り返し無しで48行目の

「set COMMANDLINE_ARGS=」

で始まる行に記述してください。

普通のStable Diffusion WebUIのように「webui-user.bat」ではないのでその点だけは注意してください。

同梱してあるpythonはビルドすると警告が出たのでpython3.10.9にしてあります。

元はpython3.10.6です。

実際のパフォーマンス

実際に性能を測定してみました。

GPU	ベース	結果(秒)	備考
RX7900XTX	DirectML	55.45
RTX3060	DirectML	162.9
RTX3060	CUDA(torch1.13.1)	49.21	xformer無し
RTX3060	CUDA(torch1.13.1)	42.27	xformerあり
RTX3060	CUDA(torch2.0.0)	52.25	xformer無し
RTX3060	CUDA(torch2.0.0)	44.31	xformerあり
RTX4070Ti	DirectML	66.64
RTX4070Ti	CUDA(torch1.13.1)	38.87	xformer無し
RTX4070Ti	CUDA(torch1.13.1)	32.48	xformerあり
RTX4070Ti	CUDA(torch2.0.0)	22.65	xformer無し
RTX4070Ti	CUDA(torch2.0.0)	16.79	xformerあり

DirectML版の結果も含まれています。

DirectML版の記事の時、私は単にメモリ不足だと思っていたのですが、torch2.0.0になってないだけでした。

Ada Lovelaceでの結果は圧倒的で、RTX4070TiでRTX3090/Tiを凌ぐ結果になっています。

アスカベンチ16.79秒はもはや圧巻と言ってもいいです。

RTX4000シリーズを持っているならばtorch2.0.0にアップデートするのは必須と言えます。

この今回配布しているポータブル版が気持ち悪いという方は、セットアップのバッチファイルを見て、ご自分で普通にインストールしてみてください。

参考になると思います。

Stable Diffusionで使うならGPUのメモリは最低10GBと言われていますが、メモリ10GB以上のTX4000シリーズ最安はRTX4070無印です。

RTX4060/Tiはメモリ8GBになるのではないかと言われているので、RTX4000シリーズでのベストバイはRTX4070と言うことになります。

※　実際にある程度使ってみた感想です。Torch2.0.0版は確かに速いのですが、Torch1.13.1版と比較するとメモリを多く消費するようです。具体的にはVAEを設定し、LoRAを一つ設定した状態で複数の画像を生成すると頻繁にメモリ不足で止まりました。最初は止まらないのですが、条件を追加したり、繰り返し生成していると止まります。Torch2.0.0はメモリ12GBでは足りないようです。少なくともTorch1.13.1と同じ感覚では使えませんでした。最初は調子よく使えて途中から止まるのもまた困ったところです。RTX4070(12GB)、RTX4070Ti(12GB)、RTX4080(16GB)は価格差が大きく、簡単に買い替えるというわけにはいかないのも悩ましいところです。

今回この記事を書いてみようと思ったきっかけは、私自身も最近イラストAIを始めてみて、出来る人とできない人の情報の格差が凄いなと思ったからです。

自分も出来ないレベルから急速に知識を付けていると思いますが、それにしても情弱とそうでない人の差が物凄いです。

一人でも多くの人がこのAda対応のポータブル版で情報格差を縮めてくれると嬉しいです。

現時点で最安のAda RTX4070 12GB