はい、みなさんおまたせしました。待ってない人もいるかもしれません。
前回からかなり時間が経ってしまいました。
今回からStable Diffusion WebUI reForgeを使用しています。
Stable Diffusion本家版はEUのAI法対策で2025年12月の上旬に突然リポジトリを閉鎖してしまいました。
※ 本家コマンドライン版のSteble Diffusionのリポジトリを複製していますのでそれに派生する全てのWebUIが影響を受けています。
多数のユーザーが使用していたにも関わらず、その後も何ら対応を取っていないようです。
今後、積極的に使用するのはお勧めしません。
📋 目次
配布ファイル
配布ファイル rocm7x_imagen_v1.01.zip (99,878,472 バイト)
reForge=レガシー画像生成、ComfyUI=最新画像生成、OneTrainer=LoRA学習作成で、一応、完成とさせていただきます。
以降はバグフィックスとROCm、The Rockのバージョンアップによる動作不良のみに対応する予定です。
対応GPU
RDNA1/RDNA2/RDNA3/RDNA3.5/RDNA4
- RX5700系列
- RX5600XT
- RX5500XT
- RX6900系列
- RX6800系列
- RX6700系列
- RX6600系列
- RX7900系列(XTX 24GBで動作確認済)
- RX7800XT(x.comにて確認報告あり)
- RX7700XT(未確認)
- RX7600/XT(未確認)
- Radeon 780M/760M/740M(未確認)
- Radeon 890M(Strix Point・未確認)
- Radeon 860/840M(Strix Point・未確認)
- Radeon 8000Sシリーズ(Strix Halo・未確認)
- MedusaPoint(未発売?)
- RX9070/XT(確認済)
- RX9060XT(未確認)
申し訳ございませんが、わたくしが実機を保有していないため、ほとんどのGPUは動作未確認となっています。
おそらく動くと思いますが、確認する手段がなく動作保証などはできませんのでご了承ください。
なお、動作が確認できた場合、x.comのわたくしのアカウントまでご一報いただけると喜びます。
v1.01の変更点
- 細かいバグに対応
- reForgeのブロックキャッシュに対応→Sage Attentionが必要です
- The Rock(ROCm Preview)のバージョンとpytorchのバージョンを更新
※ バグ対応がありますのでファイル「reForge.bat」「comfyui.bat」「onetrainer.bat」、フォルダ「misc」を削除してから解凍したファイルをコピーしてください。
テスト環境
- CPU:Core i7-13700K
- マザーボード:Asrock Z690M-ITX/ac
- メモリ:DDR4-3600 16GBx2=32GB
- SSD:NVMe Gen3 SSD 256GB
- OS:Windows 11 25H2
- GPU:Radeon RX7900XTX 24GB
というわけでいつものテスト環境になります。
インストール方法
まず、ドライバーをAdrenalin 26.1.1(WHQL Recommended)以上にしてください。
今回配布したファイルを解凍してから中身を好きな場所にコピーしてください。
※ 重要 v0.96からの移行について
現在お使いの方はアップデートする必要はありませんが大幅にバッチファイルの内容が変わりましたので、再セットアップをお勧めします。
再セットアップする場合は差し替えが必要です。
念のため、フォルダ「system」「reForge」「misc」、ファイル「reForge.bat」「comfyui.bat」を削除してから今回ダウンロードしたファイルを解凍して中身をコピーしてください。
削除する場合、「.\reforge\outputs」「.\comfyui\outputs」「.\comfyui\models」「.\comfyui\user」等のフォルダのバックアップを忘れないようにしてください。
※ 重要 Zluda版からの移行について
「インストールフォルダ\misc」の中にある「HLCT_r624_default.bat」を管理者権限で実行し、HIP SDKをデフォルトの状態に戻してからアンインストールしてください。
詳しい手順は覚えていなくて申し訳ないのですが、いくつかのモジュールに分かれていたはずです。
全部アンインストールしてください。もう使用しません。
HIP SDKを削除したら、「ai-dat」を残してインストールフォルダのものをすべて削除してください。
不安のある方は適宜バックアップを取っておくようお勧めしておきます。
特にoutputsの中には生成した画像が入っていますのでバックアップを忘れないようにしてください。
削除したら今回配布するファイル・フォルダをコピーしていただければOKです。
実行方法(reForge)
reforgeを例にしてセットアップの説明をします。
配布ファイルを解凍すると「reForge.bat」「comfyui.bat」「OneTrainer.bat」と「misc」というフォルダが出てきますので好きな場所コピーして「reForge.bat」をダブルクリックするとインストールが始まります。
実行すると上の画面が出てきます。
ROCm7.2とすべての機種でThe Rockが選べるようになりました。
RDNA4のみFP8パッチと他機種と同様のINT8パッチを選択できます。
先にお断りしておきますが、内部の演算をFP8で行う内容になっていますが、わたくしがテストしたところ精度も性能にも有意な向上は見られませんでした。
LLMのアドバイスにしたがってブロックサイズを128×128にしてみましたが動作しませんでしたのでデフォルトに戻してあります。
そのため、性能的な向上は一切ありません。
※ テスト環境はSDXLのみです。最近の重い画像生成AIを使うとまた違うかもしれません。
気になる方だけテストしてみてください。
こちらついては実験的機能とさせていただきます。
参考までに、わたくしは常用していますが、今のところ問題を感じたことはありません。
GPU選択メニュー対応表
| メニューNo. | 対応GPU |
| 1.ROCm7.2 | RX7900XTX/XT/GRE RX7800XT/RX7700XT/RX7600/XT RX9070/XT(非推奨) RX9060XT(非推奨) Radeon 890M Radeon 8060S/8050S/8040S |
| 2.The Rock(ROCm Preview) AMD Radeon 9000シリーズ |
RX9070/XT RX9060XT |
| 3.The Rock(ROCm Preview) AMD Radeon 8000Sシリーズ |
Radeon 8060S/8050S/8040S |
| 4.The Rock(ROCm Preview) AMD Radeon RX7000シリーズ 700Mシリーズ |
RX7900XTX/XT/GRE RX7800XT/RX7700XT/RX7600/XT 780M/760M/740M |
| 5.The Rock(ROCm Preview) AMD Radeon 890M |
AMD Radeon 890M |
| 6.The Rock(ROCm Preview) AMD Radeon 860/840M |
AMD Radeon 860/840M |
| 7.The Rock(ROCm Preview) gfx1153 |
MedusaPoint? |
| 8.The Rock(ROCm Preview) AMD Radeon RX6000シリーズ |
RX6950XT/RX6900XT RX6800/XT/RX6700/XT RX6600/XT ※dGPU Only |
| 9.The Rock(ROCm Preview) AMD Radeon RX5000シリーズ |
RX5700/XT/RX5600XT RX5500XT |
今回からRDNA1/2に対応しました。
今回から各機種ともに基本The Rockを使うことをお勧めしておきます。
途中でMSVCのダウンロードインストールが入り、管理者権限での実行を求められますが許可してください。
すでにインストールしてあったとしても害はありません。
Gitやpythonのインストールが終わると以下のメニューが現れます。
1を選んでインストールしてください。
起動したら、まず最初にSettings-ReloadUIを選択してリロードしてください。
次回からはこの動作は必要ありません。
これは設定ファイルを無理やりコピーしているため、一部のモジュールから正常に認識されていないためです。
ダウンローダーの内容やその他のことについてはZluda版から変更はありません。
参考記事:[更新]RX9070/XTでStable Diffusion WebUI ZLUDAを動作させる
上の記事を参考にしてください。
Sage attentionの対応に伴い、パフォーマンスチューニングを行いました。
詳しくはSage attentionの項を見てください。
RX7800XT/RX7700XT、RX7600/XTをお使いの方で最初のメニューの「1.ROCm7.2」で動かない場合。
WEBUI-USER.batが以下のようになっています。
@echo off
set PYTHON=
set GIT=
set VENV_DIR=
REM set COMMANDLINE_ARGS=–use-sage-attention –disable-xformers –pin-shared-memory –cuda-stream
set COMMANDLINE_ARGS=–attention-pytorch –disable-xformers –pin-shared-memory –cuda-stream
REM set HSA_OVERRIDE_GFX_VERSION=11.0.0
REM RX 7800XT/RX 770XT;RX 7600/XTset TF_ENABLE_ONEDNN_OPTS=0
REM Python インクルードパスの設定
set PYTHON_INCLUDE=%DIR%python\include
set PYTHON_LIBS=%DIR%python\libsREM C コンパイラ用の追加インクルードパス
REM set C_INCLUDE_PATH=%PYTHON_INCLUDE%;%C_INCLUDE_PATH%
REM set CPLUS_INCLUDE_PATH=%PYTHON_INCLUDE%;%CPLUS_INCLUDE_PATH%REM HIP/ROCm パス
set HIP_PATH=%PDIR%reforge\venv\Lib\site-packages\_rocm_sdk_devel
set HIP_INCLUDE_PATH=%HIP_PATH%\includecall webui.bat
「REM set HSA_OVERRIDE_GFX_VERSION=11.0.0」の行のREMを取って実行してみてください。
それで動かなかったら最初のメニューでThe Rock版を選んでみてください。
それでも動かなかったら申し訳ないですが、諦めてください。
ComfyUIについて
セットアップ
「comfyui.bat」をダブルクリックします。
内容に関してはreForgeと同様ですから、説明は省略させていただきます。
メインメニューの2.RX9000シリーズを選択するとFP8パッチメニューが表示されます。
こちらもreForgeと同じですので、説明は省略します。
起動する前に上のメニューが表示されます。
アップデートされる場合は5秒以内に2を押してください。
アップデートが始まります。
アップデートが終わると自動的に上のメニューが再表示されます。
5秒経つか1を選択するとComfyUIが起動します。
概要
現在のローカル画像生成シーンにおいて、すでにSD-WUIやその流れを汲んだForge系は下火になり、どんどん開発停止になっています。
今回私が公式のSD-WUIの代わりとしたreForgeも現状は正直あまり活発とはいえません。
そのため、ワークフローを採用して操作や使いこなしに非常に難があるものの、企業からのスポンサードを受けていて開発が活発で、今後も盤石な体制で開発が続けられることが見込めるComfyUIに早期に移行されることをお勧めしておきます。
現在ComfyUIはFlux.1や最新のZ image turbo、Flux.2、Qwen Image、各種ローカル動画生成AIなどに対応し、最先端の技術に触れることができます。
まさに全ての画像生成AIが集まっているといっても過言ではありません。
参考までに、SDXL以降に発表された新しい画像生成AIについて記事にまとめてみました。
SDXLの次に何を使うのかの参考にしてください。
参考:After SDXL: 新世代画像生成AI完全ガイド – FLUX、Z-Image、Qwen-Image-2512の技術比較とライセンス戦略
「misc」の中にある、「ComfyUI_00001.png」をComfyUI画面の中に落とすとテスト用のワークフローが出てきます。
また、テスト用のチェックポイントは「AnimagineXL4.0 Opt」ですが、この記事の読者さんならすでに持っているはずです。
「インストールフォルダ\ComfyUI\models\checkpoints」にコピーしてください。
ComfyUIはある程度の理解されている人向けに出していますので、詳しい説明は省きます。
ComfyUI Wikiなどを利用して使い方を覚えてください。
なお、同じシード値を使用してもComfyUIとreForgeなどのSD-WebUI系では同じ絵が出てきません。
これは画像生成の方式が大きく異なるためです。
プロンプトノウハウが全く異なるわけではありませんが、ほかの人のプロンプトでまったく違う絵が出てくるのはノウハウを学習する段階においてかなり勝手が違うと思います。
そのため、できるだけ早めにComfyUIに移行されることをお勧めします。
ComfyUI WaveSpeedについて
現在Windows版のtritonについては独自のユーザービルドで対応しています。
いつの間にかROCmにも対応しており、torch compile()が正常に動作することが確認できましたので、ComfyUI Wavespeedに対応することに成功いたしました。
Wavespeedとはブロックキャッシュとtorch compile()による最適化によって画像生成を高速化するプラグイン(カスタムノード)です。
その速度は2倍程度と信じられないくらい高速に動作します。
今までZludaでは動作していたようですが、今回ROCm版でも動作を確認しました。
様々なテストを行いLLMのアドバイスも受けて完全に動作することを確認し、今回のバッチファイルにて完全に動作する状態を再現することに成功いたしました。
ComfyUI用のテストワークフローは「ComfyUI_WS_SDXL.png」の画像になります。こちをComfyUIの画面に落とすと表示されますので存分にその速度を体験してください。
Wavespeedの動作によってほとんどGeforceとそん色ない速度を出せるようになったのではないかと思います。
これで、Radeonでも生成AIの常用が現実的になったといってもよいと思います。
ただし欠点もあり、若干品質を犠牲にします。
詳しくはネットで検索していただきたいのですが、とある設定値(Residual Diff Threshold)を高くすると速くなるのですが、高くしすぎると品質が大幅に下がります。
私が配布しているワークフローでは見た目では品質が下がらないギリギリの値(0.2)を設定しています。(公式の推奨値)
OneTrainer
v1.00からLoRAなどの学習を行うOneTrainerに対応しています。
セットアップ方法や基本的な使い方に関しては説明が多岐にわたるため、別ページにて行っています。
Bitsandbytes(INT8フィルタ)はRDNA2/3/3.5/4のみ対応しています。
その他のGPUに関しては8bitオプティマイザーは使えません。
Sage Attention / Flash Attentionの設定
※ sage attentionに対してもっとよく知りたい方はこちらの記事を読んでみてください。
デフォルトでは「reForge」「ComfyUI」どちらもpytorch attentionの動作となっています。
下の手順で動作をsage attentionに切り替えられます。
comfyuiのみ、flash attentionにも対応しています。
reforgeに関しては起動オプションは存在しますが、Linux専用でWindowsでは動作しませんでした。
reForge
REM set COMMANDLINE_ARGS=–use-sage-attention –disable-xformers –pin-shared-memory –cuda-stream
set COMMANDLINE_ARGS=–attention-pytorch –disable-xformers –pin-shared-memory –cuda-stream
WEBUI-USER.batに上のような部分がありますので、上の行のREMを外して下の行につけてください。
ComfyUI
REM python main.py –auto-launch –reserve-vram 0 –preview-method auto –use-sage-attention –disable-xformers
REM python main.py –auto-launch –reserve-vram 0 –preview-method auto –use-flash-attention –disable-xformers
python main.py –auto-launch –reserve-vram 0 –preview-method auto –use-pytorch-cross-attention –disable-xformers
comfyuiフォルダの中の「run.bat」に上のような部分がありますので、対応する行のREMを外して、元の行につけてください。
PR
性能テスト結果
性能テストを行いました。その結果を簡潔にお伝えします。
なお、pic1はバッチサイズ1、pic4はバッチサイズ4を意味します。
reForge
| Pytorch Attention | Sage Attention | |||||||||||
| pic.1 | pic.4 | pic.1 | pic.4 | |||||||||
| it/s | 生成時間(s) | mem(GB) | it/s | 生成時間(s) | mem(GB) | it/s | 生成時間(s) | mem(GB) | it/s | 生成時間(s) | mem(GB) | |
| RX9070XT | 4.06 | 7.97 | 9.74 | 1.29 | 26.8 | 9.85 | 3.63 | 8.56 | 9.74 | 1.24 | 27.8 | 8.65 |
| RX7900XTX | 2.98 | 10.3 | 10.47 | 1.28 | 41.1 | 15.46 | 3.83 | 8.1 | 10.47 | 1.15 | 28.96 | 10.48 |
基本、RX9070XTの方が生成時間が短いですが、sage attentionに関してはRX7900XTXの方が性能が良いという微妙な結果になっています。
sage attentionとpytorch attentionを比較するとRX9070XTでは生成時間が悪化していますが、メモリ使用量は少なくなっています。
RX7900XTXでは生成時間、メモリ使用量共に優れていますので、RX9070XTに関しても今後、ドライバーやROCmのモジュールが熟成して来たら改善されることが期待できるのではないかと思います。
現状、RDNA4でもsage attentionの方がメモリ使用量が少ないですから、この程度の差ならsage attentionを使った方がよいと思います。
ComfyUI
ComfyUIではメモリ使用量が何にあたるのかはっきりわかりませんでしたのでメモリ使用量を省いています。
| Pytorch Attention | Sage Attention | |||||||
| pic.1 | pic.4 | pic.1 | pic.4 | |||||
| it/s | 生成時間(s) | it/s | 生成時間(s) | it/s | 生成時間(s) | it/s | 生成時間(s) | |
| RX9070XT | 4.45 | 9.61 | 1.2 | 27.63 | 3.91 | 10.25 | 1.17 | 28.24 |
| RX7900XTX | 3.66 | 8.39 | 1.04 | 29.44 | 3.63 | 8.42 | 1.03 | 29.62 |
RX9070XTの方がit/sは良い値がでているのですが、なぜか生成時間はRX7900XTXの方が速いという微妙な結果になっています。
RX9070XTはROCm7.1.1でも生成を完了する直前くらいに応答が非常に長くなる不具合がありますので、まだソフトウェアが成熟してないのだと思います。
上の表を見ると安定してない状態でも格上のRX7900XTXと同じような値を出しており、可能性を感じる結果になっています。
ComfyUI WaveSpeed
| Pytorch Attention | Sage Attention | |||||||
| pic.1 | pic.4 | pic.1 | pic.4 | |||||
| it/s | 生成時間(s) | it/s | 生成時間(s) | it/s | 生成時間(s) | it/s | 生成時間(s) | |
| RX9070XT | 10.02 | 5.99 | 2.79 | 13.88 | 9.21 | 5.96 | 2.76 | 13.83 |
| RX7900XTX | 8.29 | 3.85 | 2.42 | 13.08 | 8.16 | 3.89 | 2.41 | 13.11 |
みなさん一番気になるのがこれだと思います。
結果は圧巻です。RX7900XTXは1枚だと4秒以下、ほぼ倍の速度になっています。
RX9070XTも1.5倍ほどになっており、もはや、Wavespeedありとなしを比べるのはナンセンスといってもよい結果になっています。
RX9070XTがit/sの割に遅い傾向はここでも続いています。
ROCmのバージョンアップが待たれるところです。
Attention Benchmark(RX 9070 XT 詳細)
上の性能テストはRX9070XTとRX7900XTXの比較でしたが、こちらはRX9070 XT単体で4種のアテンション方式(PyTorch / Flash / SageAttention INT8 / SageAttention FP8)を5回ずつ測定した詳細データです。
測定環境
| GPU | AMD Radeon RX 9070 XT(gfx1201 / RDNA4) | VRAM / RAM | 16,304 MB VRAM / 32,526 MB RAM |
| ROCm | 7.2 | PyTorch | 2.10.0+rocm7.12.0a20260222 |
| Python | 3.12.10 | ComfyUI | 0.15.1(v0.15.1-17-g48bb0bd1)2026-02-28 |
| モデル | SDXL fp16 / CLIP: 1,560 MB・UNet: 4,897 MB・VAE: 160 MB | ||
| ステップ数 | 28 steps | 測定方法 | 各条件5回生成、初回(モデルロード込み)を除外、異常値除外後の平均値 |
※ Flash Attentionは起動時に「Triton Python libs」警告あり
ノーマル生成(WaveSpeedなし)― バッチサイズ 1(1pic)
| アテンション | it/s 高いほど良 |
生成時間(秒) 低いほど良 |
使用可能VRAM(MB) 高いほど余裕あり |
除外データ |
| PyTorch Attention | 4.53 | 8.94 | 14,728 | — |
| Flash Attention | 4.58 | 8.93 | 14,728 | — |
| SageAttention INT8 | 4.51 | 9.11 | 14,728 | — |
| SageAttention FP8 | 4.51 | 9.08 | 14,728 | 4.15 it/s, 9.58s を除外 |
ノーマル生成(WaveSpeedなし)― バッチサイズ 4(4pic)
| アテンション | it/s | 生成時間(秒) | 使用可能VRAM(MB) | 除外データ |
| PyTorch Attention | 1.20 | 29.92 | 14,499 | — |
| Flash Attention | 1.26 | 29.05 | 14,499 | — |
| SageAttention INT8 | 1.25 | 29.04 | 14,499 | — |
| SageAttention FP8 | 1.24 | 30.77 | 14,499 | 29.67s を除外 |
ノーマルモードでは4種すべてのアテンションで使用VRAMに差なし(14,728 MB / 14,499 MB で完全一致)。速度差もほぼ誤差の範囲内。FP8 Sageの4picが若干遅いのは測定誤差の可能性あり。
WaveSpeed生成 ― バッチサイズ 1(1pic)
| アテンション | it/s | 生成時間(秒) | 使用可能VRAM(MB) | ノーマル比VRAM差 | 除外データ |
| PyTorch Attention | 9.86 | 5.59 | 14,665 | −63 MB | — |
| Flash Attention | 9.31 | 5.87 | 14,665 | −63 MB | 8.65 it/s を除外 |
| SageAttention INT8 | 10.09 | 5.53 | 14,729 | ±0 MB | 8.82 it/s を除外 |
| SageAttention FP8 | 9.73 | 5.57 | 14,729 | ±0 MB | 8.72 it/s を除外 |
WaveSpeed生成 ― バッチサイズ 4(4pic)
| アテンション | it/s | 生成時間(秒) | 使用可能VRAM(MB) | ノーマル比VRAM差 | 除外データ |
| PyTorch Attention | 2.79 | 15.82 | 14,435 | −64 MB | — |
| Flash Attention | 2.94 | 15.60 | 14,435 | −64 MB | — |
| SageAttention INT8 | 2.94 | 15.22 | 14,499 | ±0 MB | — |
| SageAttention FP8 | 2.93 | 14.88 | 14,499 | ±0 MB | — |
WaveSpeed加速倍率まとめ
| アテンション | 1pic 倍率(it/s比) | 4pic 倍率(it/s比) |
| PyTorch Attention | 9.86 / 4.53 = ×2.18 | 2.79 / 1.20 = ×2.33 |
| Flash Attention | 9.31 / 4.58 = ×2.03 | 2.94 / 1.26 = ×2.33 |
| SageAttention INT8 | 10.09 / 4.51 = ×2.24 | 2.94 / 1.25 = ×2.35 |
| SageAttention FP8 | 9.73 / 4.51 = ×2.16 | 2.93 / 1.24 = ×2.36 |
考察
速度差について
予想通り、4種のアテンションで速度差はほぼ誤差の範囲内です。ノーマルモードでは約4.5 it/s(1pic)/ 約1.24 it/s(4pic)でほぼ横並びです。WaveSpeed使用時はSageAttention INT8がやや有利な傾向にあります。
最も注目すべき差:WaveSpeed時のVRAM消費
WaveSpeed使用時、PyTorchとFlashはノーマルより約64 MB多くVRAMを消費します(torch.compileのキャッシュ/バッファによるもの)。一方、SageAttention(INT8・FP8両方)はWaveSpeed使用時もVRAM増加が見られず、ノーマル時と同水準を維持します。SageAttentionはWaveSpeedとの相性がよく、VRAMに余裕のある構成になります。
Flash Attentionの挙動
WaveSpeed 1picで8.65 it/sの外れ値が発生(他は9.5前後)。Triton JITコンパイルの再実行やキャッシュミスによる不安定性の可能性があります。起動時に「Failed to find Python libs」警告も確認されており、Flash Attention + WaveSpeedの組み合わせでは若干不安定な面が見られます。
結論
RDNA4 + ROCm Windows環境において、アテンション方式による速度差は実質なし。WaveSpeedと組み合わせる場合はSageAttention INT8が最も安定・効率的(速度最高かつVRAM増加なし)。Flash AttentionはWaveSpeedとの組み合わせで若干の不安定さがあるため、現時点では非推奨です。
Benchmark: 2026-03-01 · AMD RX 9070 XT gfx1201 · ROCm 7.2 · PyTorch 2.10.0+rocm · ComfyUI v0.15.1