最近Redditで、wanを使って画像生成するのが流行ってる。wanは本来動画を生成するためのモデルだが、1フレームだけの動画を生成する事で事実上画像生成として使える。そしてその画像のクオリティがFluxよりも優れているようだぞという話だ。
Wan 2.1 txt2imgはすごいです!: r/ステーブル拡散
Wan 2.1 vs Flux Dev for posing/Anatomy : r/StableDiffusion
Wan2.1 txt2img : r/StableDiffusion
Some wan2.1 text2image results. : r/StableDiffusion
FluxDevは所詮蒸留モデルなので、人体を理解してるというよりは丸暗記して手癖だけで描いてるという感じだが、wanは動画モデルなので世界の理解が進んでるおかげか、人体の解剖学的知識に優れるらしい。つまり足が3本になったり指が6本になったり右手が左手になったりみたいな問題がFluxよりも軽減されてるとか言う話だ。
wanで画像生成が可能な事は最初から知られていたが、あんま誰も試さなかったようだが、何故か今になって急に流行っている。SelfForcingLoRAのおかげで10ステップくらいで綺麗な画像が出せるようになった恩恵などもあるかもしれない。
まあとりま試してみよう。ワークフローはこちらをお借りする↓
Wan 2.1 Text to Image Workflow - ComfyUI text2img Workflow | Wan Video 14B t2v Workflows | Civitai
ワークフロー開くとなんかFastFilmGrainとかってノードが無いと言われるが、出所が分からんしそもそもこんなノード要らんので削除する。
モデルやCLIPにGGUFが使われてるが、私はfp8派なのでノードを差し替える↓
これで画像が生成できる。1920x1088の画像が生成自体は26秒くらいで終わる。Fluxと大差ない。VRAM消費は16GBほどだった。