25/07/10 動画AIのwanで画像生成するのがアツいらしい

最近Redditで、wanを使って画像生成するのが流行ってる。wanは本来動画を生成するためのモデルだが、1フレームだけの動画を生成する事で事実上画像生成として使える。そしてその画像のクオリティがFluxよりも優れているようだぞという話だ。

FluxDevは所詮蒸留モデルなので、人体を理解してるというよりは丸暗記して手癖だけで描いてるという感じだが、wanは動画モデルなので世界の理解が進んでるおかげか、人体の解剖学的知識に優れるらしい。つまり足が３本になったり指が６本になったり右手が左手になったりみたいな問題がFluxよりも軽減されてるとか言う話だ。

wanで画像生成が可能な事は最初から知られていたが、あんま誰も試さなかったようだが、何故か今になって急に流行っている。SelfForcingLoRAのおかげで10ステップくらいで綺麗な画像が出せるようになった恩恵などもあるかもしれない。

まあとりま試してみよう。ワークフローはこちらをお借りする↓

Wan 2.1 Text to Image Workflow - ComfyUI text2img Workflow | Wan Video 14B t2v Workflows | Civitai

ワークフロー開くとなんかFastFilmGrainとかってノードが無いと言われるが、出所が分からんしそもそもこんなノード要らんので削除する。

モデルやCLIPにGGUFが使われてるが、私はfp8派なのでノードを差し替える↓

これで画像が生成できる。1920x1088の画像が生成自体は26秒くらいで終わる。Fluxと大差ない。VRAM消費は16GBほどだった。