この前Wanの画像生成について書いた。↓

25/07/10 動画AIのwanで画像生成するのがアツいらしい

Wanの画像生成はFluxよりもクオリティ高い事は分かったが、どうせならDepthやOpenPoseでコントロールネットを使いたくなってくる。

そこで今回はVACEを使ってWanの画像生成をDepthやOpenPoseでコントロールする事をやってみる。

今回使ったワークフローはこちら。

wanvideo_T2I_Vace.json

Vaceで画像生成すると言ってもどうやれば行けるのか全然分からなかったが、色々試してみたところ、1フレームだけの生成だと上手く行かないが、5フレーム生成すればいい感じにVACEが反映されるようだと分かった。入力するコントロールビデオについては普通に画像からOpenPose化したものを「画像バッチを繰り替えす」ノードで5枚に増やしてinput_framesに入力すればいい。

5フレームになっても生成時間はそこまでは増えないが、10ステップで75秒くらいかかる。

image.png

生成結果はまったく同じ画像が5枚出てくる感じになるので、適当に1枚抜き出して保存すればいい。

image.png

てなわけで早速色々試していく。例えば以下のような画像を入力して、Depthに変換してからそれぞれ「The girl is sitting.」「The girl is standing on stair.」「The girl is holding a smartphone at left hand.」というプロンプトで生成してみる↓

20250711_051001_313788--0.webp

20250711_050548_262192--0.webp

20250711_052059_083654--0.webp

するとこうなる↓

20250729_205758_284301--0.webp

20250729_211213_904888--0.webp

20250729_214228_108605--0.webp

元画像のDepthにかなり忠実な画像が生成できてると分かる。VACEを使うと若干白く焼けたような色合いになるのはちょっと気になるが。