Wan2.2が出たので、ひとまず触ってみよう。
モデルはA14BのT2V、I2Vモデルがそれぞれあり、小型の5BモデルはT2VとI2Vの両方できるらしい。
5Bは眼中に無いとして、A14Bとはどういう意味だ?アリババによればこれはMoEモデルだ~とか言う話らしいが。 実際に使ってみると分かるのだが、要するにMoEといってもSDXLで言うところのベースモデルとリファイナーモデルの話と同じで、まず最初に全体の構図を作るのが得意なハイノイズモデルで前半の10ステップを行い、それからローノイズモデルに切り替えて後半10ステップで細部の仕上げをするというだけの話だ。これらはそれぞれ14Bモデルだが、同時にロードしておく必要はないので、まあVRAM24GBあればこれまでのWan14Bモデルと同様に十分にfp8モデルが動かせる。
いつも通りリリースと同時にComfyUIでもサポートされて、チュートリアルページができてた。ここからワークフローをDLできる。
Wan2.2 Video Generation ComfyUI Official Native Workflow Example - ComfyUI

とりまワークフローのデフォルトのまま生成してみたのがこれ。↓
1280x704x121Fで生成になんと30分くらいかかった。いくら何でもこんなに待ってられない。
初日はこんなもんかと思って、SelfForcingLoRAの2.2版が出るなりしてもっと高速生成できるようになるまで一旦寝かせといていいんじゃねえかと思ったが、次の日には「Wan2.1用のSelfForcingLoRAがそのままWan2.2でも使えて高速生成できるぞ!」というような話題が盛り上がっていた。
もう高速生成できるならもうちょっと触ってみるか。
で、ググるとこちらでSelfForcingLoRAでWan2.2動画を高速生成するワークフローが紹介されている↓
https://www.reddit.com/r/StableDiffusion/comments/1mbuo3o/rtx3060_32_go_ram_wan22_t2v_14b_gguf_512x384_4/
ワークフローはこちらからDLできる↓
https://github.com/HerrDehy/SharePublic/blob/main/video_wan2_2_14B_t2v_RTX3060_v1.json
ワークフローを開くとSelfForcingLoRAを噛まして4+4で8ステップ生成するというものだった。
とりまこれで動画作ってみよう。そういやハコニワさんがtwitterにミクさんがラーメン食べてる動画上げてたのが印象的だったので、それで検証する事にする。プロンプトは「Animation of Hatsune Miku eating ramen at a restaurant」
できたのがこれ。1280x704x81Fで生成時間は264秒(4分半)↓