StableDiffusionに数万枚の画像を追加学習したWaifu Diffusionやtrinart V2のクオリティ向上を見ていると、自分もAIをトレーニングしてみたいな…という気分になってくる。

現状認識

モスターク氏は近日Stable Diffusionのアニメ版を出すとツイートしている。

https://twitter.com/EMostaque/status/1562192103823708162

Textual-inversionはどうなの?

ちなみに画像AIを追加学習させるのとは別の方法として、Textual-inversionによるファインチューニングという方法もある。結構手軽な方法らしく、無料のColabから実行できる環境を、birdMan氏が「neo-mimic」として公開してくれている↓

https://birdmanikioishota.blog.fc2.com/blog-entry-10.html

しかし、Textual-inversionは、潜在空間内を調整して画風を寄せているだけで、必ずしも画力が上がってるようには見えない。

haru氏(Waifu-Diffusionの作者)は大量の画像をTextual-inversionで学習してみたそうだが、泥みたいなぼやけた画像が生成されるようになってしまったらしい。↓

https://discord.com/channels/930499730843250783/930499731451428926/1020716187480498277

Untitled

つまり、Textual-inversionはガッツリ学習させるような用途の物ではないという事だろう。

ちなみにStable Diffusion版のDreamboothも中味はTextual-inversionらしい。

Dreambooth Stable Diffusion を試す|npaka|note

https://twitter.com/m_sigepon/status/1570482860779503618