StableDiffusionに数万枚の画像を追加学習したWaifu Diffusionやtrinart V2のクオリティ向上を見ていると、自分もAIをトレーニングしてみたいな…という気分になってくる。
モスターク氏は近日Stable Diffusionのアニメ版を出すとツイートしている。
https://twitter.com/EMostaque/status/1562192103823708162
ちなみに画像AIを追加学習させるのとは別の方法として、Textual-inversionによるファインチューニングという方法もある。結構手軽な方法らしく、無料のColabから実行できる環境を、birdMan氏が「neo-mimic」として公開してくれている↓
https://birdmanikioishota.blog.fc2.com/blog-entry-10.html
しかし、Textual-inversionは、潜在空間内を調整して画風を寄せているだけで、必ずしも画力が上がってるようには見えない。
haru氏(Waifu-Diffusionの作者)は大量の画像をTextual-inversionで学習してみたそうだが、泥みたいなぼやけた画像が生成されるようになってしまったらしい。↓
https://discord.com/channels/930499730843250783/930499731451428926/1020716187480498277
つまり、Textual-inversionはガッツリ学習させるような用途の物ではないという事だろう。
ちなみにStable Diffusion版のDreamboothも中味はTextual-inversionらしい。