今回は画面解像度について検証する。

Disco Diffusionの頃や、Stable Diffusionが出た頃は、VRAMの制約で小さい解像度の画像しか生成できなかった。 私は「VRAMが多いグラボに買い替えて大きな画像が生成できたらいいだろうなあ」と思ってた。

その後、改善が進み、今ではVRAM16GBのColab環境でも2048x2048の巨大な画像が生成できるようになった。

しかし、実際作ってみると、解像度を大きくするほど生成する画像は崩壊していって使い物にならない

というのも、SDは512x512解像度で学習しているため、この解像度で生成した時が一番品質が高くなるらしい。

幅か高さのどちらかが512でさえあればおおむね問題は起きづらいらしい。

とりあえず検証してみよう。

まず、512x512で生成した場合。図1図2だ。

構図やキャラクターに問題は見られない。

768x768にしてみたのが、図6図7だ。

この程度の解像度なら、特にまだ何かがおかしいというわけでも無いが、図6を見ると、木の葉っぱが雲のようにふわふわとし始めていて、良くない兆候を感じる。

1024x1024まで上げたのが、図8図9だ。 図8は、先ほどのふわふわがさらに悪化してきているし、図9の霊夢はもう崩壊が始まっている。

2048x2048まで上げてしまうと、図10図11になる。 図11はどうしようもなく崩壊してしまっている。 図10のような絵を、あるいは幻想的やん!と肯定的に捉える向きもあるかもしれないが、実際には構図観が崩壊していてダメである。