ChatGPTでGPT-4oネイティブ画像生成ができるようになって、その性能に驚愕してからはや数ヶ月が経った。ChatGPTでは入力したキャラクターの一貫性を保ちながら別の場所に置いたりポーズやカメラアングルを変更したりできる。自然言語で指示するだけでそのような事が可能となる。
「なぜオープンな画像モデルではこれができないんだよ!」という感じだ。
「いや、StableDiffusionとかでもPix2Pixとかで自然言語で画像編集できてたやん」という意見もあるだろうが、ChatGPTはそういうのとはレベチである。
と思ってたらFlux-Kontextというものが発表された。これはFluxシリーズのモデルだが、ChatGPTと同様に自然言語で画像編集できるらしい。
残念ながらFlux-Kontextは最初、Pro版とMax版だけが各社サービスからAPIを通じて提供されるだけで、オープンなウエイトは提供されなかった。
そんななか、一昨日に待望のFluxKontextDev版がオープンウエイトで公開された。これでローカルでFluxKontextで画像編集する事が可能になったわけだ。
さらにFluxKontextDevはComfyUIで即時サポートされた。というわけで、さっそく遊んでみてその可能性を確かめてみよう。
まずComfyUIを最新版にアプデしてFluxKontextが使えるようにする。
FluxKontextDevはLoRAじゃなくて完全モデルとして提供されており、以下からfp8-scaled版がDLできる。
https://huggingface.co/Comfy-Org/flux1-kontext-dev_ComfyUI/blob/main/split_files/diffusion_models/flux1-dev-kontext_fp8_scaled.safetensors
サンプルワークフローは以下のページの中ほどに二つある。(画像の中にワークフローが埋め込まれてる)
Flux Examples | ComfyUI_examples
まずコレ↓
入力画像は適当にこちらを使う↓