ChatGPTでGPT-4oネイティブ画像生成ができるようになって、その性能に驚愕してからはや数ヶ月が経った。ChatGPTでは入力したキャラクターの一貫性を保ちながら別の場所に置いたりポーズやカメラアングルを変更したりできる。自然言語で指示するだけでそのような事が可能となる。

「なぜオープンな画像モデルではこれができないんだよ!」という感じだ。

「いや、StableDiffusionとかでもPix2Pixとかで自然言語で画像編集できてたやん」という意見もあるだろうが、ChatGPTはそういうのとはレベチである。

と思ってたらFlux-Kontextというものが発表された。これはFluxシリーズのモデルだが、ChatGPTと同様に自然言語で画像編集できるらしい。

残念ながらFlux-Kontextは最初、Pro版とMax版だけが各社サービスからAPIを通じて提供されるだけで、オープンなウエイトは提供されなかった。

そんななか、一昨日に待望のFluxKontextDev版がオープンウエイトで公開された。これでローカルでFluxKontextで画像編集する事が可能になったわけだ。

さらにFluxKontextDevはComfyUIで即時サポートされた。というわけで、さっそく遊んでみてその可能性を確かめてみよう。

まずComfyUIを最新版にアプデしてFluxKontextが使えるようにする。

FluxKontextDevはLoRAじゃなくて完全モデルとして提供されており、以下からfp8-scaled版がDLできる。

https://huggingface.co/Comfy-Org/flux1-kontext-dev_ComfyUI/blob/main/split_files/diffusion_models/flux1-dev-kontext_fp8_scaled.safetensors

サンプルワークフローは以下のページの中ほどに二つある。(画像の中にワークフローが埋め込まれてる)

Flux Examples | ComfyUI_examples

まずコレ↓

image.png

入力画像は適当にこちらを使う↓

image.png