25/06/28 Flux-Kontext-Devがオープンモデルでリリースされたのでテスト

ChatGPTでGPT-4oネイティブ画像生成ができるようになって、その性能に驚愕してからはや数ヶ月が経った。ChatGPTでは入力したキャラクターの一貫性を保ちながら別の場所に置いたりポーズやカメラアングルを変更したりできる。自然言語で指示するだけでそのような事が可能となる。

「なぜオープンな画像モデルではこれができないんだよ！」という感じだ。

「いや、StableDiffusionとかでもPix2Pixとかで自然言語で画像編集できてたやん」という意見もあるだろうが、ChatGPTはそういうのとはレベチである。

と思ってたらFlux-Kontextというものが発表された。これはFluxシリーズのモデルだが、ChatGPTと同様に自然言語で画像編集できるらしい。

残念ながらFlux-Kontextは最初、Pro版とMax版だけが各社サービスからAPIを通じて提供されるだけで、オープンなウエイトは提供されなかった。

そんななか、一昨日に待望のFluxKontextDev版がオープンウエイトで公開された。これでローカルでFluxKontextで画像編集する事が可能になったわけだ。

さらにFluxKontextDevはComfyUIで即時サポートされた。というわけで、さっそく遊んでみてその可能性を確かめてみよう。

まずComfyUIを最新版にアプデしてFluxKontextが使えるようにする。

FluxKontextDevはLoRAじゃなくて完全モデルとして提供されており、以下からfp8-scaled版がDLできる。

サンプルワークフローは以下のページの中ほどに二つある。（画像の中にワークフローが埋め込まれてる）

まずコレ↓

入力画像は適当にこちらを使う↓