Geminiの画像編集能力に感動した

3ヶ月ぶりにGeminiに感動した。前回の感動はこちら:

daiiz.hatenablog.com

今回もGoogle AI Studioでのできごと。アップロードした画像をテキストで編集できるようになった。加工したい内容をプロンプトで指示するだけで画像を生成してくれる。指示と関係ない箇所はほとんど変更されない。これがすごい。

Google AI StudioでのImage Editingのデモ。クロワッサンにチョコソースをかけるよう指示している。

ここまで綺麗に画像の大部分を維持して望み通りの編集をしてくれるツールは初めて見た。素人ユーザーとしてはPhotoshopでも難しかったと思う。

ほかにも、自分の写真で試してみた。だいぶ雑な要求にも関わらず一貫性のある出力が得られた。繰り返し操作しても作画崩壊しない。

アプリの設定を見てみると、Output formatをImages and textとしたgemini-2.0-flash-expモデルが動いているようだ。なぜこんな凄いことができるのだろう。Geminiが裏でImagen3をtoolとして使っている？それともGemini単体で画像を生成している？これがマルチモーダル言語モデルの真の強さということなのか。

developers.googleblog.com

公式の記事では "native image generation" と書かれているので、Geminiのみで完結しているような気がする。そうなると、Imagen3の立ち位置はどうなるのだろう？

さらに、Gemini APIでも同じことができるのを確認しておいた。Google AI Studioで提供されているPythonコードをほぼコピペして動かしただけですが、結果も含めてColab notebookを置いておきます。つまりもうアプリを書けるということだ。

colab.research.google.com