3ヶ月ぶりにGeminiに感動した。前回の感動はこちら:
今回もGoogle AI Studioでのできごと。アップロードした画像をテキストで編集できるようになった。加工したい内容をプロンプトで指示するだけで画像を生成してくれる。指示と関係ない箇所はほとんど変更されない。これがすごい。

ここまで綺麗に画像の大部分を維持して望み通りの編集をしてくれるツールは初めて見た。素人ユーザーとしてはPhotoshopでも難しかったと思う。
ほかにも、自分の写真で試してみた。だいぶ雑な要求にも関わらず一貫性のある出力が得られた。繰り返し操作しても作画崩壊しない。


アプリの設定を見てみると、Output formatをImages and textとしたgemini-2.0-flash-expモデルが動いているようだ。なぜこんな凄いことができるのだろう。Geminiが裏でImagen3をtoolとして使っている?それともGemini単体で画像を生成している?これがマルチモーダル言語モデルの真の強さということなのか。
公式の記事では "native image generation" と書かれているので、Geminiのみで完結しているような気がする。そうなると、Imagen3の立ち位置はどうなるのだろう?
さらに、Gemini APIでも同じことができるのを確認しておいた。Google AI Studioで提供されているPythonコードをほぼコピペして動かしただけですが、結果も含めてColab notebookを置いておきます。つまりもうアプリを書けるということだ。

いやー恐ろしい。ここ最近はWhiskが楽しくて可能性を感じていたところだったが、さらにヤバいものが登場してしまった。この威力を活かせる開発ネタを考えたい。