#daiizメモ

ときどきいいことを書きます

Phonno: 写真に対するCrop with AI機能の改善

PhonnoのCrop with AI機能の精度を改善した。この機能では、ボタンを押すだけで画像から得られる知識として重要な箇所を特定できる。実装としては、以下の記事のように、従来のCloud Vision APIをやめてGeminiを使うよう舵を切っていた。

daiiz.hatenablog.com

今回はGeminiに渡す際のプロンプトの調整を行った。その結果、特に写真に対する切り抜き領域の特定が安定した。熱海旅行での写真を例にいくつか紹介してみる。

ボトルを中心にして程よいサイズの矩形を作れている。文字の読み取り精度と画像の説明も悪くない。

注目したいオブジェの位置を正確に捉えている。文字が写っていない画像においても適切な説明を生成できている。

過剰に横長に切り抜かれてしまうことがある。今後の課題。

単純なOCRのAPIを超えて、LLMベースの実装になったことで、指示の出し方やコンテキストの構築方法などを試行錯誤する余地が生まれたのは嬉しい。