PhonnoのCrop with AI機能の精度を改善した。この機能では、ボタンを押すだけで画像から得られる知識として重要な箇所を特定できる。実装としては、以下の記事のように、従来のCloud Vision APIをやめてGeminiを使うよう舵を切っていた。
今回はGeminiに渡す際のプロンプトの調整を行った。その結果、特に写真に対する切り抜き領域の特定が安定した。熱海旅行での写真を例にいくつか紹介してみる。



単純なOCRのAPIを超えて、LLMベースの実装になったことで、指示の出し方やコンテキストの構築方法などを試行錯誤する余地が生まれたのは嬉しい。