知的生産活動支援 AI Agent「Okonomi」の開発を続けている。
PNG画像に対応したことで、PCやスマホのスクリーンショットをネイティブに理解できるようになった。フォルダに突っ込んでおくだけでよしなに情報抽出できる。これの動作の様子は別の機会にまとめる。
JPEG画像に対応したことで、実世界の写真を読み解けるようになった。インデクシング工程でGeminiで画像を解析し、得られた視覚的な情報をOkonomiの独自のテキストフォーマットで文字として記録しておく。推論時にはこのテキストメモと画像バイナリを両方入力として使う。Geminiはマルチモーダルモデルなので画像ファイルだけ与えても動くが、Phonnoでの研究知見では、文字での概要も一緒に渡すほうが回答精度が安定する傾向があったので今回もこの作戦を採用した。
ここからは、先日の熱海旅行で撮った写真の一部を用いた実験結果を紹介する。
旅行中の食事のまとめ

よく見ているなあ。
旅行経路の分析
出発地がわかる写真をフォルダに敢えて含めていないため、「不明」になっているのがミソ。常識的に考えると帰着地と同じと推論してもいいが「写真のみに基づく」とこれが正解。自由なデザインでHTMLレポートを書くコマンドも実装している。最大限の頑張りを発揮して図解してくれる。
EX乗車票に情報が書いてあるかもしれないよ、というアシストは出す必要があったがその後は自主的にいろいろ読んで時系列を構築できているようでよかった。「EX乗車票」の写真自体は自力で発見できていたので、これを重点的に読むといいという経験がなかっただけだ。これはいずれなんとかなるだろう。
天気の推定
写真から雨のシグナルをしっかり捉えていた。ここで登場する「要約」とは、前述のインデクシング工程で生成された画像を観察して生成されたテキストメモである。人間は一切介入していないことがポイント。







