#daiizメモ

ときどきいいことを書きます

画像ページにもAsk the Flow機能を実装した

先日Phonnoの検索画面に導入した「Ask the Flow機能」を画像そのもののページでも使えるようにしてみた。

daiiz.hatenablog.com

下記のようなスクリーンショット*1をPhonnoにアップロードすると、LLMが画像に書かれていることを理解して、物事を考えるための手順をフローチャートで表現してくれる。

記事のスクリーンショットの例

画像の関連データを掲載するセクションでチャートが生成される。

生成されるフローチャートの例

GPT-4o, o3-mini, Gemini ともにMermaid記法の出力が不安定な問題があったが、subgraphの定義をendするたびにコメントを書かせることでかなりよくなった。最終的にコメントはレンダリングされないので出力トークンの無駄遣いになっているのは気になるが、出力結果が安定するほうが嬉しいのでこれでよしとする。

難しい論文や本を読んでみたい。