先日Phonnoの検索画面に導入した「Ask the Flow機能」を画像そのもののページでも使えるようにしてみた。
下記のようなスクリーンショット*1をPhonnoにアップロードすると、LLMが画像に書かれていることを理解して、物事を考えるための手順をフローチャートで表現してくれる。
画像の関連データを掲載するセクションでチャートが生成される。
GPT-4o, o3-mini, Gemini ともにMermaid記法の出力が不安定な問題があったが、subgraphの定義をendするたびにコメントを書かせることでかなりよくなった。最終的にコメントはレンダリングされないので出力トークンの無駄遣いになっているのは気になるが、出力結果が安定するほうが嬉しいのでこれでよしとする。
難しい論文や本を読んでみたい。

