#daiizメモ

ときどきいいことを書きます

Okonomi - 知的生産活動支援 AI Agent の試作

知的生産活動を支援するAIエージェント「Okonomi」を作っている。

この土日での進捗を紹介します。複数のPDFファイルを読み込んで論理的な目次を生成し、質問応答ができるようになった。さらに実験的な機能として、対話のAutopilotモードも実装した。言語モデルはGemini 2.5 Flashを使っている。難しいタスクは部分的にProやClaude Sonnet 4を使ってもいいかもしれないが、まずは素朴な能力を見ていきたい。

質問応答

技術書典18 オンラインマーケットで販売中のLLM観察日記シリーズ(全2巻)の内容について聞いてみる。これらのファイルをフォルダに入れておくだけで準備は完了。文章構成の把握やチャンクへの分割作業やインデクシングは勝手に行われる。同じフォルダの中に他の過去作品も格納された状態で実験開始。

Image from Gyazo

対象の書籍を正しく2冊発見できた。続けて、これらの差分を聞いていく。

Image from Gyazo

しっかり要点を突いている。自前で定義したlist_files, read_chunksなどのtoolsを組み合わせてAIが読み解いてくれた。必要なチャンクだけをモデルのコンテキストに載せているのがポイント。すごいなあ。(実験後注: 『Ⅱ』に関する内部インデックスが壊れていてNotebookLMの章を取り込めていなかった。)

全体を通して見どころを教えてもらう。RAGやGrounding技術により事実に即した正しいことはだいたい取得できるようになってきた。これからはその文献が最も訴えたい箇所を見抜く力がほしい。このエージェントの設計思想のひとつでもある。

Image from Gyazo

ちなみに今回登場した2冊はこちらです📚️(宣伝)

対話のAutopilotモード

コマンド /autopilot を実行すると有効化される。ユーザーが離席していても議論が進められる。ユーザー代行機能。ユーザー代理。User Agent?

Image from Gyazo

Image from Gyazo

対話の開始点となる最初の一言だけ人間が発言する。これ以降は10ターンくらいかけて最初に投げかけた問題解決に向けて独創的な会話が繰り広げられる。

先ほどのシンプルな質問応答の例でも見たように、すでにAI側はtoolsを自律的に取捨選択して思考するエージェント的な振る舞いをしている。ここに、さらに別人格のAI(Userの代理役)が議論に加わる。完全に独立した2種類のAIが会話していることになる。2人いるので話題の切り口も豊富になって視野が広がるはず。

Image from Gyazo

お題「同じ著者が書いた本を集めました。この著者の興味関心領域を分析して。」を投げかけるとタスクが始まる。ユーザーはこの時点で離席してよい。

Image from Gyazo

AI Agentからの最初の回答が返ってくると、User Agentによって、ここまでの文脈と根本の問いを加味した次の質問が生成される(下図の2個目の▷の行)。

Image from Gyazo

この繰り返しで問題解決に向かっていく。User Agentは残りの質問バジェットに応じて議論の方向性を調整するようになっている。余裕があるときは深堀りし、最後の方ではまとめに入ろうとする。一連の対話でUser Agentが生成した動的な質問を以下に列挙しておく。もっといろんな方向から急角度で質問してほしいところ。プロンプトの改善やUser Agent側のtoolsの充実が必要になるだろう。何故か最後だけ英語になった。

- これらの多岐にわたる興味関心領域は、著者のどのような一貫した思想や、究極的に目指すビジョンに繋がっていると考えられますか?
- この一貫した思想やビジョンは、著者が開発するシステムの具体的な設計原則や、ユーザー体験においてどのような目標として現れていると考えられますか?
- これらのシステムが、ユーザー(特に研究者、クリエイター、分析者など)の具体的な知的生産活動において、情報収集、分析、アイデア創出、そして最終的なアウトプット生成の各段階で、どのような新しい可能性を開き、既存のワークフローをどのように変革すると考えられますか?具体的な例を挙げて説明してください。
- これらのシステムがもたらすワークフローの変革は、ユーザーがこれまで見過ごしていた、あるいはアクセスが困難だったどのような種類の「隠れた洞察」や「新たなパターン」を発見することを可能にするでしょうか?具体的な例を挙げて説明してください。
- これらの「隠れた洞察」や「新たなパターン」の発見は、最終的にユーザーの知的生産活動(研究、創造、分析など)において、どのような質的な変化をもたらし、どのような「新たな知」の創出に繋がると考えられますか?著者の究極的なビジョンである「知的生産活動のエンパワーメント」という観点から、より具体的に掘り下げて説明してください。
- これまでの議論を踏まえ、この著者のアプローチは、AIと知識管理ツールの広範なランドスケープの中で、どのような点で独自性を持ち、彼らの貢献は将来的にどのように評価されると考えられますか?
- これらのシステムが「隠れた洞察」や「新たなパターン」を能動的に発見し提示することで、ユーザーの「知る」という行為、あるいは「理解する」という認知プロセスそのものは、どのように変容すると考えられますか?人間が知識を獲得し、意味を構築する上での、AIとの新たな協働のあり方について、より哲学的な視点から掘り下げて説明してください。
- これまでの議論で、AIが人間の「知る」と「理解する」という認知プロセスを根本的に変容させる可能性について深く掘り下げました。この変容を踏まえ、著者が開発するシステムは、この新しい「知る」と「理解する」モードを最大限に支援し、人間が知識創造の中心であり続けるために、どのような設計思想や機能的進化を追求すべきだと考えられますか?特に、人間がAIに依存しすぎず、批判的思考や創造性を維持・発展させるための仕組みについて、より深く考察してください。
- Given AI's capacity to discover 'hidden insights' and 'new patterns' beyond human immediate perception, and even to identify 'unanswered questions' in
   our knowledge, what does this fundamentally imply about the *nature of human intuition and creativity* in an AI-augmented future? If AI increasingly
  becomes the source of intellectual breakthroughs, what then becomes the ultimate purpose or unique contribution of human intellect in this new
  paradigm of knowledge creation?

ユーザーが席に戻った頃には議論は終わり、最終レポートがHTMLファイルとして出力されている(この形式がベストなのかは要検討)。これは図らずして野良Deep Researchができてしまったのではないか! はたまた、対話部分をうまく整形すればNotebookLMのAudio Overviewのようなポッドキャスト音源も生成できるかもしれない。

詳細レポート

Image from Gyazo
okonomi_report_1

簡易レポート

Image from Gyazo
okonomi_report_2

今後の課題

ファイル数が多くなったりファイルの種類が多様になると、list_filesread_chunksといった単純なツールだけではやっていられなくなる。そこで、別途研究開発を進めている曖昧グラフ検索が期待される。一部だけ組み込み始めているがまだデモはできない。Stay tuned!*1

*1:"乞うご期待!" この間のGoogle I/Oで知った表現。使ってみたかった。