#daiizメモ

ときどきいいことを書きます

Phonno

NotebookLMで自分の本の動画解説を作った

NotebookLMに「Phonno」の解説本『知的生産のための画像検索システム開発記』のプレゼン動画を生成してもらった。せっかくなのでYouTubeにアップロードした。 やる気が出ないときは、過去の自分の成果物を眺めながら調子が戻るのを待つしかないのだ。 高評価…

Phonno LegacyにGrok 4を搭載した

Phonno Legacyで、xAIが開発している言語モデル「Grok 4」に対応した。久しぶりにモデルの種類が増えた。 簡単に出力結果を比較してみよう。私が所有しているスクリーンショットや写真などの画像郡からざっくりと取得した情報を用いて、クエリに対する回答を…

Semantic chunking

Phonno Legacyの「この日、この場所」機能*1がパワーアップした。写真がメタデータとして持っている撮影日時と地理情報の組を利用して、一連の写真記録を自動で複数の塊に分けることができる。時間的な連続性と地理的な離散性をうまく組み合わせた結果、いい…

Phonno: 写真に対するCrop with AI機能の改善

PhonnoのCrop with AI機能の精度を改善した。この機能では、ボタンを押すだけで画像から得られる知識として重要な箇所を特定できる。実装としては、以下の記事のように、従来のCloud Vision APIをやめてGeminiを使うよう舵を切っていた。 daiiz.hatenablog.c…

フローチャートを育てる

プロンプトの改良を続け、モデルの進化の恩恵を受けた結果、Phonnoで生成されるフローチャートが安定してきた。リリース当初と比べて生成結果の文法エラーが減少し、さらに本質的な情報を捉える能力や表現力も向上している。画像知識からフローチャートを生…

Phonno: Crop with AI機能をCloud Vision APIからGemini 2.5 Flashに差し替えた

背景 Gemini FlashのObject detectionやOCRの性能が向上したという噂を聞いたり、実際にGoogle AI Studioで遊んだりして可能性を感じていた。写真を入力として「犬・猫」や「ガラス製品」など検出対象が明確なタスクでは概ねうまく動く手応えがあった。今回…

Phonno (Ask the Flow): `Unsupported markdown: list` の修正

Phonnoの思考フローチャートで番号付きリストが解釈されなくなっていた。Unsupported markdown: listと表示されている。当該ノードは step1["1. すり鉢でごまを荒めにする"] のように、いたって普通に記述されている。 「食べ方の手順」が描画されることが期…

Phonno 開発日和

有給休暇 1日目 Phonnoの開発が捗った。画像の視覚情報からグラフを構築する「Visual Meaning Graph」機能を試作して、ドッグフーディングを開始した。 Visual Meaning Graph #Phonno pic.twitter.com/LQ3p6302Cm— daiiz (@daizplus) 2025年4月30日 検索結果…

Phonno: 画像の視覚的な説明生成機能でもo4-miniを採用

昨日に引き続き、OpenAIの新モデルの採用と調整を進めている。 daiiz.hatenablog.com 画像画面でDescribe with AIボタンから使える機能。画像の説明文がo4-miniで生成されるようになりました。これまでのgpt-4oよりも視覚的に読み取れる情報が丁寧に描写され…

Phonno: gpt-4.1, o4-miniを部分的に採用

チャット用のモデルの選択肢のひとつであったo3-miniをo4-miniに更新した。 Phonno now supports o4‑mini! — daiiz (@daizplus) 2025年4月17日 長考型のモデルなので出力に時間がかかってもどかしいが、他のモデルと比べるとそれなりにポイントを抑えた端的…

PhonnoでMCPのschema.tsを読む

MCP完全に理解した。理解したそばから古い知識にはなりそうだけども。— daiiz (@daizplus) 2025年4月9日 GitHubで提供されているModel Context Protocol(MCP)のスキーマ定義ファイルをPDF化してPhonnoに取り込んで読んだ。 github.com 気になる箇所をLLMに…

Phonno: 関連画像の思考チャート

画像ページにおいて、関連画像リストに関する思考チャートも生成できるようになった。下図の例のように、論文の1ページ目でこの機能を実行することで、論文全体を通して重要な知識の概要を構造化できる。関連画像欄にはこの論文の他のページに加えて、別途収…

Phonno: Boxの概要生成

Boxに収録されている画像ソースをざっくり理解して、概要を生成できるようになった。画像を新たにアップロードしたときや、雑多なテーマを扱っていて様々な切り口から書けそうなときは適当なタイミングで再生成される。 概要を書くためにLLMが一度に読めるコ…

life.txt

実世界で見聞きしたもの、食べたもの、体験したこと、考えたことを全部LLMのコンテキストに載せたい。人生を記述して、対話を可能にし、自律的に新しい作品を生み出すための技術を探究していこう。プロジェクト life.txt、ここに始動。 Long ≪ Life context

Phonno: PDF画像のページ送りに対応

PDF画像のページ送りに対応した。Phonnoでは、PDFファイルがアップロードされたとき、各ページを画像に分割して保存している。この際にページ画像の順序を保持しているため、前後のページに移動できる。データ構造的には独自のドキュメントビューワを作るた…

祝日の翌日

NotebookLMにマインドマップ機能が追加されていた。 Phonnoで研究開発中の思考フローチャート生成も負けていられないな! daiiz.hatenablog.com グーグルに先駆けて似たものを出せていたのは先見の明がある感じがしてなんか嬉しい。

Phonno: PDFファイルに対応

PDF文書の入力に対応しました。ファイルを選択するだけで、全ページが自動で画像化されてPhonnoに取り込まれます。 つぎは、対象の題材をとことん読んで理解するための支援機能を作りたい。せっかくLLMという最強の武器を手に入れたのだから、概要を雰囲気で…

Phonno: 画像リストのレイアウトシフトを軽減

検索画面の画像リストのSkeleton loadingを実装した。これまでは画像リストの初期高さが0pxであったため、画像の読み込み完了前後でガタツキ(レイアウトシフト)が大きかった。全体的にだいぶ良くなった。あとは説明文とキーワードサジェスト領域も同じよう…

Phonno: キーワードの概要パネルにも思考チャートを表示する

表題の通り、キーワードの解説が生成されるパネルに、関連用語や関連概念を示すフローチャートが表示されるようになりました。Ask the Flow機能の発展形です。現状ではリアルタイムで生成するため少々時間がかかりますが、生成結果の保存と再利用の仕組みを…

Phonno: 思考フローを生成する機能を一般開放

Phonnoでの思考フロー生成(Ask the Flow)機能が誰でも使えるようになりました 検索画面と画像プレビュー画面でフローチャートを生成できます。 API料金の都合でこれまではログインしているユーザーのみに開放していましたが、今日からはログイン状況に関わ…

長文を喋るようになった

PhonnoでAnthropicの最新モデルClaude 3.7 Sonnetを選択できるようになりました。 3.5 -> 3.7 にバージョンアップした いつもの「daiiz Wiki」のデモも更新しておきました。 https://phonno.org/_d7ad2f536ace4d21ae9f8fb833194482 実際にRAGを試してみると…

Yeasts

LLMを扱ううえで、ハルシネーションとクリエイティビティは紙一重だと考えている。仕事ではハルシネーション抑制のためにクリエイティビティをあまり追求しない系の開発がメインなので、個人開発では生成AIにとことん創造性を問うてみたい。 Yeasts(酵母)…

PhonnoにGemini 2.0 Flashを搭載した

一般公開版のPhonnoのGeminiモデルのバージョンをアップデートした。 Gemini 2.0 Flashを選択できる 自分だけが使えるクローズドなPhonnoではGemini 2.0 Proと2.0 Flash thinkingも試している。Proは賢さが垣間見れていい感じ。最近の推しのClaude 3.5 Sonne…

冷え込んだ火曜日

ブランケットは温かい Phonno Ask the Flow機能で論文を読んでみている。 Attention Is All You Need 論文のアブストラクト セマンティック・ウェブ論文でのオントロジーの説明 読書 『これからのAI、正しい付き合い方と使い方』 第5章 「創造性」としてのAI…

画像ページにもAsk the Flow機能を実装した

先日Phonnoの検索画面に導入した「Ask the Flow機能」を画像そのもののページでも使えるようにしてみた。 daiiz.hatenablog.com 下記のようなスクリーンショット*1をPhonnoにアップロードすると、LLMが画像に書かれていることを理解して、物事を考えるための…

PhonnoのDiscordサーバーを立てた

Phonnoの開発進捗や今後の展開のアイデアを書く場所として、Discordのサーバーを作った。仕事やプライベートでDiscordを使う機会が少ないので流行りのツールに触れるという意味合いも込めて。Discord Botの開発とかも作ってみたい。 discord.gg Phonnoと似た…

💰️🤖🧠💰️

Phonnoの「Ask the Flow」機能をリリースした。画像郡に含まれる知識からフローチャートを自動生成して理解を助けてくれる。背景情報の関係性を把握したり、大きめの問題を適度に分解して考えることができる。完璧ではないものの第一歩を踏み出せた感じはす…

PhonnoでFlowchartを生成する

昨日のFlowchartLMの話の続き。Ask the Flow機能の試作ができた。Joel on Software 日本語訳の一部の記事を取り込んだボックスで検索してみる。 理想の開発チームとは? ノードやサブグラフをクリックすると、そのトピックに関してさらに深堀りして検索でき…

FlowchartLM

思いつく限りの「〇〇LM」を試作している。これは単体では面白くない。Phonnoに融合するのは良さそうかも知れない。 明日の面談の資料を書かないと。

久しぶりの自然対数

Phonnoを理想の姿に近づけていく - #daiizメモ の補強メモです。未来の自分のための設計メモ。2025年1月バージョン。 類似度順にソート済みのsimilarImagesが与えられたとき、ちょうどいい弱さの関連度合いの画像をひとつ選定するための数式。seedImageIdsは…