#daiizメモ

ときどきいいことを書きます

phonno の検索結果:

帰京

…だ。西方向にも積極的に移動していきたい。 広島駅 駅弁は夕飯にした。穴子飯は人生初かも? 名古屋のひつまぶしも相当美味しかったけれど、こっちのほうがあっさりしていて食べやすくて好きかもしれない?ハマるかも。 よいライブでした。 Addiction Is All You Need 開発メモ Phonnoを使うと旅日記を書きやすくなるかもしれない。 円最密充填 → 六角格子(六角タイル) 六角形グリッドに関するガイド ~ ArcGIS Business Analyst ~:基礎編

技術書典18 執筆 4日目

こんばんは 本日の進捗 睡眠失敗中なので書いていく。 日記 昨日から書いていた機能が仕上がってよかった。マクドナルドのベーコンポテトパイのパッケージが変わっていた。たまたま?

技術書典18 執筆 3日目

睡眠失敗が続いていて眠い!! 本日の進捗 なし。残念! 日記 めっちゃコードを書いて、事務作業もした。技術書典のオフライン会場でのサークル番号を把握。完全手ぶらセットも申し込んでみた。テーブルクロスや値札などのブース設営グッズをいただけるらしい。楽しみ。

Phonno: Crop with AI機能をCloud Vision APIからGemini 2.5 Flashに差し替えた

…ション作成を補助するPhonnoの機能。これまでは画像の理解のために Cloud Vision APIの Detect crop hints | Cloud Vision API | Google Cloud を使っていた。Phonnoにおいてこの注釈情報は、テキストと画像を使って画像を検索するための画像IMEで活用される。人間による手作業での範囲指定の手助けをしたい。 個別画像ページでの Crop with AI 機能 これまでの課題 クロップ領域決定の精度がイマイチ ほと…

ファミマの菓子パンの観察

いろいろ食べているうちに、商品の英語名称を読むほうがシンプルということに気付いた。推したいことをピンポイントで伝えている。それと同時に結構な情報が失われていることも見えてきた。 どかっとテリマヨチキンパン → Teriyaki Chicken これは情報量はほぼ同じ。マヨネーズ要素が欠落してしまって勿体ないが。 手巻きソーセージドーナツ → Sausage ドーナツであることを諦めたなと思ったが、たしかによく考えるとこれ一般的にはドーナツとは言わないないのかも。 ツイストサン…

木曜日

…リズムを考えている。Phonnoやナッジグラフ構想で必要になってくると目論んでいるやつ。本質的ではないものの、あると実験が捗るパーツをClaude Codeがどんどん書いてくれるのでありがたい。実装の変更前後での検索結果を精査するためのレポーティング機能とか、CLIツールのオプションとか。ログ出力で表組みや絵文字を多用してテンションも上げてくれる。そもそも成功するかわからないプロトタイプの段階においては、多少作り方が荒くてもいいものは任せていけるといい。 Claude Cod…

Phonno (Ask the Flow): `Unsupported markdown: list` の修正

Phonnoの思考フローチャートで番号付きリストが解釈されなくなっていた。Unsupported markdown: listと表示されている。当該ノードは step1["1. すり鉢でごまを荒めにする"] のように、いたって普通に記述されている。 「食べ方の手順」が描画されることが期待される Mermaid-jsのv11系での問題のようだ。 Markdown lists are not supported · Issue #6099 · mermaid-js/mermaid…

帰京

京都に帰ってきた。いい旅だった。ゴールデンウィークの後半戦はコードを書きます。頭が柔らかくなってアイデアの連想が止まらなくなっている。 Nudge Graph構想を進めていきたい。 ナッジグラフ(Nudge Graph)を設計・提唱したい。PhonnoやCosenseに蓄積された興味関心コンテンツと研究ノートを編み直し、LLM 時代の知的生産行動をいい感じにデザインできる気がする。— daiiz (@daizplus) 2025年5月4日

Phonno 開発日和

有給休暇 1日目 Phonnoの開発が捗った。画像の視覚情報からグラフを構築する「Visual Meaning Graph」機能を試作して、ドッグフーディングを開始した。 Visual Meaning Graph #Phonno pic.twitter.com/LQ3p6302Cm— daiiz (@daizplus) 2025年4月30日 検索結果や画像ページで生成される思考チャートをMermaidのコードとしてエクスポートできるようになった。Cosenseにコードブロック…

PerplexityのMCPサーバーを試した

…otocolの仕様もPhonnoでざっくり読んだので裏側で起きていることも想像できるようになった。いよいよ実物を動かして挙動を観察していくフェーズに突入。 daiiz.hatenablog.com daiiz.hatenablog.com 下記のサーバーをREADMEに従って追加する。コードを読むと import { StdioServerTransport } from "@modelcontextprotocol/sdk/server/stdio.js"; で実装されてい…

Phonno: 画像の視覚的な説明生成機能でもo4-miniを採用

…した。これまでのgpt-4oよりも視覚的に読み取れる情報が丁寧に描写されます。ここで生成(もしくは手書き)した説明文は検索インデックス構築時にも参照されるため、手厚く書くことでより探しやすくなります。 画像の特定の領域に関する説明の生成結果の例 Phonno’s visual explanation generator for images & annotations now runs on o4‑mini! 🖼️✨— daiiz (@daizplus) 2025年4月18日

Phonno: gpt-4.1, o4-miniを部分的に採用

…iniに更新した。 Phonno now supports o4‑mini! 🎉— daiiz (@daizplus) 2025年4月17日 長考型のモデルなので出力に時間がかかってもどかしいが、他のモデルと比べるとそれなりにポイントを抑えた端的な回答が得られる。薄い本『LLM時代の検索を考える観察日記』を収録したボックスにおける、クエリ「SGEの特徴は?」に対する答えの例を以下に示す。 o4-mini での回答(2025/4/18 時点) claude-3.7-sonnet…

PhonnoでMCPのschema.tsを読む

…ァイルをPDF化してPhonnoに取り込んで読んだ。 github.com 気になる箇所をLLMに解説してもらいながら勉強を進めていける。 画像の領域を指定してAIに説明してもらう例。人間が説明を書くこともできる。検索強化のためにメタデータとしても使用される。 ソースコード中の型定義とコメントを駆使して思考チャートを作れる。 ResourceTemplate型の図解 サーバーの機能と通知に関するインターフェース定義のコード モデル選択に関するサーバーの優先度を示すコード クラ…

Phonno: 関連画像の思考チャート

画像ページにおいて、関連画像リストに関する思考チャートも生成できるようになった。下図の例のように、論文の1ページ目でこの機能を実行することで、論文全体を通して重要な知識の概要を構造化できる。関連画像欄にはこの論文の他のページに加えて、別途収録したコンテンツがサジェストされており、これらを有効活用できる。 Related imagesに基づくフローチャート Claude Codeによるアピールタイム 今回のメイン実装担当者であるClaude Code氏のコメントです。 「Ask…

Claude Code デビュー

Phonnoの開発でClaude Codeを使い始めた。Dockerコンテナ内で動かせるので安心安全。明日からたくさん働いてもらうぞー! Claude Code 起動成功 力試しとして、昨日の記事で紹介した機能の実装をソースコードから探して説明してもらった。だいたい合っている気がする。Box Descriptionと命名してしまったけれどClaudeが書いているBox Overviewのほうがいいな。 daiiz.hatenablog.com # Claude日記: Box …

Phonno: Boxの概要生成

Boxに収録されている画像ソースをざっくり理解して、概要を生成できるようになった。画像を新たにアップロードしたときや、雑多なテーマを扱っていて様々な切り口から書けそうなときは適当なタイミングで再生成される。 概要を書くためにLLMが一度に読めるコンテンツ量には限りがあるので、でかいデータセットの場合はランダムに選択している。無作為に選ばれた画像郡から新しい概要を作り、既存の概要とミックスする。この二段構えにすることで、過去の生成結果も適度に取り込みつつ新鮮さも得られていい感じ…

Phonno: PDF画像のページ送りに対応

…画像のページ送りに対応した。Phonnoでは、PDFファイルがアップロードされたとき、各ページを画像に分割して保存している。この際にページ画像の順序を保持しているため、前後のページに移動できる。データ構造的には独自のドキュメントビューワを作るための下準備が整っている。あとは時間をみつけてイケているUIを書いていきたい。 気の向くままに検索してもっともらしい画像に着地したのち、周辺ページを読み進めて前提知識や関連情報を獲得できる。 移動時のガタツキもなるべく早くなんとかします。

祝日の翌日

NotebookLMにマインドマップ機能が追加されていた。 Phonnoで研究開発中の思考フローチャート生成も負けていられないな! daiiz.hatenablog.com グーグルに先駆けて似たものを出せていたのは先見の明がある感じがしてなんか嬉しい。

Artifact Registry移行の駆け込み対応

…geが全部コピーされて時間がかかった。もはや参照されていない古いやつは予め消しておけばよかった。2022年の懐かしいimageも出てきた。 対応完了した。「今日の日付」画像、点描画変換ツール、miilClient、Phonno、Chronicle、Snapshot machineなどがすべて救われた。めでたしめでたし。 Container Registry時代の *gcr.io のURLを引き続き使えるのはありがたい。ビルド設定やデプロイパイプラインを直し始めると大変すぎる。

Phonno: PDFファイルに対応

PDF文書の入力に対応しました。ファイルを選択するだけで、全ページが自動で画像化されてPhonnoに取り込まれます。 つぎは、対象の題材をとことん読んで理解するための支援機能を作りたい。せっかくLLMという最強の武器を手に入れたのだから、概要を雰囲気で把握するのではなくて、完全に納得できるまで寄り添ってくれる文書・画像ビューワを目指したいところです。超検索型ドキュメントビューワ。

Phonno: 画像リストのレイアウトシフトを軽減

検索画面の画像リストのSkeleton loadingを実装した。これまでは画像リストの初期高さが0pxであったため、画像の読み込み完了前後でガタツキ(レイアウトシフト)が大きかった。全体的にだいぶ良くなった。あとは説明文とキーワードサジェスト領域も同じように対応できたら完璧だ。 Chrome Dev Toolsで Slow 4G 回線をシミュレーションした様子。 おまけ 個人開発のGitHubリポジトリにGemini Code Assistをインストールおり、AIにコードレ…

Phonno: キーワードの概要パネルにも思考チャートを表示する

表題の通り、キーワードの解説が生成されるパネルに、関連用語や関連概念を示すフローチャートが表示されるようになりました。Ask the Flow機能の発展形です。現状ではリアルタイムで生成するため少々時間がかかりますが、生成結果の保存と再利用の仕組みを(AIが)実装中なのでそのうち爆速になります。 Bigtableに関する知識整理の例 daiiz WikiでのChatGPTに関する説明の例(デモ) その他のアップデート 画像配信: 大量のサムネイル画像が読み込まれる検索画面が安…

Phonno: 思考フローを生成する機能を一般開放

Phonnoでの思考フロー生成(Ask the Flow)機能が誰でも使えるようになりました🎉 検索画面と画像プレビュー画面でフローチャートを生成できます。 API料金の都合でこれまではログインしているユーザーのみに開放していましたが、今日からはログイン状況に関わらず利用できます。ボックスの編集者だけでなく、検索専用ビューの利用者にも触ってもらえるので嬉しいです! GPT-4o, o3-mini, Claude 3.5 Sonnet と試してきましたが、精度はそこそこ満足でき…

2月末の焼きおにぎり

生活圏内なのに7年間も気付けなかった飲み屋でご飯を食べてきた。どれも美味しい!今度時間があるときに他の料理やお酒も冒険したい。 なんと2月が終わってしまいました。今月も読んでくださりありがとうございました。来月はもっと充実したコンテンツをお届けできるよう頑張ります💪 PhonnoのPDFファイル対応間に合わなかった...!

今週のお題「本屋さん」

…買っている。ブッコローのLaQを組み立てたり、イメージカラーの橙羽色(とわいろ)の限定インクを買ってみたり。 オフィスにぬいぐるみも住まわせている。退社時間になると心做しか疲れているようにも見える。 YouTubeライブイベントで限定柄のスケッチブックも買った。来月は限定ラベルのアラビックヤマトが販売されるらしい。 Phonnoでさくっと写真を探せてよかった。写真の一部分を切り取った共有用のURLを発行できるのが便利。背景にぼかしを入れる手間が省ける。今週末は開発を進めたい。

長文を喋るようになった

PhonnoでAnthropicの最新モデルClaude 3.7 Sonnetを選択できるようになりました。 3.5 -> 3.7 にバージョンアップした いつもの「daiiz Wiki」のデモも更新しておきました。 https://phonno.org/_d7ad2f536ace4d21ae9f8fb833194482 実際にRAGを試してみると、前のモデルよりも出力文章が長くなる傾向が見られた。この現象を良いように捉えて、些細な情報も最大限に拾って回答構築されるようになっ…

Yeasts

…asts(酵母)は、Phonnoを使った実験的な取り組みの一つ。蓄積された画像を組み合わせて新しいアイデアを生み出そうというもの。LLMに自由にアイデアの種を量産してもらい、いい感じのものが出てくるのを待つ。もしもよさげな種が出てきたら培養してプロダクトにしていく、という目論見で進めている。 毎日ドッグフーディングしているInternal Phonnoには、パソコンやスマホで撮影したスクリーンショットと実世界の写真が自動で取り込まれ*1、インデクシングされて検索可能な状態に整…

PhonnoにGemini 2.0 Flashを搭載した

一般公開版のPhonnoのGeminiモデルのバージョンをアップデートした。 Gemini 2.0 Flashを選択できる 自分だけが使えるクローズドなPhonnoではGemini 2.0 Proと2.0 Flash thinkingも試している。Proは賢さが垣間見れていい感じ。最近の推しのClaude 3.5 Sonnetといい勝負をできるかもしれない。Vertex AIでExperimentalが外れたら公開版にも搭載したい。 クローズド版で試用中のモデルたち Gemi…

一夜にして読めるものが増えた

…ProとFlashをPhonnoに搭載しようと思う。明日にはできるはず。 PythonでmacOSのネイティブアプリを書くための知識。なかなか手を出せていなかった領域。ChatGPT o1の助けによってやる気が出てきた。「なんかようわからんところで詰まって無駄になったらどうしよう」「時間もないしな」で諦めていたことに挑戦するハードルが一気に下がっていてよい傾向。最後は大手LLMの誰かに聞けばなんとかなるでしょう、と楽観的に始められる。今回はElectronに逃げません。 Co…

冷え込んだ火曜日

…ランケットは温かい Phonno Ask the Flow機能で論文を読んでみている。 Attention Is All You Need 論文のアブストラクト セマンティック・ウェブ論文でのオントロジーの説明 読書 『これからのAI、正しい付き合い方と使い方』 第5章 「創造性」としてのAI 第9章 「未来」としてのAI サブスク 巷で話題になっているDeep Research機能を試してみたさでChatGPT Proを契約した。OpenAIの発表動画でも「ウェブ検索の新し…