個人開発でのLLM活用10連発

Photo by 
こんばんは
Helpfeel エンジニア
設計、実装、ドッグフーディングの繰り返しの日々
前回
興味関心がある身近なデータを集めまくる
データを起点にして次の挑戦領域を発見する
自分が作ったものを毎日使う
アイデアの本質が見えるまで深堀りする
ときどき刺激を加える
個人開発歴
大学生の頃から
10年以上
色々と作ってきた
思いつき次第試したい
自分が毎日使いたい
多くの人に使ってもらいたい
詳しくは #作った の関連ページ
個人開発の傾向
いくつか並行して開発を進めている
分野ごとの広がりを整理を試みた様子
画像を扱う題材が好き
個人開発でLLMを使っていく話
手を動かして慣れていくしかないですよね!
LLMでお絵かきする
言語モデルで絵を描く
拡散モデルではなく
LLMでお絵かきする
SVGならできる!
SVG大好き
few-shotで原画を与えて自由に変形してもらう
SVGでの表現の限界に挑戦してくれる
SVG Drawingの進化に乞うご期待
ちょっとしたSVG素材を作る
アイコンやプレースホルダー画像など
Claude 3.5のArtifacts機能が最高に便利
出先の隙間時間に作業を進められる
外でもスマホでも個人開発できるようになった!
チャットクライアントを作る
開発アイデアやコードがデフォルトでコンテキストに乗る
いちから前提を話さなくていい
具体的なコードで会話できる
開発TODOメモやイベント情報を混ぜた秘書を作れる
チャットクライアントを作る
LLMとのチャットUIの研究を兼ねている
例: テキスト入力欄は画面上部にあったほうがいい
例: 会話の中で、コンテキストに含めるものを選択したい
最近Goolge AI Studioにも実装されていた
チャットクライアントを作る
エクスポート機能を実装するべき
より強いモデル情報を引き継げる
簡単なブログ記事にもなれる?
HTML形式で出力しておくといい
ブラウザで読める(人間可読)
他のクライアントにもファイルとして渡せる
例: Google AI Studioで続きの議論をする様子
情報分析する
積読になっているブックマークをときどき見直したい
ブックマーク検索ツールも開発中
定点観測機能
新しい順に読みたい
追加日ではなく
古い記事がバズっていたりすることもある
情報分析する
ウェブページを画像としても保存している
情報分析する
マルチモーダルLLMにスクリーンショットをそのまま渡す
先頭から高さ1000pxの領域で十分
プロンプトの例
js
const prompts = [
"スクリーンショット画像から情報を抽出して、このコンテンツの作成日を推定してください。",
"時刻が不明確な場合は 00:00 としてください。",
"複数の候補が考えられる場合は、確度が高い順に並べて回答してください。",
"日時情報を抽出できなかった場合は、空の配列を返してください。",
"---",
`只今の日時は、${nowDateStr} です。`,
];
情報分析する
入力画像の例
(説明用に回答根拠箇所のマーキングを付与している)

記事の作成日を推定させる
該当箇所が複数あれば、確度順に全部答えてもらう
Cosenseのページなど、推定不能な場合は空になる
DBでも複数の値を記録できるようにしておく
あとで人間がチェックする
記事作成日を推定できた様子
灰色の文字で表記。紫色の長方形はリンクタイトルをマスキングしたもの。
Gemini 1.5 Flash APIを使用
最新作
画像検索エンジンの作成・共有サービス
2年間ほぼ毎日使っている 
写真を探す
写真に撮られた本のスクリーンショットを探す
撮影場所に関する情報が書かれた画像を探す
テックイベントのスライド写真を起点に連想検索する
論文とWebページを串刺しで検索する
たぶん便利なので一般向けのサービスにしてみよう!
機能を削ぎ落として調整した
落としすぎた気もする
塩梅が難しい
ドッグフーディング期間が長すぎると自分に特化したシステムになりがち
温めすぎないほうがいい
最新作: Phonno
Phonno = Photos + Annotations
スクリーンショットや写真に対するRAGシステム
自分が追加した画像資料にGroundingできる
詳しくは技書博9で販売した知的生産のための画像検索システム開発記にて
画像の特定領域に説明を書いて検索可能にする
特に検索で見つけたい箇所を手厚く
書くために探し、探すために書く
PhonnoでのLLMの利活用
画像の説明を書いてもらう
画像片そのものと説明をマルチモーダルモデルに与える
画像から検索キーワードを連想する
APIのコスト感
GPT-4oやGemini 1.5 Flashモデルがだいぶ安くなった
一般公開してもまあ大丈夫だろう
だめだったらそのときに考える
最新作: Phonno
Coming soon...
個人開発でもLLM使っていこう!
規模感問わず
モチベーションの維持
本質的な作業に集中
新機能開発
面白い使い方を懇親会で教えてください!