Google I/O Extended Tokyo 2025 キーワード集 2
2025/7/5 13:40

マップ上のオブジェクト(店や道路など)のデータが公開されることが決まった
ルート、プレイス、イメージ
公共交通機関
道路標識
ストリートビューから取得した画像をAIで認識している
Earth engine
BigQuery
データをいれることと、抽出だけを考える
集計や統計が得意なデータベースと捉えておけばよし
通常のDBのような各レコードをチクチク更新するような用途は向いていない
BigQueryでGeminiに問いかけできる
「ここの緯度経度を教えて」
「そして、半径5km以内にどんなものがあるか教えて」
BigQuery Studio
GEO関数
少し精度が荒い
ポリゴンで返される
250m粒度は荒い
たしかに土地が広いアメリカでは十分かもしれないが、日本ではちょっと厳しいよね
100mくらいにはしたいよね
ドンズバな情報が出ない
情報は持っているが、閾値以下の件数のカテゴリは返さない仕様
件数が少なすぎると特定されてしまうため
CreanRoomで提供
今日のデモしたことの一般公開はどれくらい?
来月のGoogle Next Tokyo 2025くらいにはなにかアクションがあるのではないか?
無償提供はありえないと思う。有償の課金体系も現在チームと検討中。
マイマップの情報は使われるか?
確かな情報は知らないが、おそらく使われていないのではないか

Ubie株式会社
Native Audio Dialog
Geminiがtoolsを使ってその結果を音声で返してくれる
Text to speech
たんに読み上げるだけでなく、プロンプトで言い方を指定できる
SSML vs Prompting
SSML: 強弱や抑揚などをXMLでラベル付けする
Prompting
直感的なプロンプトで音声生成は新たな次元へ
多少の誤読はあるが試してみると楽しい
「ポッドキャスト程度であればすでに十分作れると思う」
中間指示としてSSMLを生成させてそれに従って喋らせるのもありかも?
Multi-speaker dialogue
NotebookLMのように、声の違う2名のやりとりを生成できる
txt
りさ: ...
健二: ...
のように書いて、人物ごとに声のスタイルを指定する
これAPIあったのか!!
Generate Media > Generate speech

ここで実験してコードも取得できる
Control timing 2
wait 10 seconds
Style
早口言葉です
不気味そう
Style Instruction
文頭で指定できる
Paralinguistic Cues
文の途中で指定することもできる
(very slowly)
, (as fast as possible)
, (laugh)
Action Dictionary

Developer Relation Engineer
AI Agentsを構成するコンポーネント
モデル: Gemini
Brain, desision maker
ツール: MCP tools
オーケストレーション: Agent Development Kit (ADK)
Agent開発に最適化されたPythonフレームワーク
マルチエージェントが基本
ランタイム: Agent Engine
フルマネージドでスケーラブルなデプロイ
モデルへの非依存
フレームワークへの非依存
Agentic アーキテクチャの人気どころ
Hierarchical
Supervisor
A2A
Agent同士のやり取りのオープンな共通企画とエコシステム
Agent Builder
Nav changes old "Agent Builder" -> "AI Application"
Google Agentspace
Googleがいまかなり力を入れている
まったくコードを書けなくてもエージェントを作れる
Agent Gallery
コードを書ける人向け
Gemini CLI
Claude CodeのGemini版
これからどんどん改善されていく
Code Assist Agent Mode
BigQuery
AI Query Engine
手でSQLを書かなくてよくなる