JSAI2024 1日目: 生成AI時代のナレッジグラフ

JSAI2024 1日目: 生成AI時代のナレッジグラフ

適宜加筆修正します

企画セッション: 生成AI時代のナレッジグラフ


(古崎先生)
知識グラフ
Linked Data
Linked Open Data
Wikidata
DBPedia
JapanSearch
国立国会図書館LOD
メディア芸術データベース・ラボ
eStat統計LOD
Google Knowledge Graph (2012~)

LODの代表例: Wikidata
Wikipediaの裏側で記述されている構造化データ
RDFを用いたナレッジグラフの表現例
SPAQLで検索できる
すべてのデータがIRIで表現されるため、これらの関連性をリンクして記述できる

ナレッジグラフ構築のための生成AIの活用
Knowledge Graph (KG)
知識を適切に扱うためのAI技術
正確な知識を得るための体系化されたデータ
理由を説明できるAI技術
推理小説部門
「犯人を当ててください」コンテスト
シャーロックホームズの既存のやつがあるので、生成AIによる手法でどこまで迫れるか?
一般部門
対象領域を問わない任意のナレッジグラフを構築
zero-shotプロンプトを再帰的に
KG for GenAI
ファクト情報に関する正確な知識を根拠付きで得られる
KGQAと呼ばれる

(福田先生)
知識表現
知識ベース、オントロジー
NEDOプロジェクト
実世界に埋め込まれる人間中心の人工知能技術の研究開発
Gen AI とは
今までで一番汎用的な知識処理システム
常識知識(”平均的”な知識)
対話インターフェース
KG とは
ヘテロ(異質)な情報を構造化し統合する仕組み
レアな情報を記述できる価値
知識合成
W3C標準のソフトウェア・システム郡
RDF、SPARQL、OWLなど
KG for Gen AI
外部知識を取り込むチャネルの一つ
”個別的な知識”の参照データとして
事例: VirtualHome2KG: 日常生活の合成知識グラフ化
事例: 動画アーカイブに対するセマンティックVideo Indexing
ナレッジグラフ推論チャレンジ(実社会版)
事例: RAGへの知識グラフの活用
江上, 福田「文のチャンクに基づく知識グラフを活用したRAG」(NLP2024)
現在精査中
事例: シーングラフ生成でのスコアキャリブレーション
Gen AI for KG
データセット構築支援

(森田先生)
知識工学、オントロジー工学、セマンティックWeb
生成AIを活用した知識処理
KG とは
知識共有基盤
知識表現
信頼できる情報源
Gen AI for KG
Wikidataを対象としたGPTに基づくエンティティリンキング
固有表現抽出、語義曖昧性解消、知識ベースのエンティティ
Wikipediaを間に挟む

(広田氏)
Stockmarkでのナレッジグラフの活用
Anews: 製造業界の情報収集支援ツール、組織での情報収集
組織横断での情報収集
ドメイン知識が必要
テキストからエンティティと関連を抽出して情報を構造化する
定期的にバッチ処理でナレッジを更新
Gen AI とは
あらゆるタスクのベースラインを底上げした技術
Few-shotに強い
AIの"発想"に革新をもたらした技術
KG とは
AIも人も理解・更新しやすいデータベース
事実に基づいた生成を行うために必要な基盤
KG for Gen AI
ナレッジをもとに発送するGen AI
確固たる事実に基づいて新素材の応用先を考えさせる
もちろん知識基盤ないアイデア発想はできるが
より具体的なアクションにつなげるためには現状の事実が重要
企業の組織内の知見者発見
専門家の検索だ

(黒川先生)
継続学習転移学習ナレッジグラフ埋め込み
生成AIとナレッジグラフの融合
Gen AI
連想の引き出し(1次記憶)
頻出パターン
KG
ファクトの引き出し(2次記憶)
ロングテールにも対応
知識のマネージメントコスト
モデルサイズと明示的に与える知識量にはトレードオフ
Gen AIを活用したKG構築
ユーザと製品の関連付けに関するKG
KG for Gen AI
KGを融合した視覚理解
シーングラフ
コンセプトネット
KGを用いたハルシネーション抑制

(パネルディスカッション)
議論の振り返り
Gen AIとKGのシナジーの出し方をどう考えるか?
KG作るところの大変さを担ってくれればなあと
人間が両者に求めているところは少しずつ違うよね。KGはどうなっていけばいいのか?
「指で指せる」
根拠に基づいた意思決定。ビジネス用途ではこれがより重要になってくる。
AIの回答にcitation出典を明記するとクリック率が上がる
知識共有基盤として
KGをタスクごとに作るのか。一つの大きなKGを作るのか(理想郷)
情報検索の文脈ではGoogleは後者で成功しているように見えるけどもどうなんだろう daiiz
ドメインに深く根ざした知識のほうが勝ちがあると考えている
領域特化
Gen AI: fine tuning
KG: ???
これって大変ですよね?
Webと実空間の事象、相関があるのか?
KGはWeb上の情報をクローリングして構築されているがギャップはどう埋める?
ローカルでアップデートされた情報を取り込む
Webもセンサー、実空間もセンサー、ハイブリッド
Gen AIとKGがシナジーを出すためにはどういう課題があるか?
1:N問題
どこまでドメイン特化するか
Webと実空間の情報更新問題
LLMも知識を持つ
KGから答えてほしいが、LLM自身の知識で答えてしまう
回答生成能力は使いたいがグラウンディングする知識はコントロールしたい問題
これはRAGが期待されているが
toolとして使う上での制御の難しさ
KGは間違いを修正できる
誤知識を”指さして"修正できる
訂正可能である価値 daiiz
LLMは再度学習し直して治すのが難しいだろうなと
知識グラフを生成AIの情報源として与えるとき
グラフのままでいいのか
JSONでいいのか
自然言語に書き下すのか
グラフを全部説明しようとするとものすごく長くなるけど?
せっかく構造化したのに勿体ないよね
Gen AIとKGへのオープンまたはクローズドな情報の取り込み方をどう考えるか?
究極のクローズドは暗黙知
データをEmbeddingとして扱う
クローズドなな知識グラフ
まとめ: なにに期待?
組み合わせはまだまだ探求の余地がある。好みに応じて色々やろう。
実世界基盤モデルを作るときにはダイバーシティが重要
LLMが学習し尽くしたらオントロジーが不要になるとかではない。あらゆる適切なサイズの情報を構造化しておくことに価値がある。
知識グラフをLLMに効率的に与える方法、推論の可能性
Gen AIとKGはもともと独立して研究されてきた分野。いまこの時代になって融合しようと世界中が取り組んでいる。互いがそれぞれ融合を前提とした研究が進むであろう。


感想・疑問
Gen AIが登場したことにより、厳格すぎないKGという路線は考えられないか?daiiz
RDFトリプルに関して言えば特にp
s,oはIRIで表現されることの価値は理解できる。pはもう少し曖昧でもいいのではないか?
Rough Knowledge Graph
KGに問いかけるためのクエリ構築にGen AI使えそう daiiz
SPARQLクエリが難しすぎる
変化が早い事実を表現するにはどうするといいだろう daiiz

Powered by Helpfeel