JSAI2024 2日目
聴講した発表をいくつかピックアップ
適宜加筆修正します
今日は快晴
説明可能なAI
現場で使ってもらうための課題
招待講演: 進化する大規模言語モデル(国立情報学研究所 相澤先生)
自然言語処理、情報検索、遺伝的アルゴリズム
1年前: ChatGPTの登場とその衝撃
この直後からの日本の動きはいい感じだった
テーマ: 自然言語処理の研究者はいま何をしているのか?
1 LLMの進化の系譜
Hugging Faceでの公開モデル数が指数的に増加
進化系統図
LLMの進化の歴史を紐解くために重要な調査
埋め込み表現(2013)
分布仮説と文脈類似度
文脈と意味
文脈の近さによって意味の近さを測る
意味を数値で表し計算可能になる
文脈ベクトルの空間上の距離
文脈ベクトルによる意味空間
高次元でスパースな意味空間。困る。→ 様々な圧縮手法。分散表現もそのひとつ。
分散表現
Embedding: One hot vectorをLow dimension representationに表現すること
これまでで一番理解が捗った。感謝 
埋め込み表現の「学習」
空欄に入る単語を予測(穴埋め問題)
Encorderに相当
次に来る単語を予測
Decorderに相当
Word2Vecが画期的だった点
概念間の関係(推論)が埋め込み空間上の計算で表したこと
BERTの時代(2017)
未知語の問題、多義語の問題
未知語: Out-of-vocabulary (OOV)
文の確率は単語の生起確率の掛け算で表現されるので未知語は死活問題
<UNK>
トークンで代替する サブワードへの分解(Byte Pair Encoding, 2016)
辞書にない単語を既知のものに分解していく
語義の曖昧性
"mouse": 動物なのかデバイスなのか
LSTMで語の順番を捉える。RNNで文脈に応じた意味付けができるようになった。
文脈の理解(Transformer)
attention head
文法と意味成約を学習できる
LLMの進化 大規模化(2023)
事前学習パラダイムと自然言語処理
事前学習済み言語モデル
Pre-train, Fine-tune
エンジニアリングチャレンジ: 損失関数を工夫
Pre-train, Prompt, Predict
エンジニアリングチャレンジ: プロンプトで問題の与え方を工夫
これが大きなパラダイムシフト
Instruct GPT
スケーリング則と創発性
パラメータ数が大きいモデルほど性能が良い
モデルの結合
AgentとしてのLLMs
2 LLM構築の現場レポート
LLM-jp
OSSかつ日本語に強いLLMの構築と研究開発の推進
オープンプラットフォーム構築
NII LLMC
大規模言語モデル研究開発センター
構築の工程
コーパス構築
文書から文字列を抽出したもの
大きさの目安: 20トークン=1パラメータ
目的に合わせてコーパスを混合
混合比率も経験則
例: PaLMは対話データを多く含んでいる、AlphaCodeは100%コード
「質」が悪いと性能が落ちる
重複した文章が性能に悪影響を及ぼすこともある
課題: Token Crisis
良質かつ大量のテキストデータが必要だが枯渇したのではないかという問題
ウェブ空間でさえ足りなくなってきているという指摘も存在する
トークナイザー
サブワードへの分解みたいなもの
辞書は大きすぎないほうがいいが、トークン数は少ないほうがいい(再び経験則)
トークンサイズはコストと利便性直結する
トークン単位での課金
コンテキストウィンドウ長の成約
言語間の格差
例: 漢字がトークンに含まれているか?
スペースの扱いによる違い
例: プログラミングコードのモデルでは?
辞書から消してはいけない「必須語彙」を特定する作業などしている
トークン ≠ 形態素
逆にトークナイザーに都合の良い言語作れないかな 
モデル構築
「モデル構築は本当に大変です」
計算機に投げればできるでしょ、という世界ではない
ちょい高度な分散並列学習の技術が求められる
チューニング・評価、推論
タスクの例: 固有表現抽出、含意関係認識
タスク自体も多様化してる
ドメイン特化、マルチモーダル能力
評価データセットの大規模化につながる
BiGBIO
データリークの問題
評価データに訓練データの正解が含まれていてはいけない
しかし、ウェブ上で素材が公開されていてモデルが答えを既に知っている可能性があるが検出困難
推論タスクのブラックボックス化
答えを評価する前に「問題を理解しているか」を評価する難しさ
LLMの評価にLLMが必要
Learn from model: データからのみならず、モデルからも学習してる時代
データとモデルのエコシステム
透明性
基盤モデルのエコシステムのグラフ
事前学習コーパスを検索分析(開発中)
根拠とお模式文書がどのデータセットに含まれるか、どのステップで学習されたかわかる
3 論点提起
正しい言語とは何か? delve問題
delve問題詳しく知らなかった。不勉強 
訓練に用いるテキストデータの品質保証(Llama-3)
経験則とトレードオフがいたるところに
モデル自体が研究対象に
質疑応答
コーパス構築のリソース不足に関して
オープンなリソースはかなり枯渇している印象を持っている。一方でクローズドなものやモダリティを増やした領域にはまだ豊富にあると思っている。
倫理審査が機能すると考えるか
言語の正しさ問題
伝統的な日本語のコーパスに期待している面がある
どこかで言語のオブザーバーがあるといいとは思っているが
Transformerが究極の解であるとは思っていない
スケール則に基づくモデルの巨大化はどこまでいくのか
ある程度の賢さは期待されている。これを満たしたうえで、コストを下げる方向に向かうとは思う。
コストの最適配分
チュートリアル: JSAI2024 2日目: 機械学習と科学モデル
久しぶりに大学の講義を受けている感じを思い出した。難しい!
スポンサー展示場の様子
株式会社Helpfeelはゴールドスポンサーとして協賛しています
ブースの新衣装の法被
プライベートで書いているLLM利活用の技術同人誌を置いておく
Phonnoプロジェクトの話
激動の時代における各サービスの試行錯誤の記録
初期のBing AIやBard、Google SGEの観察日記など
スクリーンショットが多めの検索UIカタログ的な本
気になった瞬間に日頃からGyazoっておいたおかげであとから振り返って書けた一冊
というストーリーをブースでお伝えできてよかった 
学会ご飯
建物内を彷徨っていたらレストラン街に着いた
日替わり弁当とおにぎりを買った