JSAI2026 視覚言語モデルは画像の順序関係を推論できるか?

テーマ
VLMが複数画像時間的・因果的な順序を推論できるかを評価する
4枚の画像をランダムに並べ、正しい順序に復元できるかを見る

背景
VLMは単一画像の認識やVQAでは高性能になっている
一方で、複数画像間の順序関係をどれだけ理解できるかは評価が十分でない
UI画面遷移の理解や、画面列からのアプリ動作推定では順序推論が重要になる

評価データ
ソフトウェア系画像
スマートフォンアプリのUI遷移など
非ソフトウェア系画像
自然現象、物理変化、日常動作など
合計50問

比較対象
Claude Sonnet 4
Qwen3-VL
InternVL3

考察
VLMは画像の内容理解だけでなく、画像間の「前後関係」を推論する必要がある
日常的な変化よりも、UI遷移のような抽象的・設計依存の順序は難しい
やはり日常的な題材の方が先天的に知識獲得していると考えればよい?daiiz → Yes
UI理解やソフトウェア開発支援では、単一スクリーンショット理解だけでは不十分
複数画面をまたいだ状態遷移・操作意図・因果関係の評価が重要
並べ替えるコマ数を変化させるとどうなるか?daiiz
→ いくつか試しているが、まだ結果はまとまっていない。引き続きやっていく。

感想 daiiz
Phonnoでの写真の撮影順序予測をやりたいので参考にする
最終的には中間コマの生成とかもやりたい