Uncategorized

マルチモーダルAIが「見直す力」を獲得:推論中に視覚情報へ再アクセスするv1モデルの革新

マルチモーダルAIの次なる進化:「見直す力」でより深く理解するv1モデルの登場

近年のAIの発展、とりわけ画像と言語を統合的に扱うマルチモーダル大規模言語モデル(Multimodal Large Language Models, 以下MLLMs)の進化は著しく、ChatGPTやGPT-4Vなどの登場により、画像とテキストを組み合わせた複雑な問いへの対応が可能になっています。しかしながら、これら従来のモデルにはある根本的な制限がありました。それは、「画像を1回だけしか見ずに推論する」ということです。

今回紹介する論文「Don’t Look Only Once: Towards Multimodal Interactive Reasoning with Selective Visual Revisitation(繰り返し見直す力で向上するマルチモーダル推論)」では、これまでの制限を打破する新たなアプローチv1(ぶいわん)を提案しています。この技術は、モデルが推論プロセスの中で必要に応じて画像の該当箇所を「見直す」ことを可能にする仕組みです。つまり、人間が問題を解く際に、説明文と図を行き来しながら思考を深めるのと同じような自然な「行きつ戻りつの推論」ができるようになるのです。

なぜ「見直し」が重要なのか?

従来のMLLMsでは、画像はあくまで1回限りの情報源。つまり、モデルは画像の情報を一度「トークン化(情報を数値化して言語化)」したあとは、推論中にその画像には再びアクセスできません。これは例えば、数式が書かれた図や複雑な構造を持つイラストを伴う問題に対して、「あの図のあの部分がもう一度見れたら正しく解けたのに…」というような状態になりかねません。

しかしv1では、モデルの内部的な仮説が進展するたびに「この箇所ってもう一度確認した方が良いかも」と自ら判断して、必要に応じて画像の特定部分を再度参照することができます。これは「点とコピー機構(point-and-copy)」と呼ばれる技術によって実現されており、非常にシンプルかつ既存の構造に最小限の変更だけ加えて導入可能です。

「点とコピー機構」の仕組み

技術的には、この点とコピー機構は次のように機能します:

– モデルがテキストと画像の最初の情報を受け取って最初の推論を開始。
– 推論を進めるにつれて、「この問いには画像のこの部分の情報が再び必要だ」と判断。
– その判断に基づいて、画像中の特定トークン(例えば図形の一部や文字情報など)を再び取り込み、それをベースに次の推論を行う。

まるで人間がメモを読み返したり図に戻って「そういえばここにこう書いてあった」と確認しながら解答を進めるような挙動をAIが実現しているわけです。

v1g:30万件の教師データから学ぶ

モデルをこのように「見直す力」を持たせるには、適切な学習データが不可欠です。v1の訓練には、30万件にもおよぶマルチモーダルな推論過程と言語・画像の対応関係(視覚的接地注釈)を組み合わせたデータセット「v1g」が使われました。このデータセットは、モデルが「どの場面で画像のどの部分を参照すべきか」を学ぶための重要な基盤となります。

数学問題での高パフォーマンス:MathVista、MathVision、MathVerseでの評価

この新しい機構は、特に高難易度な数学的推論に強さを発揮しました。論文では以下の3つの分野でその効果が実証されています。

– MathVista:視覚的な図とテキスト理解が問われる数学問題
– MathVision:画像中のテキストや構造を読み取って論理的な回答が求められるタスク
– MathVerse:より創造的な推論・検証が求められるマルチステップ問題

これら全てのベンチマークで、v1モデルは従来のMLLMsと比較して明確な精度向上を示しました。特に、図形の細部や複雑なレイアウトの「部分的参照」が必要とされる問題において、その効果は顕著です。

技術的見地からの考察:軽量実装による汎用性

注目すべきは、この「視覚的再参照」の仕組みが、既存のMLLMに対して大規模な構造変更を加えることなく導入可能であるという点です。つまり、現在広く使われているモデルにも比較的容易に適用できる可能性があり、研究者のみならず実用的な応用への道も開けています。

また、モデルが動的に判断して「必要な情報だけに再アクセスする」という点は、計算資源の最適化や低消費リソースでの高精度推論にもつながる可能性があります。今後、スマートフォン内で動作する省電力AIや、リアルタイム処理が求められるアプリケーションにも応用できる技術となり得るでしょう。

まとめ:AIは「一度見たら忘れない」から「何度も見て納得する」へ

v1の登場は、AIの見方・考え方を大きく進化させる第一歩といえます。これまでのAIは「1回画像を見て記憶して考える」といった意味で、“記憶に頼る推論”だったのに対し、v1は“必要に応じて参照する推論”つまり、“思考中に画像へ立ち戻る”というより人間に近い合理的な思考様式を獲得しつつあります。

今後、より多様なデータセットや応用分野でこの技術が磨かれていけば、教育・医療・産業などにおいて「マルチモーダルAIによる柔軟な判断」が可能になる未来もそう遠くはないでしょう。

論文・コード・モデルは今後公開予定とのこと。マルチモーダルAIの次の幕が開ける瞬間です。

論文はこちらから読むことができます:
https://arxiv.org/abs/2505.18842