言語モデルの「知能」をテストする新しい方法とは? 生成されたゲームでAIの推論力を測定
近年、GPTシリーズやClaudeといった大規模言語モデル(LLM)が目覚ましい進化を遂げ、まるで人間のように会話をしたり、文章を生成したりする技術が注目を集めています。しかし「このAIは本当に賢いのか?」「具体的にどれくらい考える力があるのか?」という疑問には明確な答えを出すことが難しいのが現状です。
そうした中、スタンフォード大学などの研究グループが発表した新たな論文「Measuring General Intelligence with Generated Games」は、LLMの“汎用的な推論能力”を測るための全く新しい手法「gg-bench(Game-Generated Benchmark)」を提案しています。この手法の中核となるのは、「AIのためにAIがゲームを作り、そのゲームで他のAIをテストする」という驚くべきコンセプトです。
gg-benchとは何か? ― AIが創り、AIが遊ぶゲームの世界
gg-benchは、単なる一連の決まったテストや問題集ではありません。むしろ「テスト自体を動的に生成できる仕組み」と言った方が良いでしょう。このシステムは以下の3段階で構成されます。
1. ゲームの生成:
まず、大規模言語モデル(たとえばGPT-4など)を使って、「こんなルールのゲームがある」といった自然言語による説明文を生成します。例えば、「5マスのボードで、自分の色を横一列に並べたら勝ち」というような新ルールを作り出すのです。
2. コードへの変換:
次に、同じ言語モデルがそのゲーム説明をPythonコードに変換し、OpenAI Gymなどの環境として動作するように実装します。これによりAIが実際にプレイできる対話的なゲームが完成します。
3. 強化学習エージェント(RLエージェント)の訓練:
そして、この新たに生成されたゲームをプレイする専用のAI、すなわち強化学習エージェントを自動訓練します。このRLエージェントは、試行錯誤を繰り返してゲームに勝つ方法を学びます。
言語モデルのテスト方法:ゲームの説明を読み、最善の手を打てるか?
トレーニングされたRLエージェントに対して、今度は他のLLM(例えば、GPTやClaudeなど)をテスト対象として、以下のようなゲームプレイをさせます。
– ゲームのルール(説明文)
– 現在のボードの状態
– 現時点で打てる合法的な手
以上の3つをインプットとして与え、言語モデルが次に取る手を出力します。つまり、言語モデルがルールを即座に理解し、状況に応じて最善の行動を選べるかを試す構造となっているのです。
このアプローチの魅力は、何百・何千通りものまったく新たなルールのゲームを自動生成できることにあります。従来の静的なベンチマークテスト(例えば、リーディング問題や数学問題)ではテストに慣れてしまったAIが高得点を出すため、本当の“推論力”を推し量ることが難しかったのです。gg-benchでは、初めて出会うルールを理解して動けるかが問われ、本当に「理解して考えられるAIかどうか」が試されます。
現在の性能:進化著しいLLMも「推論」はまだまだ
では実際にどんな結果になったのでしょうか?研究チームの初期の評価では、以下のような結果が得られました。
– GPT-4oやClaude 3.7 Sonnetといった最新のLLM:勝率7%〜9%
– 推論に特化した学習済みモデル(例:O1やDeepSeek-R1など):勝率31%〜36%
このように最先端のAIでも、突然のルールや状況に対して柔軟に対応する力(一般的な推論能力)はまだ限定的であることがわかります。とりわけ、汎用AIの目標である「未知の環境で理解し行動する力」は、言語モデル単体だけでは十分に達成されていないという評価です。
技術的考察:言語からプログラムへ、そして行動へ
この研究の革新的な点は、「言語→コード→環境」という3段階の変換を行い、さらに逆に「環境→言語モデル→選択」というフィードバックループを作っている点にあります。これは、AI研究におけるモジュール間接続(modular connection)、すなわち異なるタイプのAI(言語モデル、強化学習エージェント)を統合した「複合的システム」の実践応用例とも言えます。
また、強化学習の文脈では通常、「ゲームのルールはあらかじめ固定されている」ことが多いのですが、ここでは「ルールは後から生成される」ため、RLエージェントの訓練にも想像力と汎用性が求められるという、非常に斬新な試みとなっています。
まとめ:汎用AIの能力を測る「動くベンチマーク」の時代へ
この研究は、固定化されたテストベンチマークでは測れなかったAIの本当の知性、すなわち未知のルール、未知の状況に対する飛躍的な理解力と適応力を試す「ダイナミックな知能テスト」を可能にした点で、AI研究の今後に大きな指針を与えるものでしょう。
研究者たちは、論文とともにゲーム環境やコード、データ生成プロセスをすべて公開することで、今後このベンチマークを他の研究やモデルと比較する際の基盤にしようという狙いもあります。
未来のAIが本当に“賢くなる”ためには、こうした未知を理解して対応する力、つまり「応用力のある推論力」が不可欠です。そしてgg-benchは、まさにそれを測る次世代スタンダードになる可能性を秘めています。