Uncategorized

AIの「思考」を誤解していないか──推論力の限界は問いの設計に宿る

AIの「思考力」をどう測る?──推論モデルの限界とその誤解

近年、ChatGPTのような大規模言語モデル(LLMs)の発展により、人工知能が人間のように「考える」力を持ち始めたかのように感じられることが多くなっています。しかし、AIが一見「思考している」ように見えても、それが本当に推論能力の高さを意味するのかどうかは、非常に慎重に検討する必要があります。

その中で注目すべき報告がありました。Shojaeeらの2025年の研究「The Illusion of Thinking」では、大規模推論モデル(Large Reasoning Models: LRMs)が、ある複雑さを超えた課題――例えば「ハノイの塔」や「川渡り問題」といったプランニング系パズル――に直面したときに「精度崩壊(accuracy collapse)」を起こすとされています。つまり、問題が難しくなるほどAIが急に全く解けなくなる、という主張です。

一見すると、これはAIがある種の限界に遭遇している証拠のようにも思えます。しかし、今回ご紹介する別の研究では、元論文の結論には早計な面があると丁寧に指摘しています。この論文(2024年6月公開)では、Shojaeeらの実験設計そのものに構造的な問題があり、AIの「限界」とされた部分は実は技術的な制約や評価方法の誤りに起因していると主張しています。

では、具体的にどのような問題点があったのでしょうか?

技術的問題1:トークン制限による「精度崩壊」

ハノイの塔に代表されるようなパズルでは、解答が長い手順(たとえば30ステップ以上の手順)となることがあります。大規模言語モデルには出力できるトークン(単語や記号)の数に限界があります(たとえば数千〜数万単語まで)。Shojaeeらの研究では、このトークン数の限界を超える問題でも、モデルに「すべての手順を挙げるように」と要求していました。

AIモデルはこの制限を明確に認識しており、「トークン制限のためこれ以上出力できません」と明記したにもかかわらず、これを「解答できなかった」と判定しています。これは、AIの思考能力そのものではなく、単に出力の物理的制限に過ぎません。

技術的問題2:自動評価手法の落とし穴

研究では、AIの出力を自動的に評価する仕組みが用いられていましたが、そこにも大きな落とし穴がありました。モデルが合理的な推論をしていても、途中で止まってしまうと「解答失敗」と判定される設計になっていたのです。

たとえば、「どんなアルゴリズムを使えばよいかを説明し、手順自体は省略する」という方法でも本来は問題は解けているはずですが、自動評価では「正解」になりません。こうした評価方法は、AIの「論理的能力」を測る上でバイアスを含んでしまうことになります。

技術的問題3:数学的に「解けない」問題を与えていた

さらに深刻なのは、川渡りパズルの一部の問題で、そもそも数学的に解けない構成が含まれていた点です。たとえば、6人乗らないと全員が渡れないにもかかわらず、ボートの定員が5人までしかない──つまり「物理的に不可能な問題」だったのです。

当然ながら、どんなに優秀なAIでも「不可能な問題」を解くことはできません。それでもAIの出力が「不正解」とされていたのは、極めて不公平な評価だったと言えるでしょう。

代替手法で見えた「本来の力」

そこで、今回の研究チームは、設問の出し方を見直しました。たとえば「一つ一つの移動手順を出力する」のではなく、「汎用的な解法(生成関数)を説明してください」という形式でAIに問い直したところ、これまで「全滅」とされていたハノイの塔の複雑な問題でもモデルは高い正答率を示したのです。

これは、AIにとって必要なのは「もっと考えること」ではなく、「問いの出し方を変えること」だったという、非常に示唆深い結果です。まさに「適切な入力なしに適切な出力は得られない(garbage in, garbage out)」という情報処理の鉄則を改めて証明するものと言えるでしょう。

技術者としての見解

AIの限界を正しく知ることは重要ですが、それには「どうやって測るか」という測定手法自体の厳密な検討が不可欠です。評価設計が不十分なままでは、AIが持つ潜在能力を過小評価してしまいかねません。たとえば、言語モデルには「アルゴリズムを構造的に理解する力」や「条件に基づいて最適な方策を選択する力」など、単なる文章生成を超えた能力が備わりつつあります。

今後のAI技術の発展においては、「何ができて、何が本当にできないのか」を正しく見極める科学的な態度がますます重要になるでしょう。

おわりに

AIが何を「考えられる」のかを問うことは、私たち自身が「思考とは何か」「知能とは何か」という深い問いに向き合うことでもあります。本当にAIに「知的な問題解決」ができるのか──その答えは、単なる正答率ではなく、「どういう設問で、どういう対話を通じて考えさせるか」によって見えてくるものかもしれません。

実験設計こそが知能を測る「鏡」である――それがこの研究から得られる最も大きな教訓です。

参考論文:
“Comment on The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity”
https://arxiv.org/abs/2506.09250