映像に“思考”で音を付ける──ThinkSoundが切り開くマルチモーダル音声生成の革新
映像に臨場感のある音を加える技術は、映画やゲーム、バーチャルリアリティなど様々な領域で重要な役割を果たしています。しかし、単に映像を解析して音を自動生成するだけでは、プロの音響クリエイターが行うような繊細な音の演出や、物語の流れと調和した音づくりは難しいという課題がありました。そこで登場したのが、MITやGoogle Researchを中心とする研究者たちによる新たな枠組み「ThinkSound」です。
ThinkSoundが目指すのは、“考えるように音を作るAI”です。
音と映像をつなげるための「推論」を取り入れる発想
従来の映像→音声の生成技術は、映像の動きや物体を認識して、それに対応する音を付けるという「直接的な」手法が主流でした。しかし、映像が伝える情報は必ずしも単純ではありません。たとえばキャラクターが階段を駆け下りるシーンでは、単に「足音」を鳴らせば良いわけではなく、「勢い」「周囲の反響音」「背景音楽」と複雑に絡み合っています。
ThinkSoundはこうした複雑な音世界の表現において、「Chain-of-Thought(思考の連鎖)」と呼ばれる手法を取り込むことで、ステップ・バイ・ステップで音を考えながら生成するというアプローチに挑戦しています。つまり、人間が頭の中で「この状況ならこんな音が鳴るはずだ」と考えながら音を作るように、AIに段階的な推論をさせることで、より自然で説得力のある音声合成を実現しています。
ThinkSoundの3段階プロセス
ThinkSoundのシステムは、以下のように3つの段階に分かれています:
1. 基礎的なフォーリー生成(Foundational Foley Generation)
最初のステップでは、映像全体の文脈に基づいてセマンティック(意味的)に一致した音のベースを生成します。例えば雨が降り始めたら「ポツポツ、小さな雨粒の音」を、雷が光ったら「遠くの雷鳴」といったように、自然に発生する環境音や動作音を作ります。
2. 対話的なオブジェクト中心の調整(Interactive Object-Centric Refinement)
ユーザーが特定の物体や場面に注目して、「このシーンのドアの音をもっと重くして」などの具体的なカスタマイズを自然言語で指示できます。AIはその指示を読み取り、必要な音を部分的に上書きしてユーザーと一緒に作品を仕上げていきます。
3. 自然言語によるターゲット編集(Targeted Editing via Natural Language)
さらに高度なケースでは、「もっと緊張感のある雰囲気にして」などの抽象的な自然言語指示に対しても、前述の“思考連鎖”を活用して、どのような環境音・効果音・音量調整が必要かを段階的に推論して音を生成・編集します。
ここで活躍するのが、大規模言語モデル(LLM:Large Language Model)に映像情報を統合したマルチモーダルシステムです。映像(ビジュアル)、テキスト(ユーザー指示)そして音(出力)の3つが連携し、それぞれの文脈や意味合いを踏まえて最適な音を導き出します。
AudioCoT:AIに音の“論理”を教えるための新データセット
ThinkSoundの開発にあたっては、AIが人間のように論理的に音を考えられるように、「AudioCoT」という新しい学習用データセットが作成されました。これは、映像、状況の説明文、そしてそれに対してどのような音をつけるべきかというステップ・バイ・ステップの推論過程を含むアノテーション付きのデータ群です。このデータによってAIは「なぜその音が必要なのか」「どのように文脈に合わせるべきか」を学ぶことができます。
技術的観点からの注目ポイント
ThinkSoundの技術的な革新は、以下のいくつかの観点から特筆すべき点があります。
– 推論付き音声生成の実現:Chain-of-Thought(CoT)を取り入れた初のマルチモーダル音声編集システム。従来の一括生成型と異なり、段階的思考により柔軟で拡張性のある音声生成を実現。
– 入力としての自然言語活用:ユーザーからの曖昧な自然な言語を真意に基づいて処理できるため、専門家ではない一般ユーザーにも使いやすい。
– 汎用性の高い応用範囲:映画、アニメ、ゲーム制作のみならず、教育・医療・ナビゲーション支援など視覚〜音声連携が重要な多くの場面で応用が期待されます。
おわりに──“聴くAI”から“考えて音を創るAI”へ
ThinkSoundは、ただ音を鳴らすだけのAIではなく、文脈から状況を読み取り、段階的に音の意味を構築しながら生成・編集できる革新的なフレームワークです。これは単なる技術の進歩に留まらず、映像表現の新たな地平を拓く鍵となる可能性を持っています。
今後、このような“思考するAI”が一般のコンテンツ制作に普及すれば、プロ・アマ問わず、誰もが映画のような“音の演出”を自分の手で実現できる時代が近づくかもしれません。
デモページでは実際にThinkSoundによる音声生成の例も公開されており、さらなる技術の進化に期待が集まっています。
詳しくは以下のページをご覧ください: https://ThinkSound-Project.github.io