NTTは2026年6月1日、大規模視覚言語モデル(LVLM)の推論根拠を可視化・説明する新手法「根拠強化デコーディング」を開発したと発表した。
LVLMとは、画像や動画などの視覚情報とテキストを同時に理解できるAIモデルのことを指す。テキストだけでは欠落している文脈を視覚情報が埋めることで、回答生成や判断の精度が向上すると期待されている。
コンピュータサイエンス研究所 革新的コンピューティングアーキテクチャ研究プロジェクト 准特別研究員の山口真弥氏によると、LVLMでは大規模言語モデル(LLM)同様、思考根拠(中間出力)を出力することで推論性能を高めている。つまり、視覚情報・テキスト・思考根拠を参照して最終的な回答を導き出すのだ。
例えば、A地域の物件価格推移に関するスライドと「A地域の物件価格の直近のトレンドは?」というテキストを入力すると、「コロナ禍と駅前再開発の中止を背景に、2020年以降物件価格が3割程度下落傾向にある」との思考根拠を出力し、最終的に「下落傾向」と回答する。

ただ、NTTの研究により、現在のLVLM は「思考根拠に忠実に最終出力を生成している」とまでは言い切れないことが明らかになった。「画像・思考根拠・テキストを同時に入力した場合、LVLMは画像情報を重視する傾向があり、思考根拠を推論に活用するかはモデルに依存する」(山口氏)。また、思考根拠を別の内容に差し替えても、生成結果が変わらないケースも少なくなかったという。

そこでNTTが提案した手法が、「根拠強化デコーディング」である。推論時に画像と思考根拠の入力を分離し、それぞれから情報を抽出したうえで、出力直前で統合する手法だ。これにより、「画像と思考根拠の両方に基づいた出力が得られるようになる」と山口氏は説明した。
