NTTは2024年4月10日に開催した記者説明会で、大規模言語モデル(LLM)による視覚読解技術を開発したと発表した。
視覚読解技術とは、テキストに加え、図表やグラフなどの視覚情報を理解し、それをもとに回答を出力する技術だ。Webページの画像やレシートなどの伝票から情報を抽出することも可能になる。
「人間のように視覚から情報を理解できることで、オフィスDXに資する重要技術になり得る」とNTT人間情報研究所 思考処理研究プロジェクト 研究員の田中涼太氏はアピールした。
NTT人間情報研究所 思考処理研究プロジェクト 研究員 田中涼太氏
具体的なユースケースの1つが、カスタマーサポートだ。例えば、顧客が契約プランの変更について問い合わせると、生成AIが顧客データベースを参照しながら、適切な回答を行う。「見積書を帳票に入力して」と指示すれば、生成AIが見積書を帳票に変換するといった「作業の自動化」も実現できるという。
また、「A薬の症例について教えて」と質問すると、生成AIが業界紙や論文などを参照しながら専門調査レポートを出力したり、「マニュアルとの違いがないかチェックしてほしい」と依頼すれば、生成AIがマニュアルを参照し、マニュアルとの差異を指摘するといったユースケースも想定しているという。
視覚読解技術のユースケース
従来のLLMは視覚的文書を理解することが困難だったが、NTTは視覚的に文書を理解できるLLMを実現するため、2つの技術を開発した。