NTTがLLMによる視覚読解技術を開発 カスタマーサポートなどのオフィスDXに貢献

NTTが大規模言語モデル(LLM)による視覚読解技術を開発した。カスタマーサポートや作業の自動化、専門調査レポートの作成など、「オフィスDXに資する重要な技術となり得る」可能性を秘めている。

NTTは2024年4月10日に開催した記者説明会で、大規模言語モデル(LLM)による視覚読解技術を開発したと発表した。

視覚読解技術とは、テキストに加え、図表やグラフなどの視覚情報を理解し、それをもとに回答を出力する技術だ。Webページの画像やレシートなどの伝票から情報を抽出することも可能になる。

「人間のように視覚から情報を理解できることで、オフィスDXに資する重要技術になり得る」とNTT人間情報研究所 思考処理研究プロジェクト 研究員の田中涼太氏はアピールした。

NTT人間情報研究所 思考処理研究プロジェクト 研究員の田中涼太氏

NTT人間情報研究所 思考処理研究プロジェクト 研究員 田中涼太氏

具体的なユースケースの1つが、カスタマーサポートだ。例えば、顧客が契約プランの変更について問い合わせると、生成AIが顧客データベースを参照しながら、適切な回答を行う。「見積書を帳票に入力して」と指示すれば、生成AIが見積書を帳票に変換するといった「作業の自動化」も実現できるという。

また、「A薬の症例について教えて」と質問すると、生成AIが業界紙や論文などを参照しながら専門調査レポートを出力したり、「マニュアルとの違いがないかチェックしてほしい」と依頼すれば、生成AIがマニュアルを参照し、マニュアルとの差異を指摘するといったユースケースも想定しているという。

視覚読解技術のユースケース

視覚読解技術のユースケース

従来のLLMは視覚的文書を理解することが困難だったが、NTTは視覚的に文書を理解できるLLMを実現するため、2つの技術を開発した。

続きのページは、会員の方のみ閲覧していただけます。

RELATED ARTICLE関連記事

SPECIAL TOPICスペシャルトピック

スペシャルトピック一覧

NEW ARTICLES新着記事

記事一覧

FEATURE特集

WHITE PAPERホワイトペーパー

ホワイトペーパー一覧
×
無料会員登録

無料会員登録をすると、本サイトのすべての記事を閲覧いただけます。
また、最新記事やイベント・セミナーの情報など、ビジネスに役立つ情報を掲載したメールマガジンをお届けいたします。