国立研究開発法人情報通信研究機構(NICT)とKDDIは2024年7月1日、大規模言語モデル(LLM)に関する共同研究を開始すると発表した。
KDDIグループは、生成AI開発のための大規模計算基盤の整備を開始するとともに、オープンモデル活用型の日本語汎用LLMおよび領域特化型LLMの開発体制を整えてきた。またNICTは、これまでに蓄積してきた600億件以上のWebページのデータを活用し、LLMの事前学習に用いるデータの整備を進めている。並行して、軽量な130億パラメータのLLMから日本語特化型では世界最大規模となる3110億パラメータのLLMまで、1年あまりで合計17個のLLMの事前学習を完了させた。
本研究では、NICTがこれまでに蓄積してきた600億件以上のWebページのデータなどと、KDDI総合研究所が開発してきた、生成AIが事実と異なる内容などを生成するハルシネーションを抑制する技術やマルチモーダルAI技術を活用。これらを基に、LLMを活用するうえで課題となるハルシネーションの抑制や、地図画像および付随する建物情報などのマルチモーダルデータの取り扱いを可能にする技術を研究開発する。
研究の概要
これらの技術により、特定の目的のための対話システムや雑談システムにおけるLLMの信頼性向上につながる。また、LLMによる位置関係の把握などが可能となるため、例えば通信事業者の顧客応対に適用することで、問題が発生している設備やエリアの迅速な把握が可能となり、通信品質の改善につながることが期待されるという。