野村総研が社会へのインパクトと懸念を解説AIが人のデジタルツインを合成する「シンセティック・メディア」の可能性

野村総合研究所(NRI)が毎年、最新のIT動向と“旬の技術”を解説する「ITロードマップ」。その2021年版で取り上げた1つが「シンセティック・メディア」だ。人の姿・声をコピーしたデジタルツインを容易に制作できる技術である。2021年3月18日に開催されたNRIメディアフォーラムで、上席研究員の長谷佳明氏がその可能性と課題について解説した。

「AIによって、リアルな音声付き動画をAIによって作り出す動画合成技術」――。

シンセティック・メディアを一言で説明するとこうなる。人の顔・声のデータとテキストを用意するだけで、AIが“その人が本当に話しているような”動画を生成してくれるというものだ。


人の姿・声をコピーした「デジタルツイン」を容易に生成できる

長谷氏が例に挙げたのが、2019年に話題となった「フェイク・ザッカーバーグ」だ。Facebook 共同創業者兼会長兼CEOのマーク・ザッカーバーグ氏のフェイク動画であり、長谷氏によれば、わずか「24時間の学習でAIが作成したもの」という。

“フェイク”ではないが、2013年に米Digital Domeinが制作した「ヴァーチャル・テレサ・テン」は人間が手作業で制作したフルCG動画で、これには多数のクリエーターが約16億円の費用と5カ月の期間をかけた。わずか6年で技術は飛躍的に進歩したわけだ。


野村総合研究所 上席研究員の長谷佳明氏

このシンセティックメディアのキーとなる技術は、Neural Rendering(ニューラルレンダリング)である。AIがCGモデルを制御し、リアリティの高い画像を作り出す技術だ。非常に細かな制御を行うことで、写実性が高く、音声に合わせた口元を忠実に再現できる。新型コロナウイルス対策として教育や接客の場での動画活用ニーズが急拡大しており、「生産性の高い動画制作技術が求められている」ことからシンセティック・メディアへの注目が高まっていると長谷氏は指摘した。


英Synthesia社のシンセティック・メディア自動生成サービス

これを牽引するベンダーの1つが、英Synthesia社だ。任意のテキストを読み上げる人物動画を自動生成する技術を開発。商品説明などの接客用途を想定しており、「日本語を含む40カ国語をサポートしている」(長谷氏)。好みのキャラクターを選び、テキストを入力するだけでわずか数分で合成動画が生成される。

続きのページは、会員の方のみ閲覧していただけます。

RELATED ARTICLE関連記事

SPECIAL TOPICスペシャルトピック

スペシャルトピック一覧

NEW ARTICLES新着記事

記事一覧

FEATURE特集

WHITE PAPERホワイトペーパー

ホワイトペーパー一覧
×
無料会員登録

無料会員登録をすると、本サイトのすべての記事を閲覧いただけます。
また、最新記事やイベント・セミナーの情報など、ビジネスに役立つ情報を掲載したメールマガジンをお届けいたします。