パナソニックホールディングスは2023年12月25日、従来のAIが苦手としていた画像認識の問題を克服する新たな技術を開発したと発表した。この技術は、同一カテゴリ内で見た目が多様になる場合でも、精度の高い画像認識が可能なAI技術という。
画像認識AIは、画像中の物体の特徴を捉えてカテゴリを分類し、物体の認識を実現する。しかし、同じカテゴリに属しながら見た目が大きく異なる例も多く、対象の物体に共通する「本質的な特徴」を捉えることが課題となっていた。例えば、「電車」「犬」など同じカテゴリに属しても、車種や犬種などのサブカテゴリ間で見た目が大きく異なる例も少なくない。さらに、向き・天候・光の当たり具合・背景など撮影条件の違いにより見た目が異なることも多い。
この課題に対し、パナソニックHDは、画像の多様性を捉える新たな分類アルゴリズムを開発。これにより、AIが苦手とする「多峰性分布」のデータに対しても高精度に画像分類が可能となる。
この場合の多峰性分布とは、同一カテゴリ内に「見えの傾向が連続的に異なる、より細かいカテゴリ」が複数存在する分布のこと。
新たに開発されたアルゴリズムは、物体の多様な見え方に関する情報を活用し、同じ物体であっても見た目が大きく異なる多峰性分布を有する画像の認識能力を上げるものだという。具体的には、特徴の分布を連続的に捉えるため、従来1次元のベクトルのみが通常用いられてきた分類モデルの重みベクトルを、2次元の正規直交行列に拡張。これにより、重み行列の各要素が背景の色や、物体の向きなどの画像のバリエーションを表現できるようにしたとしている。
実証実験では、多様な見た目がある鳥の画像から、鳥として分類する特徴を捉えることができたという。そして、バスと路面電車など、見た目が近く分類が難しいケースでも、同一カテゴリに属する画像を見つけ出すことに成功したということだ。
同手法での画像分類結果を示す図。画像左、中央の緑色の「鳥」カテゴリに対し、画像右ではそれぞれ異なる特徴を持った画像が分類されている
従来手法(左)と同手法(右)の比較。1行目はバス、2行目は電車、3行目は路面電車の画像を探すというタスクにおいて、従来手法は見た目は近いが別の乗り物の画像を見つけてきたのに対し、同手法は見た目のバリエーションは豊かな同じ乗り物の画像を見つけ出した
このアルゴリズムはシンプルで軽量であり、ごくわずかなメモリ増加で認識精度と説明性の向上が期待できるという。パナソニックHDは、同技術がモビリティ、製造、ロボティクスなど、多様な見え方をする現場での高度な画像理解が求められる場面への貢献が期待されるとしている。
なお同技術は、パナソニックグループのトップ人材育成プログラム「REAL-AI」の研究成果として、2024年1月4日から8日まで米国・ハワイで開催されるコンピュータビジョン分野のトップカンファレンス「IEEE/CVF Winter Conference on Applications of Computer Vision(WACV 2024)」で発表される。