AI研究者が読み解く「DeepSeek」の仕組みと真の価値

「DeepSeekショック」の真の意味とは何か。中国のAI企業、DeepSeekが低コストで高性能なLLMを実現した仕組みや、DeepSeekが示すことになったAIの新たなパラダイムとエコシステムの可能性について、気鋭のAI研究者シン アンドリュー氏に解説してもらった。(編集部)

2025年1月20日、中国のDeepSeek社がDeepSeek-R1という大規模言語モデル(Large Language Models、以下LLM)を公開した。DeepSeek-R1(以下R1)は、強化学習のみに基づいたR1-Zero、そして教師有り学習を部分的に用いてさらに性能を向上させたR1で構成され、またQwenやLlamaのような他社のLLMを、R1と同じ方法でファインチューニングした蒸留モデルも提供している。

既に数多くのLLMが公開されているなか、R1は公開と同時に全世界から注目を集めた。その反応は人工知能の研究者コミュニティに限られず、Nvidia社の株価が15%以上暴落し、さらにはトランプ米大統領までDeepSeekを言及するなど、国際的・経済的な領域まで広がった。それでは、様々なLLMの中でR1が特に著しく注目されたのはなぜだろうか。

低費用AIモデルがDeepSeek以外にも次々

R1は、その1カ月前に公開されたDeepSeek-V3モデルに基づいているが、V3は2048個のNvidia H800 GPUを用いて学習されている。H800とは、Nvidia社が米国の対中国輸出規制に従って制作している低価格GPUで、その性能はH100などの最先端GPUに比べて著しく低い。通常、LLMの学習には数千億円程度の費用がかかると思われてきたのだが、そういった低価格GPUを用いて2カ月もかからない期間で作ったV3の学習費用は約8億円程度で、今までの常識から見ると顕著に低い。

にもかかわらず、ベンチマークテストではLlama-3.1、GPT-4oなどのモデルを上回る性能を示し、またV3基盤のR1はOpenAI社のo1と対等な、かつ軽量モデルのo1-miniを大きく上回る性能を示している。

こうした低費用・高性能の結果は、今までその高い費用のため、ごく一部の大手企業に限られていると思われたLLMの開発が中小企業にも広げられる可能性を示唆している。また、輸出規制の中で大量の最先端GPUに依存せずに高い成果を上げられるとすれば、GPU市場で独占的な位置を固めていたNvidia社の地位にも影響を与える可能性がある。

実際、低費用AIモデルの学習はR1に限られた話ではなく、今年に入ってから最も活発な動きと発展を見せている分野である。R1が公開された1月にスタンフォード大学とワシントン大学が公開したモデルs1は、約50ドルという費用で実現されたと言われているが、OpenAIのo1やDeepSeekのR1に匹敵する性能を示している。UCバークレー大学が公開したSky-T1-32Bモデルもその開発費用は約450ドルで、またR1を約30ドルの費用で部分的に再現したモデルも公開されている。

続きのページは、会員の方のみ閲覧していただけます。

シン アンドリュー

東京大学大学院情報理工学知能機械情報学専攻博士課程修了。ソニーR&Dセンターを経て、2022年11月より慶應義塾大学デジタルメディアコンテンツ統合研究センター特任助教。著書に「ChatGPT 大規模言語モデルの進化と応用」(リックテレコム)、「深層学習による自動作曲入門」(オーム社)がある

RELATED ARTICLE関連記事

SPECIAL TOPICスペシャルトピック

スペシャルトピック一覧

NEW ARTICLES新着記事

記事一覧

FEATURE特集

WHITE PAPERホワイトペーパー

ホワイトペーパー一覧
×
無料会員登録

無料会員登録をすると、本サイトのすべての記事を閲覧いただけます。
また、最新記事やイベント・セミナーの情報など、ビジネスに役立つ情報を掲載したメールマガジンをお届けいたします。