2022年が“ChatGPT公開”の年なら、2023年は、そのOpen AIを追いかける者たちの話題で持ち切りの年だった。北米のビッグテックはもとより、国内の動きも活発だ。
NTTやソフトバンク、富士通、理研らが次々と、生成AIの基盤となる大規模言語モデル(LLM)の開発を表明。サイバーエージェントは5月、NECは7月に自社開発したLLMの公開、提供を開始した。その後も東京大学松尾研究室(松尾豊教授)やPreferred NetworksがLLMを公開。2024年3月には、NTTが「tsuzumi」のデビューを予定している。
「計算のためのネットワーク」
第三次AIブームの行方にはまだ不透明な部分も多いが、生成AIと機械学習(ML)技術への投資が、企業競争力を大きく左右する時代に突入したことは間違いない。
これは、AI/MLの開発・実行基盤となるデータセンター(DC)にも多大な影響を及ぼす。従来型のアプリケーションやクラウドサービスのワークロードと、AI/ML基盤のそれは著しく異なるためだ。生成AI時代に向けて、アーキテクチャの刷新が起こる。
というと、誰もがGPUの大量導入を思い浮かべるだろう。確かに、AI処理を得意とするGPUサーバーはAI/ML基盤のコアコンポーネントだ。
だが、抜本的な変革が必要なのはネットワークも同様だ。「AI/ML向けのネットワーク」は、従来のDCネットワークとは根本的に異なる。エヌビディア エンタープライズ マーケティング マーケティングマネージャーの愛甲浩史氏は「計算するためのネットワーク」へ役割が変わると指摘する。
一般的なクラウドサービスは、図表1の左側のように、各ノードで計算処理した結果を受け渡すのにネットワークを使っている。どれほど広帯域化しようと、1つひとつのノード内で完結した処理を隣のノードやクライアントとの間でやり取りするという使い方は、これまで変わらなかった。
図表1 AI/機械学習(ML)のためのネットワーク
対して、AI/ML基盤では、1ノードではまかないきれないほど大量のデータを扱うため、1つの処理を複数ノードに分散し、常に同期を取りつつ並列処理を行う(図表1右側)。「複数ノードで計算して、常に何かをやり取りする」(同氏)大規模な分散/並列コンピューティング基盤の中で、ネットワークはこれまでと異なる役割を担う。エヌビディア ネットワーキングプロダクトマーケティング ディレクターの岩谷正樹氏は「ネットワークは計算をするための1つのリソースである、という考え方へシフトする」と話す。