SPECIAL TOPIC「万単位のGPUをつなぐ」AIネットワークはこう作る! ファーウェイ Xinghe AIの実力とは

生成AIの開発環境が大規模化している。GPT-4の学習には約3万基のGPUが使用されていると言われ、AI基盤には、「万単位」のGPUを接続した超大規模クラスターを用意するのが当たり前になってきた。このAI基盤ネットワークをイーサネットで構築したいというニーズに世界中で応えているのがファーウェイだ。1万基GPU規模に対応可能な業界最高密度のスイッチを筆頭に、独自技術を駆使した製品でAI開発を後押しする。

日本ではまだ少ないが、AIの開発はGPUが1万基を超える大規模環境で行うのが普通になった。つまり、万レベルのGPUを「高スループット」「低遅延」「高信頼」につなぐAIネットワークが必要とされる時代になっている。

ファーウェイ・ジャパン ICTマーケティング&ソリューションセールス部 ネットワークソリューションセールス部 部長の張童軍氏は、AIデータセンター(AI-DC)のトレンドについてそう語る。

張童軍氏と陶氏

ファーウェイ・ジャパン
ICTマーケティング&ソリューションセールス部 ネットワークソリューションセールス部 部長の張童軍氏(右)と、
法人ビジネス事業本部 ネットワークソリューション&セールス部 シニア ソリューションマネージャーの陶垚氏

同社は、イーサネットベースでこの大規模AIネットワークを実現する「Xinghe AI 大容量インテリジェントネットワーク(以下、Xinghe AI)」を提供している。中国国内はもちろん、世界の100以上のDCで商用利用されている。特に評価されているのが「コストパフォーマンスの高さ」、そして「大規模環境で威力を発揮する独自技術・機能」だ。

GPUが数百・数千基の環境から、前述のような「万レベル」まで対応できるラインナップを用意。コスパに優れるAIネットワーキングを実現し、様々な企業・事業者のAI開発を支えている。

AI-DCのネットワークは「イーサネットが主流に」

AIのトレーニングでは、多数のGPUをネットワークで接続したGPUクラスターで並列分散学習を行う。このGPU間ネットワークは、これまでInfiniBandが主流であった。異なるノードのメモリ間で直接データ転送を行うRDMA(Remote Direct Memory Access)をサポートし、並列分散学習の必須要件である「高スループット」「低遅延」「高信頼」を満たすための専用規格だ。

ただし、AI開発環境が大規模化するに伴い、InfiniBandの課題が目立ってきた。「InfiniBandは大規模ネットワークに適さない。より拡張性に優れたイーサネットなら、この課題を解決できる」と張氏。イーサネットでRDMAを実現するRoCE(RDMA over Converged Ethernet)でAIネットワークを構築するケースが増えてきている。

では、大規模環境に強いというファーウェイのXinghe AIは、InfiniBandや競合他社のイーサネット製品と比べてどこが優れているのか。張氏は「AIのコンピューティング能力は『計算効率』と『可用性・信頼性』の2つの要素で決まるが、それぞれにおいて優位性を発揮する独自機能を持っている」と話す。

RELATED ARTICLE関連記事

SPECIAL TOPICスペシャルトピック

スペシャルトピック一覧

NEW ARTICLES新着記事

記事一覧

FEATURE特集

WHITE PAPERホワイトペーパー

ホワイトペーパー一覧
×
無料会員登録

無料会員登録をすると、本サイトのすべての記事を閲覧いただけます。
また、最新記事やイベント・セミナーの情報など、ビジネスに役立つ情報を掲載したメールマガジンをお届けいたします。