SPECIAL TOPIC「万単位のGPUをつなぐ」AIネットワークはこう作る! ファーウェイ Xinghe AIの実力とは

2024.10.10

ページタイトルとURLがコピーされました

生成AIの開発環境が大規模化している。GPT-4の学習には約3万基のGPUが使用されていると言われ、AI基盤には、「万単位」のGPUを接続した超大規模クラスターを用意するのが当たり前になってきた。このAI基盤ネットワークをイーサネットで構築したいというニーズに世界中で応えているのがファーウェイだ。1万基GPU規模に対応可能な業界最高密度のスイッチを筆頭に、独自技術を駆使した製品でAI開発を後押しする。

日本ではまだ少ないが、AIの開発はGPUが1万基を超える大規模環境で行うのが普通になった。つまり、万レベルのGPUを「高スループット」「低遅延」「高信頼」につなぐAIネットワークが必要とされる時代になっている。

ファーウェイ・ジャパン ICTマーケティング&ソリューションセールス部ネットワークソリューションセールス部部長の張童軍氏は、AIデータセンター（AI-DC）のトレンドについてそう語る。

張童軍氏と陶氏

ファーウェイ・ジャパン
ICTマーケティング&ソリューションセールス部ネットワークソリューションセールス部部長の張童軍氏（右）と、
法人ビジネス事業本部ネットワークソリューション&セールス部シニアソリューションマネージャーの陶垚氏

同社は、イーサネットベースでこの大規模AIネットワークを実現する「Xinghe AI 大容量インテリジェントネットワーク（以下、Xinghe AI）」を提供している。中国国内はもちろん、世界の100以上のDCで商用利用されている。特に評価されているのが「コストパフォーマンスの高さ」、そして「大規模環境で威力を発揮する独自技術・機能」だ。

GPUが数百・数千基の環境から、前述のような「万レベル」まで対応できるラインナップを用意。コスパに優れるAIネットワーキングを実現し、様々な企業・事業者のAI開発を支えている。

AI-DCのネットワークは「イーサネットが主流に」

AIのトレーニングでは、多数のGPUをネットワークで接続したGPUクラスターで並列分散学習を行う。このGPU間ネットワークは、これまでInfiniBandが主流であった。異なるノードのメモリ間で直接データ転送を行うRDMA（Remote Direct Memory Access）をサポートし、並列分散学習の必須要件である「高スループット」「低遅延」「高信頼」を満たすための専用規格だ。

ただし、AI開発環境が大規模化するに伴い、InfiniBandの課題が目立ってきた。「InfiniBandは大規模ネットワークに適さない。より拡張性に優れたイーサネットなら、この課題を解決できる」と張氏。イーサネットでRDMAを実現するRoCE（RDMA over Converged Ethernet）でAIネットワークを構築するケースが増えてきている。

では、大規模環境に強いというファーウェイのXinghe AIは、InfiniBandや競合他社のイーサネット製品と比べてどこが優れているのか。張氏は「AIのコンピューティング能力は『計算効率』と『可用性・信頼性』の2つの要素で決まるが、それぞれにおいて優位性を発揮する独自機能を持っている」と話す。

次のページ　独自開発の「NSLB」でAIトレーニング効率が20%アップ