日本ではまだ少ないが、AIの開発はGPUが1万基を超える大規模環境で行うのが普通になった。つまり、万レベルのGPUを「高スループット」「低遅延」「高信頼」につなぐAIネットワークが必要とされる時代になっている。
ファーウェイ・ジャパン ICTマーケティング&ソリューションセールス部 ネットワークソリューションセールス部 部長の張童軍氏は、AIデータセンター(AI-DC)のトレンドについてそう語る。
同社は、イーサネットベースでこの大規模AIネットワークを実現する「Xinghe AI 大容量インテリジェントネットワーク(以下、Xinghe AI)」を提供している。中国国内はもちろん、世界の100以上のDCで商用利用されている。特に評価されているのが「コストパフォーマンスの高さ」、そして「大規模環境で威力を発揮する独自技術・機能」だ。
GPUが数百・数千基の環境から、前述のような「万レベル」まで対応できるラインナップを用意。コスパに優れるAIネットワーキングを実現し、様々な企業・事業者のAI開発を支えている。
AIのトレーニングでは、多数のGPUをネットワークで接続したGPUクラスターで並列分散学習を行う。このGPU間ネットワークは、これまでInfiniBandが主流であった。異なるノードのメモリ間で直接データ転送を行うRDMA(Remote Direct Memory Access)をサポートし、並列分散学習の必須要件である「高スループット」「低遅延」「高信頼」を満たすための専用規格だ。
ただし、AI開発環境が大規模化するに伴い、InfiniBandの課題が目立ってきた。「InfiniBandは大規模ネットワークに適さない。より拡張性に優れたイーサネットなら、この課題を解決できる」と張氏。イーサネットでRDMAを実現するRoCE(RDMA over Converged Ethernet)でAIネットワークを構築するケースが増えてきている。
では、大規模環境に強いというファーウェイのXinghe AIは、InfiniBandや競合他社のイーサネット製品と比べてどこが優れているのか。張氏は「AIのコンピューティング能力は『計算効率』と『可用性・信頼性』の2つの要素で決まるが、それぞれにおいて優位性を発揮する独自機能を持っている」と話す。