「AI社会とインターネット」をテーマに開催されたネットワーク技術イベントInterop Tokyo 2024で、特に注目された新製品に与えられるBest of Show Awardのテスティング部門において、東陽テクニカと米Spirent(スパイレント) Communicationsがエントリーした製品がグランプリを受賞した。Spirent製のネットワークパフォーマンステスター「Spirent TestCenter 400G AI/MLネットワークインフラ・テストソリューション」(以下、TestCenter 400G AI/ML)だ。
TestCenter 400G AI/MLは、多数のGPUサーバーの間をつなぐためのインターコネクトである「AI/ML(機械学習)ネットワーク」の性能試験、評価を行うためのソリューションだ。AI/MLネットワークの基礎となるロスレスイーサネットの構築・運用を支援する。
Spirent TestCenter 400G AI/ML ネットワークインフラ・テストソリューションのハードウェアプラットフォーム
ロスレスイーサネットがAI/ML網で使われる理由
AIの学習フェーズで必要となる膨大なデータ処理に対応するため、AIデータセンターでは、場合によっては数千台ものGPUサーバーをネットワークで接続した「GPUクラスター」を構築し、並列分散学習を行う手法がとられている。
このAI/MLネットワークには、①ロスレス(パケットロスが発生しない)、高信頼、②低遅延、③広帯域といった要件が求められる。これまでデータセンターで利用されてきたイーサネットではこれらの要件を満たすのは困難だ。
GPUクラスターによる並列分散学習は、最も遅いGPUに全体の処理が合わせられるため、わずか1%のパケットロスが発生しただけで効率が3割劣化するとも言われている。もちろん、遅延も大敵だ。これが、一般的なイーサネットでは対応できない理由である。
こうした問題を解決するために欠かせない技術の1つがRDMA(Remote Direct Memory Access)、複数ノードのメモリ間でネットワーク越しに直接データを転送するものだ。これを活用するために、これまでAI/ML基盤では専用通信規格であるInfiniBandが用いられてきた。
他方、イーサネットでRDMAを利用できるようにするRoCEv2(RDMA over Converged Ethernet v2)やフロー制御・輻輳通知等の技術を駆使することで、イーサネットでも低遅延かつ高信頼なロスレスネットワークを構築できるようになってきた。
このロスレスイーサネットの導入が広がり始めた理由の1つは、ネットワークエンジニアに馴染みのあるイーサネットのスキルが活かせることだ。加えて、InfiniBnadは一部メーカーの独占状態となっているのに対し、イーサネットには多くのプレイヤーが参入しており、技術革新や機器の低廉化が期待できる。また、AI/ML網でロスレスイーサネットを実現する場合には大容量通信は必要不可欠である。
東陽テクニカ 情報通信システムソリューション部 主任の新井悠平氏は「InfiniBandとともにAI/MLネットワーク構築の選択肢となったロスレスイーサネットは高い成長が見込まれています。日本においても、採用する事業者が出てきています」と語る。