SPECIAL TOPICGPU間通信とロスレスイーサネット、最重要の3要件とは？

2024.09.24

ページタイトルとURLがコピーされました

AI/ML基盤のGPU間通信をロスレスイーサネットで構築する動きが広がってきた。そこで活躍するのが、東陽テクニカが6月に販売開始した米Spirent製AI/MLネットワーク性能試験ソリューションだ。試験・評価を通じて「ロスレス・高信頼」「低遅延」「広帯域」の3要件を実現。検証作業の効率化や、GPUの運用効率向上などを実現する。

「AI社会とインターネット」をテーマに開催されたネットワーク技術イベントInterop Tokyo 2024で、特に注目された新製品に与えられるBest of Show Awardのテスティング部門において、東陽テクニカと米Spirent（スパイレント） Communicationsがエントリーした製品がグランプリを受賞した。Spirent製のネットワークパフォーマンステスター「Spirent TestCenter 400G AI/MLネットワークインフラ・テストソリューション」（以下、TestCenter 400G AI/ML）だ。

TestCenter 400G AI/MLは、多数のGPUサーバーの間をつなぐためのインターコネクトである「AI/ML（機械学習）ネットワーク」の性能試験、評価を行うためのソリューションだ。AI/MLネットワークの基礎となるロスレスイーサネットの構築・運用を支援する。

Spirent TestCenter 400G AI/ML ネットワークインフラ・テストソリューションのハードウェアプラットフォーム

ロスレスイーサネットがAI/ML網で使われる理由

AIの学習フェーズで必要となる膨大なデータ処理に対応するため、AIデータセンターでは、場合によっては数千台ものGPUサーバーをネットワークで接続した「GPUクラスター」を構築し、並列分散学習を行う手法がとられている。

このAI/MLネットワークには、①ロスレス（パケットロスが発生しない）、高信頼、②低遅延、③広帯域といった要件が求められる。これまでデータセンターで利用されてきたイーサネットではこれらの要件を満たすのは困難だ。

GPUクラスターによる並列分散学習は、最も遅いGPUに全体の処理が合わせられるため、わずか1%のパケットロスが発生しただけで効率が3割劣化するとも言われている。もちろん、遅延も大敵だ。これが、一般的なイーサネットでは対応できない理由である。

こうした問題を解決するために欠かせない技術の1つがRDMA（Remote Direct Memory Access）、複数ノードのメモリ間でネットワーク越しに直接データを転送するものだ。これを活用するために、これまでAI/ML基盤では専用通信規格であるInfiniBandが用いられてきた。

他方、イーサネットでRDMAを利用できるようにするRoCEv2（RDMA over Converged Ethernet v2）やフロー制御・輻輳通知等の技術を駆使することで、イーサネットでも低遅延かつ高信頼なロスレスネットワークを構築できるようになってきた。

このロスレスイーサネットの導入が広がり始めた理由の1つは、ネットワークエンジニアに馴染みのあるイーサネットのスキルが活かせることだ。加えて、InfiniBnadは一部メーカーの独占状態となっているのに対し、イーサネットには多くのプレイヤーが参入しており、技術革新や機器の低廉化が期待できる。また、AI/ML網でロスレスイーサネットを実現する場合には大容量通信は必要不可欠である。

東陽テクニカ情報通信システムソリューション部主任の新井悠平氏は「InfiniBandとともにAI/MLネットワーク構築の選択肢となったロスレスイーサネットは高い成長が見込まれています。日本においても、採用する事業者が出てきています」と語る。

次のページ　GPUワークロードをリアルに再現　CCLモデルのエミュレートも

続きのページは、会員の方のみ閲覧していただけます。

無料会員登録ログインする