SPECIAL TOPICAI/ML基盤をロスレスイーサで構築 最重要の3要件を評価・試験するには

AI/ML基盤のGPU間通信をロスレスイーサネットで構築する動きが広がってきた。そこで活躍するのが、東陽テクニカが6月に販売開始した米Spirent製AI/MLネットワーク性能試験ソリューションだ。試験・評価を通じて「ロスレス・高信頼」「低遅延」「広帯域」の3要件を実現。検証作業の効率化や、GPUの運用効率向上などを実現する。

「AI社会とインターネット」をテーマに開催されたネットワーク技術イベントInterop Tokyo 2024で、特に注目された新製品に与えられるBest of Show Awardのテスティング部門において、東陽テクニカと米Spirent(スパイレント) Communicationsがエントリーした製品がグランプリを受賞した。Spirent製のネットワークパフォーマンステスター「Spirent TestCenter 400G AI/MLネットワークインフラ・テストソリューション」(以下、TestCenter 400G AI/ML)だ。

TestCenter 400G AI/MLは、多数のGPUサーバーの間をつなぐためのインターコネクトである「AI/ML(機械学習)ネットワーク」の性能試験、評価を行うためのソリューションだ。AI/MLネットワークの基礎となるロスレスイーサネットの構築・運用を支援する。

Spirent TestCenter 400G AI/ML ネットワークインフラ・テストソリューションのハードウェアプラットフォーム

Spirent TestCenter 400G AI/ML ネットワークインフラ・テストソリューションのハードウェアプラットフォーム

ロスレスイーサネットがAI/ML網で使われる理由

AIの学習フェーズで必要となる膨大なデータ処理に対応するため、AIデータセンターでは、場合によっては数千台ものGPUサーバーをネットワークで接続した「GPUクラスター」を構築し、並列分散学習を行う手法がとられている。

このAI/MLネットワークには、①ロスレス(パケットロスが発生しない)、高信頼、②低遅延、③広帯域といった要件が求められる。これまでデータセンターで利用されてきたイーサネットではこれらの要件を満たすのは困難だ。

GPUクラスターによる並列分散学習は、最も遅いGPUに全体の処理が合わせられるため、わずか1%のパケットロスが発生しただけで効率が3割劣化するとも言われている。もちろん、遅延も大敵だ。これが、一般的なイーサネットでは対応できない理由である。

こうした問題を解決するために欠かせない技術の1つがRDMA(Remote Direct Memory Access)、複数ノードのメモリ間でネットワーク越しに直接データを転送するものだ。これを活用するために、これまでAI/ML基盤では専用通信規格であるInfiniBandが用いられてきた。

他方、イーサネットでRDMAを利用できるようにするRoCEv2(RDMA over Converged Ethernet v2)やフロー制御・輻輳通知等の技術を駆使することで、イーサネットでも低遅延かつ高信頼なロスレスネットワークを構築できるようになってきた。

このロスレスイーサネットの導入が広がり始めた理由の1つは、ネットワークエンジニアに馴染みのあるイーサネットのスキルが活かせることだ。加えて、InfiniBnadは一部メーカーの独占状態となっているのに対し、イーサネットには多くのプレイヤーが参入しており、技術革新や機器の低廉化が期待できる。また、AI/ML網でロスレスイーサネットを実現する場合には大容量通信は必要不可欠である。

東陽テクニカ 情報通信システムソリューション部 主任の新井悠平氏は「InfiniBandとともにAI/MLネットワーク構築の選択肢となったロスレスイーサネットは高い成長が見込まれています。日本においても、採用する事業者が出てきています」と語る。

続きのページは、会員の方のみ閲覧していただけます。

RELATED ARTICLE関連記事

SPECIAL TOPICスペシャルトピック

スペシャルトピック一覧

NEW ARTICLES新着記事

記事一覧

FEATURE特集

WHITE PAPERホワイトペーパー

ホワイトペーパー一覧
×
無料会員登録

無料会員登録をすると、本サイトのすべての記事を閲覧いただけます。
また、最新記事やイベント・セミナーの情報など、ビジネスに役立つ情報を掲載したメールマガジンをお届けいたします。