生成AIを支える「ロスレスイーサ」入門 データセンターネットワークの新常識

生成AI基盤のネットワークでは、パケットロスが起きないことが必須要件となる。使い慣れたイーサネットでこれを実現するには、どんな技術・機能を駆使すればいいのか。ロスレスイーサネットの構築法を解説しよう。

学習速度は「ビリに合わせる」

難しいのが残る2つ、低遅延とロスレスだ。

並列分散学習では、複数のGPUが一気に大量のデータを出し、それを同期させ、また学習を続けるという動作を繰り返す。通信している間、GPUは“待ち”状態だ。このアイドル時間を極小化できるかが、GPUクラスター全体のパフォーマンスを向上させるための肝となる。

ここでの大敵が、遅延とパケットロスだ。

GPUクラスターで行われる処理は、最も処理が遅い1台に全体のパフォーマンスが引きずられる。ネットワーク試験・評価ソリューションを提供する丸文 アントレプレナ事業本部 イーリスカンパニー 測位タイミング課 主任の尾形ケネス氏によれば、「最後に到着するパケットが全体のパフォーマンスを決定する」。

輻輳が起き、1つでもパケットロスが発生すれば処理は停止。再送の間、すべてのGPUがアイドル状態となるため「ジョブ完了時間が悪化する」。最悪の場合、処理は輻輳前に巻き戻され、やり直しだ。

そこで、GPU間で低遅延・高速通信を実現するために使われるのがRDMA(Remote Direct Memory Access)である。CPU/システムメモリを経由せずに、GPUメモリ間で直接データを転送する技術だ(図表2)。OSをバイパスするため遅延が小さくなり、かつ、CPUにネットワーク処理負荷をかけないので、CPUを他のワークロードに専念させられる利点もある。

図表2 GPUメモリ間のデータ転送(従来型とGPU Direct RDMA)

図表2 GPUメモリ間のデータ転送(従来型とGPU Direct RDMA)

専用規格からイーサネットへ

スーパーコンピューターやHPC(ハイパフォーマンス・コンピューティング)の分野ではかねてから、並列分散処理にRDMAを用いるための専用規格であるInfiniBandが使われてきた。InfiniBandでは、送信先のバッファーの状態を確認したうえで送信するクレジット型の通信によってロスレスを実現している。さらに、輻輳回避・制御のためのアダプティブルーティング機能も実装している。

だが、一般的なDCでもGPU間通信の専用ネットワークが必要になったことで、汎用的なイーサネットでこれを構築したいというニーズが高まってきた。ネットワーク試験・評価ソリューションを提供する東陽テクニカ 情報通信システムソリューション部 主任の新井悠平氏は、「設計・構築、運用する方もすべてがイーサネットに馴染みが深く、既存のナレッジも活かせることから、ロスレスイーサネットが主流になってきている」と話す。

ネットワンシステムズ ビジネス開発本部 応用技術部 ネットワークチームエキスパートの平河内竜樹氏も「傾向として、お客様の検討が進んでいるのは、イーサネットのほう」と語る。InfiniBand製品は提供元が限られるのに対し、多様な選択肢を持つイーサネットは「価格競争のメカニズムが働くため、結果として費用対効果の面でも優れたソリューションになっている」という。

RELATED ARTICLE関連記事

SPECIAL TOPICスペシャルトピック

スペシャルトピック一覧

NEW ARTICLES新着記事

記事一覧

FEATURE特集

WHITE PAPERホワイトペーパー

ホワイトペーパー一覧
×
無料会員登録

無料会員登録をすると、本サイトのすべての記事を閲覧いただけます。
また、最新記事やイベント・セミナーの情報など、ビジネスに役立つ情報を掲載したメールマガジンをお届けいたします。