生成AIを支える「ロスレスイーサ」入門 データセンターネットワークの新常識

生成AI基盤のネットワークでは、パケットロスが起きないことが必須要件となる。使い慣れたイーサネットでこれを実現するには、どんな技術・機能を駆使すればいいのか。ロスレスイーサネットの構築法を解説しよう。

DCQCNを使うためのポイント

整理すると、輻輳が起こりそうな場合に、送信/受信エンドに通知してブレーキをかけるのがECN。ネットワークが詰まった場合にスイッチ間で調整して、大事なパケットを保護するのがPFCということになる。「万一、ECNが機能しなかったときのバックアップ的な位置づけでPFCを設定する」(菊池氏)ケースが多いという。

ロスレスイーサネットの構築にあたっては当然、このDCQCNが正しく動作することの検証・評価が欠かせない。丸文の尾形氏によれば、「輻輳が始まったときにECNでフローを制御しつつ、PFCによってフローの完全停止時間を最小限に抑える」ことが重要だ。そのうえで、同氏は次の2つを課題に挙げる。ECNによる制御の前にPFCが発動しないこと、そして、パケット損失が発生する前に確実にECNが発動することだ。

生成AI基盤ネットワークの構築にあたっては、先に述べたジョブ完了時間の検証等も含めて、大量のデータが押し寄せるなかでDCQCNの発動を適切に評価・テストできる環境が不可欠だ。丸文と東陽テクニカでは、100GbE超のインターフェースをサポートする高性能なネットワークエミュレーターやテスターを用意して、これらのニーズに応えている。

CCL活用でGPUを使い倒す

RoCEv2とDCQCNの他にも留意すべきポイントがある。

東陽テクニカの新井氏が挙げるのが、CCL(Collective Communication Library)だ。GPU間通信を効率化して、待機時間や遅延を削減することを目的に考案された「集合通信」用のトラフィックモデルライブラリである。エヌビディアは、機械学習のワークロードをサポートする目的でNVIDIA CCL(NCCL、ニッケルと呼ばれる)を公開している。

CCLを利用すれば、全GPU間でメッセージを交換する必要がある場合にその通信を効率化する「allreduce」など、用途・目的に応じたアルゴリズムを組み込むことができる。生成AIの学習においても利用が広がっており、ネットワーク評価・試験製品を提供するSpirent Communicationsが先ごろ、このCCLを初めてサポートするソリューションをリリースした。

このように生成AI基盤を支えるネットワークは、従来のDCネットワークとはまったく異なる性格を持つ。RoCEv2やDCQCNも決して新しい技術ではなく、ネットワーク機器ベンダー各社から対応製品が出ているため、技術・機能について習熟するための環境は十分に整っているといえるだろう。

それとともに、検証・評価環境にも手を入れる必要がある。

従来のDCネットワーク構築において、遅延やパケットロスを意識していた人はほとんどいなかったはずだ。生成AIではそれが必須であり、さらに高負荷な状況における動作の見極めが重要になる。見るべきポイントは大きく変わる。

ECNとPFCも従来からイーサネットに備わっている機能だが、使用経験のある人は非常に少ない。ネットワンシステムズでも、GPUサーバーとアリスタネットワークスのRoCEv2対応スイッチを用いて、DCQCNの動作検証等を行っているという。

評価・検証ツールや管理ツールの見直しも不可欠だ。トラフィック量や遅延量のリアルタイム監視・分析、パケットドロップの発生状況など検証・監視すべき項目は多岐にわたる。「人間の目で判断できない内容も出てくる。スイッチベンダーが提供するツールだけでなく、評価・試験ベンダーの専用ツールも含めて検討することが必要だろう」と平瀬氏。AIによるリアルタイム分析や監視、自動化といった機能の活用も積極的に検討すべきだ。

RELATED ARTICLE関連記事

SPECIAL TOPICスペシャルトピック

スペシャルトピック一覧

NEW ARTICLES新着記事

記事一覧

FEATURE特集

WHITE PAPERホワイトペーパー

ホワイトペーパー一覧
×
無料会員登録

無料会員登録をすると、本サイトのすべての記事を閲覧いただけます。
また、最新記事やイベント・セミナーの情報など、ビジネスに役立つ情報を掲載したメールマガジンをお届けいたします。