生成AIを支える「ロスレスイーサ」入門 データセンターネットワークの新常識

生成AI基盤のネットワークでは、パケットロスが起きないことが必須要件となる。使い慣れたイーサネットでこれを実現するには、どんな技術・機能を駆使すればいいのか。ロスレスイーサネットの構築法を解説しよう。

ロスレスイーサネット構築法 DCQCNを攻略せよ

低遅延なGPU間通信を行うRDMAと、その前提となるロスレスをいかに実現するか。これが、生成AI基盤を支えるネットワークを構築する際の柱になる。

まず、RDMAをイーサネット上で実現する方法としては、RoCE(RDMA over Converged Ethernet)がある。2つのバージョンがあり、現在では、InfiniBandパケットをUDPヘッダーでカプセル化するRoCEv2が主に使われている。

最初に考案されたRoCEv1は、イーサネットヘッダーでカプセル化していたため、同一セグメントでのやり取りしかできなかったが、RoCEv2はIPベースのルーティングが可能なため、異なるセグメント間でもRDMAが可能になった。

このRoCEv2は、実は以前からDCで使われてきた技術だ。ネットワーク処理においてCPU負荷をゼロにできるため、「仮想化基盤の中でCPUの負荷を下げ、仮想マシンの処理に専念させるといった目的でも使われてきた」(藤井氏)。実は用途が広い技術であるため、生成AI用途で需要が高まっている今、ぜひとも習熟したい技術の1つと言える。

ロスレスを実現する2つの機能

さて、RoCEv2を使うために課題となるのが、そもそもパケットロスと再送を前提としたイーサネット上でどうやってロスレスを実現するかである。

大前提は「広帯域かつシンプルな構成であること」(平瀬氏)。その上で、パケットロスの原因となる輻輳をコントロールすることが鍵だ。そこで使われるのが、DCQCN(Data Center Quantized Congestion Notification)である。「ECNとPFCという2つの機能を組み合わせる」ことで、エンドツーエンドで輻輳を制御する(図表3)。

図表3 ロスレスイーサネット機能

図表3 ロスレスイーサネット機能

仕組みと使い方は、次の通りだ。

ネットワンシステムズ ビジネス開発本部 応用技術部 ネットワークチームシニアスタッフの菊池裕次氏によれば、「ECNもPFCも機能としては似ている。輻輳が起きそうになると輻輳通知を出し、それを受けた送信元がブレーキをかけることでパケットロスを防ぐ」。

ECN(Explicit Congestion Notification)の動作を示したのが図表4だ。スイッチがパケットを転送する際に、バッファーが溢れそうになると、その旨をマーキングして受信側に通知。受信側は送信元にそれを知らせて、送信元が転送レートを下げることで輻輳を解消する。

図表4 ECN(明示的輻輳通知)の動作イメージ

図表4 ECN(明示的輻輳通知)の動作イメージ

PFC(Priority Flow Control)は、リンクごとの優先度に基づいてフローを制御する機能だ。

イーサネットにおけるフロー制御は通常、輻輳が起きそうな場合にすべての通信を停止してしまうが、PFCを使うとドロップさせたくないトラフィック、この場合はRoCEv2のみを選択的に送信停止することで、パケットロスを防止することができる。

RELATED ARTICLE関連記事

SPECIAL TOPICスペシャルトピック

スペシャルトピック一覧

NEW ARTICLES新着記事

記事一覧

FEATURE特集

WHITE PAPERホワイトペーパー

ホワイトペーパー一覧
×
無料会員登録

無料会員登録をすると、本サイトのすべての記事を閲覧いただけます。
また、最新記事やイベント・セミナーの情報など、ビジネスに役立つ情報を掲載したメールマガジンをお届けいたします。