なぜ今、Ultra Ethernetなのか?
近年、AIやHPC(高性能コンピューティング)ワークロードが急速に拡大する中、従来のデータセンターでは対応しきれない課題が浮き彫りになっています。
これらを解決するため、多方面で新技術の開発や導入が進んでいます。
例として、増大する消費電力に対応するために、地域レベルで官民連携によるデータセンター建設が進行中です。また、増加を続けるGPUの発熱に対処する手段として、液体冷却(Liquid Cooling)の採用も広がりつつあります。
同様に、ネットワークの分野でも新しい技術が生まれています。
AIクラスタ向けNW技術と課題
AIシステムは、数百、数千といった多くのGPU間で大量のデータを送受信しながら計算を繰り返すことで動作しています。
このようなワークロードに対応するには、サーバー間で高速かつ低遅延なデータ転送を行うRemote(Direct) Memory Access(RMA/RDMA)技術が不可欠であり、ネットワーク技術としてはパケットロスがないことをネットワークレイヤーで保証するInfiniBand(以下、IB)が多く用いられてきました。
しかし、IBはオープンな規格でありながらも、スイッチやネットワークインターフェースカード(NIC)を事実上エヌビディア(旧メラノックス)だけが提供しており、GPU/NIC/スイッチを含むシステム全体が1社により提供されるため、ベンダーロックインによる価格・供給・技術選択への制約があります。また、イーサーネットにおけるVXLANのようなオーバーレイ技術がないため、マルチテナンシーへの対応が困難であることや、専門技術者の育成が必要といった課題が存在します。
このような背景から、RDMAに関してもイーサネットベースのソリューションの利用が進んでいます。
具体的には、2010年にIBTA(Infini Band Trade Association)によって、イーサネット上にIBをカプセル化する「RoCE(RDMA over Converged Ethernet)」と呼ばれる技術が公開され、現在ではスケーラビリティ向上のためIP/UDPでカプセル化されたRoCEv2がデファクト標準として利用されています(図表1・2)。
図表1 InfiniBandとRoCEv2のプロトコルスタック
図表2 InfiniBandとRoCEv2のパケットフォーマット
RoCEv2は、IBと同様にパケットロスが発生しない“ロスレスネットワーク”を前提としているため、イーサネット上でロスレスを実現する技術であるPFC(Priority Flow Control)と共に利用されます。
また、他にも輻輳制御のためにECN(Explicit Congestion Notification)、DCQCN(Data Center Quantized Congestion Notification)、ファブリック帯域の利用率向上のためにDLB(Dynamic Load Balancing)といった技術が利用されています(図表3)。以降、これらRoCEv2関連技術をまとめてRoCEv2と表記します。
図表3 RoCEv2関連技術の課題と概略