目次
InfiniBandを選んだ理由
活況を呈するデータセンターインフラ市場のなかでも、特に成長著しく、新技術が台頭してきているのが生成AIの領域だ。GPUを核に構成されるLLM(大規模言語モデル)の開発基盤では、GPUサーバー間をつなぐインターコネクトネットワークに関しても、従来型データセンターのそれとはまったく異なる性能・機能が求められる。
こう聞くと、AI基盤のネットワーク設計・構築にはさぞかし時間がかかりそうだが、これまで複数の基盤構築を手掛けてきたNTTPCコミュニケーションズ 法人ビジネス推進本部 ビジネスデザイン部門 イノベーション部主査の大野泰弘氏によれば、「サーバーやスイッチ等のモノが届いてからお客様に提供できる状態にするまで、約2週間で組み上げたこともある」というから驚かされる。
NTTPCコミュニケーションズ 法人ビジネス推進本部 ビジネスデザイン部門 イノベーション部 主査 大野泰弘氏
生成AIのためのインフラ構築には、何よりもスピードが要求される。理由は、GPUが高いからだ。
GPUサーバーは非常に高価なうえ、納品まで数カ月から半年かかることも珍しくない。さらに、近年は1年周期で新製品がリリースされるほど技術進化が早い。だから誰でも、納品されれば1日でも早く使いたいと思うはずだ。
NTTPCはこれまでに研究機関やAIベンチャー、ゲーム会社らがプライベートクラウドで利用するLLM開発基盤の構築を担ってきた。そのいずれにおいても、この“早く使いたい”という要望に応えられた要因は「InfiniBandを選択したことにある」(大野氏)。
ただし、大野氏がInfiniBandを触ったのは、この生成AI基盤の構築が初めてという。それでも選んだ理由はシンプルだ。「学習コストが低い。構築時の設計や検証コストもすごく抑えられる」
生成AI基盤のネットワークには、「広帯域」「ロスレス」「低レイテンシー」「ノンブロッキング」の4つの要件が求められるが、「設計の負担を少なく抑えながら、これらの要素を得られるのがInfiniBandだ」と同氏は指摘する。イーサネットに比べると、期待通りのパフォーマンスが得られやすいというわけだ。
InfiniBandの最大の特徴は、OS/CPUを介さずにノード間でメモリの内容を直接転送するRDMA(Remote Direct Memory Access)を標準機能として実装している点にある。遅延を極端に抑えて通信できるこの技術を、エヌビディアはGPUメモリの直接転送に活用することにより、AIのトレーニングを複数のGPUサーバーで分散処理する大規模システム(GPUクラスター)の構築を可能にした。
なお、エヌビディアは、InfiniBand対応スイッチやネットワークアダプタを開発していたメラノックスを2020年に買収。InfiniBand製品の開発・供給は現在、エヌビディアが独占している状況だ。