<連載>AIデータセンターネットワーク最新動向2025LINEヤフーに聞くGPU専用ネットワーク構築 マルチベンダーで800GbE

LINEヤフーとその子会社Actapioが米国データセンターで運用するAIインフラは、どのようなネットワーク技術で支えられているのか。今夏には800GbE化も計画する同社に、技術選定のポイントを聞いた。

LINEヤフーの米国データセンター。鉄骨造の地上1階建てで、建築面積は約9300㎡、敷地面積は約18万400㎡、電源容量は16MW、ラック数は約1600ラック。受電種別は100%再生可能エネルギー(水力発電)で、空調方式は直接蒸発式外気冷房(100%外気空調)、PUEは1.2以下

LINEヤフーの米国データセンター。鉄骨造の地上1階建てで、建築面積は約9300㎡、敷地面積は約18万400㎡、電源容量は16MW、ラック数は約1600ラック。受電種別は100%再生可能エネルギー(水力発電)で、空調方式は直接蒸発式外気冷房(100%外気空調)、PUEは1.2以下

LINEヤフーは社内のAI/MLユーザー向けに、オンプレミス型の機械学習プラットフォーム「AI Cloud Platform(ACP)」を提供している。Kubernetesをベースとした基盤上に様々なフレームワークを用意しており、エンジニアはこれを使って、GPUリソースをKubernetesPod(コンテナアプリを管理するユニット)として立て、学習タスクを実行できる。

このACPの構築・運用をLINEヤフーとともに担っているのが、米子会社のActapioだ。

Actapioは2014年の設立当初、米国で200ラック規模のデータセンター(DC)を運用開始。2019年には、水力発電が盛んなワシントン州に1600ラック規模のDCを竣工し、100%再生可能エネルギーを利用して同年4月に稼働を開始した。

米国にDCを設置したのは、BCP(事業継続計画)強化に加えて、日本に比べて5分の1程度と安い電力を利用することが目的だ。また、DCの冷却には、低湿で冬は寒冷な気候を活かして直接蒸発式外気冷却を採用。電力使用を抑えることで、1.2以下のPUE(Power Usage Effectiveness)を実現している。

日本から8000kmも離れているため通信遅延が大きいことが米国DCの弱点だが、リアルタイム処理が求められるサービスは設置せず、主にデータ解析基盤として活用している。電気代が安く冷却効率も良い同地は、消費電力と排熱が大きなGPUサーバーを大量に使うAI基盤向けDCにとって適した環境だ。

AIインフラを再設計

国内最大規模のWebスケールインフラを運用するLINEヤフーは、クラウドのパフォーマンスを最大化するためにIP Clos Networkを構築している。LINEヤフー SIグループの深澤開氏によれば、ACPのGPUクラスターも以前は「大規模なClos Networkの中へ入れていた」。

そこに変化をもたらしたのは、やはり生成AIだ。GPUセントリックなAIインフラへと移行させるために、GPU専用のネットワークをしっかりと作る必要が出てきた。

GPU専用ネットワークの目的は、分散学習の実行時にGPUサーバーをまたぐ通信のパフォーマンスを最大化することにある。分散学習では、GPU間でデータをコピーする際に、メインメモリーを介さずにGPUメモリー間で直接コピーする(DMA)。生成AIの分散学習には、これを、異なるノード間のGPU通信に適用したGPU Direct RDMA(Remote Direct Memory Access)が必須となる。

このGPUサーバー間通信では、従来のDCネットワークに比べて厳しい要件が求められる。LINEヤフー SIグループの大浦晋氏は3つの要件を挙げる。「大量に発生するメモリーコピーをさばくための『広帯域』が1つ。次に、転送時間を短くして学習にかかる待ち時間を短縮する『低遅延』。最後が『ロスレス』だ。輻輳が発生したとしてもパケットドロップを起こさない仕組みが重要になる」

(左から)LINEヤフー SIグループ インフラ統括本部ネットワーク本部 ネットワーク1部サービスネットワーク1チーム メンバー 深澤開氏、大浦晋氏、Actapio Cloud Infrastructure Engineering Division,Network Section,Manager & Principal Engineer 立見祐介氏、Network Section, Engineer 北野拓也氏

(左から)LINEヤフー SIグループ インフラ統括本部ネットワーク本部 ネットワーク1部サービスネットワーク1チーム メンバー 深澤開氏、大浦晋氏、Actapio Cloud Infrastructure Engineering Division,Network Section,Manager & Principal Engineer 立見祐介氏、Network Section, Engineer 北野拓也氏

RELATED ARTICLE関連記事

SPECIAL TOPICスペシャルトピック

スペシャルトピック一覧

NEW ARTICLES新着記事

記事一覧

FEATURE特集

WHITE PAPERホワイトペーパー

ホワイトペーパー一覧
×
無料会員登録

無料会員登録をすると、本サイトのすべての記事を閲覧いただけます。
また、最新記事やイベント・セミナーの情報など、ビジネスに役立つ情報を掲載したメールマガジンをお届けいたします。