ソリューション特集生成AI時代のデータセンターネットワーク　「計算資源の一部」へ役割が変化

2024.01.26

ページタイトルとURLがコピーされました

通信ネットワークの役割は“データを伝える”ことだ。だが、桁違いの計算能力を必要とする生成AI/機械学習の場ではその常識が変わる。ネットワークにも計算リソースの一部として働く性能・機能が求められる。

2022年が“ChatGPT公開”の年なら、2023年は、そのOpen AIを追いかける者たちの話題で持ち切りの年だった。北米のビッグテックはもとより、国内の動きも活発だ。

NTTやソフトバンク、富士通、理研らが次々と、生成AIの基盤となる大規模言語モデル（LLM）の開発を表明。サイバーエージェントは5月、NECは7月に自社開発したLLMの公開、提供を開始した。その後も東京大学松尾研究室（松尾豊教授）やPreferred NetworksがLLMを公開。2024年3月には、NTTが「tsuzumi」のデビューを予定している。

「計算のためのネットワーク」

第三次AIブームの行方にはまだ不透明な部分も多いが、生成AIと機械学習（ML）技術への投資が、企業競争力を大きく左右する時代に突入したことは間違いない。

これは、AI/MLの開発・実行基盤となるデータセンター（DC）にも多大な影響を及ぼす。従来型のアプリケーションやクラウドサービスのワークロードと、AI/ML基盤のそれは著しく異なるためだ。生成AI時代に向けて、アーキテクチャの刷新が起こる。

というと、誰もがGPUの大量導入を思い浮かべるだろう。確かに、AI処理を得意とするGPUサーバーはAI/ML基盤のコアコンポーネントだ。

だが、抜本的な変革が必要なのはネットワークも同様だ。「AI/ML向けのネットワーク」は、従来のDCネットワークとは根本的に異なる。エヌビディアエンタープライズマーケティングマーケティングマネージャーの愛甲浩史氏は「計算するためのネットワーク」へ役割が変わると指摘する。

一般的なクラウドサービスは、図表1の左側のように、各ノードで計算処理した結果を受け渡すのにネットワークを使っている。どれほど広帯域化しようと、1つひとつのノード内で完結した処理を隣のノードやクライアントとの間でやり取りするという使い方は、これまで変わらなかった。

図表1　AI/機械学習（ML）のためのネットワーク

図表1　AI/機械学習（ML）のためのネットワーク

対して、AI/ML基盤では、1ノードではまかないきれないほど大量のデータを扱うため、1つの処理を複数ノードに分散し、常に同期を取りつつ並列処理を行う（図表1右側）。「複数ノードで計算して、常に何かをやり取りする」（同氏）大規模な分散／並列コンピューティング基盤の中で、ネットワークはこれまでと異なる役割を担う。エヌビディアネットワーキングプロダクトマーケティングディレクターの岩谷正樹氏は「ネットワークは計算をするための1つのリソースである、という考え方へシフトする」と話す。

次のページ　GPUクラスターを支える通信とは

続きのページは、会員の方のみ閲覧していただけます。

無料会員登録ログインする