<連載>AIインフラの新潮流エッジAIインフラの作り方 AIエージェント時代に来る「オンプレミス回帰」

AI業界はモデル学習のフェーズから、そのモデルとAIエージェントを活用するフェーズへと急速に移行している。AI処理の場がエッジ/オンプレミス環境へ広がろうとするなか、企業が備えるべきことは何か。

エヌビディアが主催するAI/GPU技術カンファレンス「NVIDIA GTC」では毎回、次世代ソリューションとともに、AIインフラの進化の方向性が示される。

この3月に行われたNVIDIA GTC 2026で注目を集めたコンセプトの1つが、「AI Grid(グリッド)」だ。AI推論をエッジに近づけるために設計された“分散型AIインフラ”であり、通信事業者やクラウド事業者らのインフラを活用して、ローカルなAIプラットフォームへと変革することを目指す。その実現に向けて、エヌビディアはAT&TやT-Mobile、シスコシステムズやHPE(ヒューレット・パッカードエンタープライズ)、アカマイ・テクノロジーズらとの提携も発表した。

このAI Gridが象徴するように、これまでメガデータセンター(DC)に集中していたAIインフラは今、急激に分散化フェーズへと移行している。このパラダイムシフトには、次の2つの背景がある。

「推論の時代」へ準備始まる

1つは、AI推論処理におけるリアルタイム性の追求と通信ボトルネックの解消だ。

AI事業者の重心は、モデルの学習から、それを運用して収益化する推論フェーズへと移りつつある。この推論には、自動運転や産業用オートメーションのようなミリ秒単位の判断が求められるものもあり、クラウドとの往復による通信遅延が致命傷となるケースがある。

こうした課題に対しては、通信事業者やISP、CDN事業者らがネットワーク内に持つ「サービスプロバイダー(SP)エッジ」や、ユーザーのローカル環境に置かれる「オンプレミスエッジ」、あるいはデバイス内部といった、よりユーザーに近い場所でAI処理を行うことが解決策となる(図表1)。

図表1 エッジコンピューティングの範囲図表1 エッジコンピューティングの範囲

また、現場で生み出されるすべてのデータを中央(クラウド)へ送信すると、ネットワーク帯域の圧迫や通信コストの増加を招くことも、データの発生源に近いエッジ側での分散処理が求められる理由だ。

シスコシステムズ 執行役員 クラウド・AIインフラストラクチャ事業担当の堀田賢人氏

シスコシステムズ 執行役員 クラウド・AIインフラストラクチャ事業担当 堀田賢人氏

シスコシステムズ 執行役員 クラウド・AIインフラストラクチャ事業担当の堀田賢人氏は、製造業などでこの課題が顕在化してきていると話す。「画像のリアルタイム解析をクラウドで行うと通信コストが跳ね上がる。4Kカメラや360度カメラの画像を次々とパブリッククラウドに投げていたら、通信費だけでもとんでもない額になる。プライベートクラウドやオンプレミスエッジで処理したいというニーズは明確に出てきている」

AIエージェントで通信遅延が堆積

エッジへの分散を求める動きは、AIエージェントの台頭でさらに加速する。堀田氏は「現在は人間が介在する処理が中心だが、将来的にはエージェント同士が高速で通信する場面が増加し、ミリ秒レベルの低遅延が必要になる」と予測する。日本シエナコミュニケーションズ 執行役員 システムエンジニアリング 本部長の今井俊宏氏も、「テキスト生成等の一般的な生成AIに比べ、エージェンティックAIは複数のエージェントが相互に連携して動くため、通信の頻度が劇的に増加する。この協調動作には広帯域で高い対称性(上下速度が同等)のネットワークが必要」と話す。

日本シエナコミュニケーションズ 執行役員 システムエンジニアリング本部 本部長 今井俊宏氏

日本シエナコミュニケーションズ 執行役員 システムエンジニアリング本部 本部長 今井俊宏氏

3月に、エヌビディアと連携して展開するエッジAIインフラ「Akamai Inference Cloud」を軸とした新事業戦略発表会を実施したアカマイ・テクノロジーズ エバンジェリストの中西一博氏も、「複数のAIが相互にやりとりしながら最終目標を達成するため、通信が爆発的に増加し、処理遅延が累積する」と指摘した。

アカマイ・テクノロジーズ エバンジェリス トの中西一博氏

アカマイ・テクノロジーズ エバンジェリスト 中西一博氏

これは、先述の自動運転のような、ミリ秒の遅延が致命的なユースケースに限った話ではない。例えば、イタリア旅行計画をAIに尋ねるようなリアルタイム性が求められないケースでも、情報収集、日程作成、費用計算、要約といった処理を複数のAIがネットワーク越しに連動して行い、数十から数百のやりとりが繰り返されることで遅延と通信コストが積み上がる。

こうした課題の解消策となるのが、クラウドにAIを集中させるのではなく、国内あるいは世界中に分散するSPエッジをAI処理基盤として用いることだ。その候補としては、通信事業者が全国に置く通信局舎内DCや、基地局設備を用いるAI-RAN等があるが、CDN事業者のエッジもまた有力視されている。アカマイは、世界4400拠点のPoP(CDNの配信拠点)にGPUリソースを展開して分散型AIインフラを整備する計画だ。

また、中西氏によれば、長時間使われなかったアプリの初回起動(コールドスタート)時に数百ミリ秒以上の遅延が発生し、リアルタイム性が求められるAIサービスで課題となる。この問題については、Web上で機械語に近い高速処理を可能にし、0.5ミリ秒でのコールドスタートを実現するWebAssembly(Wasm)の活用が有効だという。

図表2 リアルタイムAI推論アプリケーションの利用例と課題リアルタイムAI 推論アプリケーションの利用例と課題

RELATED ARTICLE関連記事

SPECIAL TOPICスペシャルトピック

スペシャルトピック一覧

NEW ARTICLES新着記事

記事一覧

FEATURE特集

WHITE PAPERホワイトペーパー

ホワイトペーパー一覧
×
無料会員登録

無料会員登録をすると、本サイトのすべての記事を閲覧いただけます。
また、最新記事やイベント・セミナーの情報など、ビジネスに役立つ情報を掲載したメールマガジンをお届けいたします。