SPECIAL TOPICスパコン性能で世界49位の「さくらONE」 800GPUクラスタをSONiCで構築した理由

クラウド型HPCサービス「さくらONE」の基盤として、800基のGPUによる国内最大規模のAI学習用クラスタを構築したさくらインターネット。スパコン性能ランクで49位と、世界が認めたその新クラスタの構築期間はわずか4カ月だった。しかも、GPU間接続をホワイトボックススイッチとオープンソースOSのSONiCで構成。異例の挑戦を成功に導いた要因とは。

「スパコン性能の世界ランク『Top500』で49位を獲得した※。なかでも、イーサネットとSONiCというオープンな技術を使ったシステムとしては最上位だと自負している」

※ HPCに関する国際会議・展示会「ISC2025」で、2025年6月10日に発表

さくらインターネットが提供するクラウド型HPCシステム「さくらONE」について、クラウド事業本部 クラウドサービス部でインフラ開発を担当する井上喬視氏はそう胸を張る。

さくらONEとは、GPUクラウド事業で国内をリードしてきた同社が培った構築・運用技術を注ぎ込んだ大規模LLM開発向けサービスだ。

同社はその先駆けとして、初期型のさくらONEを立ち上げるにあたりSONiCを採用した。そして、Top500で国際的に評価されたそのノウハウを元に、新たな技術で再構築したものを商用サービスとして提供している。

上記のTop500では特注で作られたスパコンが上位を占めており、ネットワークに関してもHPC専用規格のInfiniBandのようなベンダー独自プロトコルでGPUクラスタを構築しているケースが大半だ。そうしたなか、さくらONEは、汎用的なGPUサーバーとイーサネットによる透明度の高い技術により実装していることが特徴である。ホワイトボックススイッチ、オープンソースOSのSONiCと、他の上位勢にはないオープンな技術の組み合わせで構築しており、SONiCを使ったシステムは、上位100の中でさくらONEだけだ。

(右から)さくらインターネット クラウド事業本部 クラウドサービス部 インフラ開発 井上喬視氏と黒澤潔裕氏、マクニカ フィネッセ カンパニー 第3統括部 OpenNetworking事業推進室 エキスパート 佐々木太郎氏

(右から)さくらインターネット クラウド事業本部 クラウドサービス部 インフラ開発 井上喬視氏と黒澤潔裕氏、
マクニカ フィネッセ カンパニー 第3統括部 OpenNetworking事業推進室 エキスパート 佐々木太郎氏

800GPUクラスタを4カ月で構築 インターコネクトに800Gイーサネット

さらに驚かされるのが、構築期間の短さだ。さくらONEのインフラはサーバー100台、800基のGPUと、26台の800GbEスイッチで構成されている。この国内最大級の新クラスタを2024年8月のプロジェクト開始から「わずか4カ月で立ち上げた」と語るのは、同じくインフラ開発を担う黒澤潔裕氏。通常なら構築に2年程度かかるシステムを、同年12月、本番稼働にこぎつけた。

そこまで急いだのには理由がある。

生成AIの台頭以来、GPUの需要が急騰。さくらインターネットはそれまでもGPUサービス「高火力シリーズ」を提供してきたが(図表1)、予想以上の引き合いに対応し切れない事態となった。そこで、学術用途に適したGPUリソースを提供するために開発したのがさくらONEだ。

図表1 さくらインターネットの生成AI向けGPUクラウドサービス

図表1 さくらインターネットの生成AI向けGPUクラウドサービス

学術用のスパコンやLLM開発用のGPUクラスタにはInfiniBandが使われるケースが多いが、さくらONEがイーサネット、しかもSONiCとホワイトボックススイッチを選んだ理由は、ここにある。井上氏は「面白そうだからやってみよう」という技術的な興味とともに、納期の早さが決め手になったと話す。

RELATED ARTICLE関連記事

SPECIAL TOPICスペシャルトピック

スペシャルトピック一覧

NEW ARTICLES新着記事

記事一覧

FEATURE特集

WHITE PAPERホワイトペーパー

ホワイトペーパー一覧
×
無料会員登録

無料会員登録をすると、本サイトのすべての記事を閲覧いただけます。
また、最新記事やイベント・セミナーの情報など、ビジネスに役立つ情報を掲載したメールマガジンをお届けいたします。