「スパコン性能の世界ランク『Top500』で49位を獲得した※。なかでも、イーサネットとSONiCというオープンな技術を使ったシステムとしては最上位だと自負している」
さくらインターネットが提供するクラウド型HPCシステム「さくらONE」について、クラウド事業本部 クラウドサービス部でインフラ開発を担当する井上喬視氏はそう胸を張る。
さくらONEとは、GPUクラウド事業で国内をリードしてきた同社が培った構築・運用技術を注ぎ込んだ大規模LLM開発向けサービスだ。
同社はその先駆けとして、初期型のさくらONEを立ち上げるにあたりSONiCを採用した。そして、Top500で国際的に評価されたそのノウハウを元に、新たな技術で再構築したものを商用サービスとして提供している。
上記のTop500では特注で作られたスパコンが上位を占めており、ネットワークに関してもHPC専用規格のInfiniBandのようなベンダー独自プロトコルでGPUクラスタを構築しているケースが大半だ。そうしたなか、さくらONEは、汎用的なGPUサーバーとイーサネットによる透明度の高い技術により実装していることが特徴である。ホワイトボックススイッチ、オープンソースOSのSONiCと、他の上位勢にはないオープンな技術の組み合わせで構築しており、SONiCを使ったシステムは、上位100の中でさくらONEだけだ。

さらに驚かされるのが、構築期間の短さだ。さくらONEのインフラはサーバー100台、800基のGPUと、26台の800GbEスイッチで構成されている。この国内最大級の新クラスタを2024年8月のプロジェクト開始から「わずか4カ月で立ち上げた」と語るのは、同じくインフラ開発を担う黒澤潔裕氏。通常なら構築に2年程度かかるシステムを、同年12月、本番稼働にこぎつけた。
そこまで急いだのには理由がある。
生成AIの台頭以来、GPUの需要が急騰。さくらインターネットはそれまでもGPUサービス「高火力シリーズ」を提供してきたが(図表1)、予想以上の引き合いに対応し切れない事態となった。そこで、学術用途に適したGPUリソースを提供するために開発したのがさくらONEだ。
図表1 さくらインターネットの生成AI向けGPUクラウドサービス

学術用のスパコンやLLM開発用のGPUクラスタにはInfiniBandが使われるケースが多いが、さくらONEがイーサネット、しかもSONiCとホワイトボックススイッチを選んだ理由は、ここにある。井上氏は「面白そうだからやってみよう」という技術的な興味とともに、納期の早さが決め手になったと話す。