オブザーバビリティプラットフォームを提供するDatadogは2026年4月24日、GPUリソースのコスト最適化とパフォーマンス向上を支援する「GPU Monitoring」の一般提供を開始したと発表した。

GPU Monitoringは、AIワークロードで利用されるGPUフリートの健全性、コスト、パフォーマンスを可視化する機能。GPUリソースのテレメトリを、実際にリソースを消費しているワークロードと結び付けることで、どの部門やメンバーがGPUを利用しているか、どのデバイスがアイドル状態または非効率に使われているかを把握できるようにする。
AI活用の拡大に伴い、GPUコストの管理は企業にとって大きな課題となっている。Datadogによれば、GPUインスタンスは計算資源コストの14%を占めており、コストを事業部門ごとに配賦できないことや、ワークロードの状況を把握しにくいことが、予算策定やGPUリソースの計画的な確保を難しくしているという。
GPU Monitoringでは、プラットフォームエンジニアリングチームと機械学習チームが共通の画面でGPU利用状況を調査できる。停滞しているワークロードをGPU、コンテナ実行単位(Pod)、プロセスと関連付けて確認できるため、パフォーマンス低下の原因特定を迅速化できるほか、不健全なGPUを事前に把握し、トレーニングや推論の遅延につながる障害を抑止できるとしている。
また、GPUの過剰確保や未活用を特定し、リソースの回収や再配分につなげることで、AI基盤のROI向上も支援する。Datadogは同機能によって、AIスタック全体にわたる統合的な可視性の提供が単一のソリューションで可能になったとしている。