AIを活用してネットワーク運用を自動化・高度化するAIOpsの導入が本格化している。KDDIもネットワーク運用へのAI適用に積極的な1社である。「AIエージェントの本格実装に向け、ネットワークから発生するアラート情報やトラフィックなどの統計的な情報を現在蓄積している」と、KDDI コア技術統括本部 次世代基盤開発本部副本部長の宮澤雅典氏はAIエージェントの開発を進めていると明かす。
KDDI コア技術統括本部 次世代基盤開発本部 副本部長の宮澤雅典氏
KDDIは2022年の大規模障害を受け、障害を速やかに復旧する技術開発に注力。2024年1月にはLTEのモバイルコアネットワークにおいて、機械学習を活用した障害検知システムの運用を始めた。そして2025年3月のMWCでは、生成AIを利用して障害の原因を特定する技術検証を進めていることを発表した。「障害対応のために整備している手順書をAIに学習させ、生成AIを活用しながら障害復旧の迅速化を目指す」(同本部 オペレーション本部 運用DX推進部 部長の茂庭智氏)ものだ。「AIのこうしたユースケースは非常にポピュラーで、世界の他の通信事業者にも共通している」(宮澤氏)
KDDI コア技術統括本部 オペレーション本部 運用DX推進部部長の茂庭智氏
この技術は、分析ダッシュボードとAIエージェントを組み合わせ、障害発生時の影響範囲やアラート情報を可視化し、速やかな対応を支援する。
例えば、メールシステムに障害が起きた場合、Webメールにも影響が及ぶといったサービスレベルでの依存関係を相関分析で明らかにし、ダッシュボードに視覚的に一覧表示することができる。また、大量のアラートを時系列で集約・分析することで、どのタイミングでどの障害が起きたかを一目で把握することも可能だ。
こうした情報をもとに運用担当者は、チャットインターフェースでAIエージェントと対話しながら、障害箇所の特定と復旧作業を進めていく。
復旧方法をチャットで問い合わせると、AIエージェントは蓄積されたデータや過去の対応履歴をもとに障害箇所を推定したうえで、複数の対応策を提示し、運用者の判断をアシストする。メール障害の例では、リーフスイッチが障害の原因と推定し、「メールサーバーを別ルートに移行する」「問題のスイッチを切り離す」「障害発生時に行われていた作業をロールバックする」など複数の対応パターンを提案する。運用者はワンクリックで選択した作業を実行できる。
「ベテラン運用者の中にしかなかったノウハウを形式知化してシステム実装し、経験の浅いメンバーでもベテラン運用者と同様に対応できるようにすることが目標」と宮澤氏。目的の1つは、持続可能な運用体制の構築だ。