“通常”をプロファイル
ここで重要なのが、情報分析や異常検知をAI/MLに任せるだけでなく、インフラからの情報の集め方、UX判定の仕方、そしてその後のアクションまですべてが様変わりすることだ。
上記のように、“通常運用”下で隠れた異常を見つけ出すには、トラフィックや機器の状態を示すデータを常時吸い上げ、それを学習する必要がある。イベント単位で情報を収集していては、これは不可能だ。シスコ クラウドアーキテクチャ事業部長の鈴木康太氏は「フロー単位での情報収集と監視が必要。さらに粒度も重要で、数分ごとに取りに行くのではなく、インフラ側から常に送り続ける」と話す(図表1)。もちろん情報量が増えるため、「その情報にどの程度の価値があるのかを相関分析するのにもMLを使う」。
図表1 ネットワーク運用監視の将来像
厄介なのが、“通常”をどう理解するかだ。企業ごと、さらに1企業内でも場所ごとにネットワークの正常な状態は異なるので、異常を判定する際の基準も当然異なる。そこで、上記のようにフロー単位で収集した情報を「MLでトラッキングし続けて、“そのネットワークの傾向値”を出し、プロファイルする。その状態を通常として、逸脱したものだけアラームを上げる」(眞崎氏)。
専門チームが問題をパターン化
トラブルの原因特定と対処も自動化できる。この精度を高めるには、長年に渡って人が培ってきた知見が役に立つ。ジュニパーの上田氏は、同社のMist AIを強化するうえで、図表2のフィードバックループが肝になっていると説明する。
図表2 継続的にユーザーサポート体感を改善
「トラブルの原因には何万、何十万ものパターンがある。ユーザーに生じた問題に対して、我々のカスタマーサクセスチームがトラブルシューティングを行い、データサイエンスチームが分析し、パターン化する。この知見を新機能としてMist AIに投入し、それをお客様が使うことで、さらにパターンがどんどん増えていく」
こうして強化されたMist AIが大きな成果を挙げた事例がある。米国のあるソフトウェア企業は、開発エンジニア数の増加に伴い、ネットワークの不具合も急増。特にWi-Fiのトラブルが月に200件も発生していた。そこで、Mist AIによる原因解析とトラブルシュートの自動化に取り組んだ結果、8カ月後にはトラブル数が月に数件へ減少したという。
面白いのは、「Mist AIを入れると最初はトラブルが表面的に増える」(同氏)ことだ。「それまではアラームが出ていなかった潜在的なリスクが顕在化するためで、それを解決していくほど、トラブルが減っていく」
監視・運用法を変革するにはもう1つ重要な視点がある。情報を1つのツールに集約することだ。
冒頭で、Mist AIの監視範囲がWi-FiからLAN/WANへと広がっていることを述べたが、シスコも同様に、種別の異なるネットワークの情報を集約する方向性を打ち出している。キャンパスネットワークを管理するDNA Centerと、データセンターネットワークのNexus 9000、インターネット可視化ソリューションの「Thous and Eyes」、クラウドWi-Fiの「Meraki」を、「将来的に1つのダッシュボードで一元的に情報を管理できるようにする」(鈴木氏)計画だ。
シスコシステムズ クラウド・サービスプロバイダーアーキテクチャ事業 クラウドアーキテクチャ事業部
事業部長 鈴木康太氏
インターネットも含めて企業が使う全ネットワークの情報をAIが分析し、それをネットワーク機能と連動させれば、運用自動化は新たなレベルに到達する。例えば、「ThousandEyesのAIエンジンが解析した情報をSD-WANで使うことで、最も品質のよいルートを使うように自動経路制御できる」(眞崎氏)。この機能は米国ですでに提供されており、近いうちに日本でも使用可能になる。