SPECIAL TOPIC通信インフラでの理想的な「機械学習」の使い方は？　異常検知と障害予測でレジリエンスを

2023.06.20

ページタイトルとURLがコピーされました

通信ネットワークが果たす役割が拡大するにつれ、万一障害が発生した際の影響も深刻なものとなり、総務省のガイドラインによって速やかな告知・報告が求められるまでに至った。こうした要請に応える上で重要なのは、速やかな異常検知と機械学習技術を生かした障害予測だが、それを実現するにはまず、データを集約する基盤を整える必要がある。

NicoElNino / iStockphoto

写真：NicoElNino / iStock

通信ネットワークが生活やビジネスに欠かせない存在になるにつれ、万一障害が発生した際の影響も甚大になっている。事実、国内で大規模な通信障害が発生した際には、SNSでは「電話がかけられない、インターネットにつながらないが、何が起こっているのかわからない」というユーザーの声があふれ、テレビや新聞などでも大きく報道される。

こうした事態を受け総務省は「電気通信サービスにおける障害発生時の周知・広報に関するガイドライン」を2023年3月に公表した。指定の大手通信事業者に対し、通信サービスに影響が及ぶ深刻な事故（障害）が発生した際には原則として30分以内にホームページで公表し、総務省にも報告するよう求めている。

これに対応するには、まずは障害をなるべく起こさないこと。そして万一起こったとしても速やかに把握し、対処すること――などということは、今さら強調せずとも通信事業者は百も承知だろう。これまでも安定運用の実現に向けて、通信インフラを構成する機器や回線を対象にさまざまな監視や障害検知に取り組んできた。

ただ、仮想化をはじめとする新たな技術が登場し、多様化するニーズに応えるべくサービスも高度化した結果、通信インフラは全体像を把握することすら困難なほど複雑化している。また、インフラの規模そのものも拡大しており、以前ならば1つ1つ確認することもできたアラートやメッセージの量も膨大となり、なかなか目が行き届かない状況だ。

そんな中、「30分で障害を検知し、報告せよ」という総務省のガイドラインを遵守するのは非常に厳しい状況だ。あらかじめ緊急時のワークフローやテンプレートを用意していても、承認を経て30分以内に情報を公表するには、5分、10分といった短い時間で深刻な事態につながる障害を検知し、判断を下して対応していかなければならない。それにはネットワークの状況を可視化し、即座に関連する情報を紐付けて分析できる状態が整っている必要がある。

次のページ　機械学習（ML）で「脱・個別最適」の可視化を実現する方法

続きのページは、会員の方のみ閲覧していただけます。

無料会員登録ログインする