日本IBM IBM Netcool Operations Insight IBM Operations Analytics - Predictive Insights “アラートの洪水”と今こそ決別! IBM流 ITサービス運用高度化のススメ

「大量のアラートをさばくのに忙殺されている」。貴方の企業のITインフラ運用管理もそんな状況に陥っていないだろうか。ITインフラはビジネスの成長を支える基盤であり、IT環境が大規模化・複雑化する今こそ、そうした旧態依然とした運用方法と決別する必要がある。この課題に応えるのが、日本IBMの運用高度化ソリューションだ。
澤崇氏(左)と、大吉雄一氏

IBMクラウド事業本部、クラウド・ソフトウェア&アナリティクス事業部ソリューション営業部・部長の澤崇氏(左)と、第三クラウド・テクニカル・セールスの大吉雄一氏

 対処し切れないほどのアラートの洪水、属人化した業務、後手に回る障害対応──。ネットワーク運用管理の現場ではそうした状況が常態化している。

 原因は、障害検知だけを目的とした監視システムにある。インフラ運用管理の本来の目的とは、障害の分析・判断、復旧を迅速に行い、業務に影響を及ぼさないことだが、監視機能だけのシステムではそれが達成できない。すべてを経験と人手に頼るしかないからだ。

 企業活動のIT/ネットワークへの依存度が低かった時代はそれでも良かったが、現在のビジネス環境はそれを許さない。そこで、単なる監視のためのシステムではなく、運用を高度化するためのソリューションを提供し、実績を上げているのが日本IBMだ(図表1)。

図表1 運用高度化のアプローチ

図表1 運用高度化のアプローチ

 IBMクラウド事業本部の澤崇氏は、一般的な監視システムと同社のソリューションとの違いについて次のように話す。「業務を守るためにサービス主体で管理を行うこと、分析技術により運用コストを最小化することという2つの観点で運用の高度化を支援するもの。そこが他社の監視システムと明確に違う」

障害復旧が5時間から15分に短縮 人には見えない前兆も検知


 この運用高度化ソリューションで目覚ましい効果を上げているサービスプロバイダー事業者(以下、A社)がある。

 A社はサイレント障害に悩んでいた。クラウドサービスの利用顧客に影響が出ているにもかかわらず、監視システムにはアラートが出ておらず、被疑箇所の特定ができなかった。また、情報の視認性が悪いこと、管理者が常に情報を見て原因分析と対処法の判断をしなければならないため運用が属人化していることも課題だった。アラートが出る度に担当者やSE等を集めて情報を共有してからでないと対処できないため、どうしても対応に時間がかかる。

 そもそも、業務やサービスに影響が発生して始めて障害に気づくこと自体、A社にとって看過できない問題だ。業務影響が発生する前に予防的な対処を可能にすることも必要だった。

 これらを解決するためにA社は、日本IBMと共に運用高度化に乗り出した。結果から言えば、サイレント障害の検知から問題特定、復旧までの時間を従来の5時間から15分以内に短縮。運用コストの削減でも成果を上げた。

 これを実現した秘訣が、図表2に示した運用高度化アーキテクチャだ。「IBM Netcool Operations Insight(NOI)」「IBM Operations Analytics - Predictive Insights(PI)」の2つのソフトウェアで構成される。

図表2 運用高度化基盤のアーキテクチャ

図表2 運用高度化基盤のアーキテクチャ

 第1層「モニタリング」では、ネットワーク、サーバーなどあらゆるITインフラの情報を収集する。ここで重要なのが、サイロ化の解消だ。システム、製品ごとに異なる情報を、第3層「情報統合」の段階で集約し、ITの状況を横断的に「料理できるようにまとめ上げる」(澤氏)。

 その間にある第2層「異常挙動解析」では、インフラから集めた情報を単純に集約するのではなく、PIが正常稼働時のパターンと異なる挙動を検知することで障害の前兆を捉える。様々な解析モデルがプリセットで用意されており、これを活用することでプロアクティブな対応が可能になる。この異常挙動の情報も、通常の障害検知アラートと合わせて第3層で統合される。

異常分析も情報の付与も自動化 業務影響も含めて可視化する


 こうしてIT環境全体の情報を統合集約したところで“料理開始”だ。

 第4層「分析・自動処理」では、これまで人手で行っていた分析・判断の作業を様々な手法でNOIが代行する。まず大事なのが情報の最小化だ。

 1つの原因により大量のアラートが発生した場合、NOIがITインフラやネットワーク接続構造を分析して、それらのアラートを引き起こしている根本原因をハイライト表示する。これにより、管理者の負荷は大きく削減され、迅速な対処が可能になる。

 もう1つ、人が気づくことのできない障害パターンの学習も行う。先述の異常挙動分析に似ているが、ここではイベントの周期性などを学習して情報量を絞るのが目的だ。例えば「毎週金曜日の23時に」発生するイベントがあると、それを分析して問題がないと判断すればアラートを抑制する(季節性分析)。また、複数種類の障害が毎回同じ組み合わせで起こるような場合、グループ化して管理者に提示する(関連性分析)ことで、対応量を減らす。

 こうした分析に加えて、管理者がアラートを見た後に必要とする情報──製品のサポート対応窓口や、障害の影響範囲など──も自動的に付与して表示する。こうすることで、第5層「可視化」において、管理者がわかりやすい統合された情報をダッシュボードに表示することが可能になる。「いま何が起きているのか」をひと目で把握し、かつ必要な情報に瞬時にアクセスできるようになるのだ。

 例として、業務と関連付けてインフラの状況を可視化したダッシュボード画面を図表3に示した。業務に及ぼす影響まで把握でき、かつ、同時発生しているイベントの重要度も表示しているため、迅速に対処方法を判断して実行できる。作業量も大幅に軽減できるため、運用コストの削減にも貢献する。

図表3 ダッシュボードのイメージ(業務ビュー)

図表3 ダッシュボードのイメージ(業務ビュー)

 さらに、分析・自動化の機能を上手く活用すれば、イベント処理を自動化するためのプラットフォームとして活用することも可能だ。「属人化した業務をシステムに落とし込み」(澤氏)、誰にでも同等のオペレーションが可能になるのだ。

既存の監視システムも統合 SDN/NFV環境の可視化も可能に


 このアーキテクチャの“要”は、やはり第3層の「情報統合」にある。NOIは、自らインフラの情報を吸い上げることに加えて、他社の監視ツールやネットワーク管理システムからも情報を収集して統合することが可能だ。

 もちろん処理する情報量は膨大なものになるが、NOIはもともと通信事業者向けに開発されており、高速処理がウリだ。「コアコンポーネントはインメモリ処理。だから、複数の管理システムを統合する“Manager of Managers”の役割を担える」と澤氏は話す。

 こうした優位点に加えて、日本IBMはさらなる機能強化も進めている。注目されるのが、SDN/NFV対応だ。

 これらの仮想化技術の導入によって、ネットワークの運用業務はより複雑化する。そこで日本IBMは今年、NOIの新機能として、SDN/NFV環境の構成を把握・可視化する「アジャイル・サービス・マネージャー(ASM)」を追加した。第三クラウド・テクニカル・セールスの大吉雄一氏は、「NFV環境では、従来のようにSNMPでは情報が収集できないうえ、構造が複雑化してネットワークの状況把握も困難になる。ASMはAPI経由でNFV環境の情報を収集することでこの問題を解消する」と話す。

 ASMを使えば、従来の物理環境と仮想環境を一元的に統合監視することも可能だ。

 ネットワークのSDN/NFV化は「段階的にゆっくりと進行するため、物理・仮想環境が混在するハイブリッドな状態が長く続く。ASMは、運用管理において非常に重要な機能になる」と大吉氏。すでに通信事業者でもASMの検証が始まっており、今後、SDN/NFVの導入が加速するクラウド事業者や一般企業にも採用が広がりそうだ。

ホワイトペーパーダウンロード
ホワイトペーパーダウンロード 複雑化したハイブリッドIT環境管理の苦労を
最小に抑えるためのアプローチ教えます


クラウドやハイブリッドIT環境への変化で、新たな技術、抽象的なレイヤーが加わり、運用管理は複雑となり、負担が急増しています。当ホワイトペーパを通して、統合、自動化、アナリティクス(分析)を組み合わせたハイブリッドIT管理戦略と適切なアプローチをご紹介します。

ホワイトペーパーダウンロードはこちら
page top
お問い合わせ先
日本アイ・ビー・エム
TEL:0120-550-210(平日9時~17時)
E-mail:CLOUDEDM@jp.ibm.com
URL:ibm.com/jp