KDDI、iOS端末メール障害の原因はサーバー作業ミスと発表

4月16~19日にかけて発生したKDDIのiOS端末におけるメール障害。その原因は、メールサービスの機能追加作業時における(1)手順書記載ミスによるコマンド誤り、(2)障害発生時の対策準備不足、(3)メールBOXサーバ再起動手順の考慮不足の3点にあった。

KDDIは2013年4月25日、au携帯電話サービスに加入しているiOS端末(iPhone/iPad/iPad mini)において4月16~19日にかけて発生したメール障害に関する説明会を開いた。登壇した取締役執行役員専務 技術統括本部長の嶋谷吉治氏は、今回の通信障害の原因は、「Eメールリアルタイム送受信システムへ新機能を追加するための作業時に、3つの問題が発生したこと」であると説明した。

メールサービスのバージョンアップ作業中に障害が発生した

障害発生の経過は次の通り。まず、16日未明に作業手順のミスにより現行プロキシサーバーにて認証エラーが発生し、最大で200人のユーザーがメールを利用できなくなった。その後、現行プロキシサーバー等の参照先を正常なユーザー認証サーバーへ切り替えるなどして認証エラーを解消するものの、ここでタイムアウトエラーが発生し、現行設備への切戻しを決定。しかし、作業中に新ユーザー認証サーバーの片系がハードウェア障害でダウンしてしまい、しばらくして残る片系も過負荷によりダウン。結果として、16日8時8分~13時29分にかけて最大288万人のユーザーがメール送受信をできない状況に陥った。

メールBOXサーバーを再起動することで復旧を果たすが、再起動の手順上の問題および中継サーバーに滞留した受信メールが原因となり、62台あるうちの24台のサーバーは高負荷状態が継続。ユーザーからのアクセス急増も相まって、今度は最大127万人がメール送受信が利用しづらい状況になってしまった。メールBOXサーバーへの流量のコントロール等によりサーバーの高負荷状態を解消し、障害から完全に復旧したのは4月19日2時54分のことだった。

今回のメール障害は、全国で最大288万人に影響をおよぼした

KDDIでは障害の原因を(1)手順書記載ミスによるコマンド誤り(事前検証試験不足)、(2)ハードウェア障害および二重障害時の対策準備不足、(3)メールBOXサーバー再起動手順の考慮不足と分析。約3億円の設備投資も検討しており、再発防止に取り組むという。

なお、iOSユーザーの急増に設備が追いついていないのではないかという記者からの質問に対し、島谷氏は「作業中にバックアップを確保しきれなかったことが問題であり、ユーザー数の増加は直接の原因ではない」という認識を示した。

関連リンク

RELATED ARTICLE関連記事

SPECIAL TOPICスペシャルトピック

スペシャルトピック一覧

NEW ARTICLES新着記事

記事一覧

FEATURE特集

WHITE PAPERホワイトペーパー

ホワイトペーパー一覧
×
無料会員登録

無料会員登録をすると、本サイトのすべての記事を閲覧いただけます。
また、最新記事やイベント・セミナーの情報など、ビジネスに役立つ情報を掲載したメールマガジンをお届けいたします。