データベースサーバー障害の報告4/22

特定のサーバーにおいてデータベース接続障害が発生しておりましたので報告いたします。

概要

特定のサーバー内のデータベース接続を必要とする特定システムにおいて次の期間、障害が発生していました。現在はすでに復旧しております。

発生日時

2012.04.21 20:32

復旧日時

2012.04.21 05:37

原因・現象

  1. アクセス過多によるデータベース整合性の欠如が発生し、特定のシステムに限り正常に動作しない障害が発生
  2. サーバー全体におけるダウンを防ぐシステムが動作し、これにかかる処理を自動停止
  3. これにより、外部からは混雑またはシステムによるサービス断コードが返送、表示される
    (ただし、この表示は整形されたわかりやすいものではなく、サーバーデフォルト(英文)が表示)

影響範囲

  • 1サイト内の1システム(サイト内の一部で使用)

発覚遅延と復旧および経緯

  • 問題が発生したのは特定システムであり、サイト全体では正常に動作していたため、サイト全体を監視するシステムでは正常と判断され、発覚が遅れた
  • 発覚後直ちにデータベース整合性を修復し、復旧した
  • 現在は問題なく動作しているが、外部サイトからのトラフィックおよびこれによる負荷が依然高い状態であるため、しばらく重要監視にリスト
  • 様子を見てトラフィック抑制または遮断等の追加対策が必要かを判断

付加情報

当該サーバーは、次の日時に過負荷による瞬断等が確認されており、すでに監視強化が行われています。

  • 2012.04.19 23:06:37 – 23:16:37
  • 2012.04.21 18:16:46 – 18:36:37

(注:上記は監視システムが注意警告を出してから正常判断までの時間であり、サービス断をあらわすものではありません)

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です