大規模障害時のマインド

JPNAPユーザ会 (2007.10.02) で水越さんの大規模障害事例 (マインド編) の講演のメモ


大規模と書いてあるけど、障害の規模に関係なく、常に心においておいたほうが良いです。



    • bug はあるものと思え...
      • 机上では実装は分からない...
      • 設計と検証は別チームで行う事が理想かも...
    • 鉄則
      • なにかあったら戻す
        • ネットワークはマルコフ (=鶏頭) なので容易
        • ただし、サーバは難しい
      • 報告
        • 報告は冷静を取り戻す作用がある
      • 情報発信
        • 報告を後回しにする傾向があるが、情報は現場にしかない
        • 情報が回らないと、後々、大変な事になってしまう (不幸の連鎖が発生する)
        • 現場の人は正確な情報だけを言いたがるが、拙速でも良い
          • ただし、訂正は明確に行う必要がある
        • 普段から関係者との path を整備しておく
      • 周知
        • なにをしたか、どんな作業をしたか、どんな変更をしたかの把握が必要
    • 安全と安心
      • 電力会社 : 安全 -> 復旧を最優先
      • 地域住民 : 安心 -> 現状報告がほしい
    • やってはいけない事...
      • 感情の逆撫で
        • 根拠も無いのに、作業ミスと言うなど...
        • 何か隠していると疑ってみたり...
      • 怒ると叱る
        • 怒る : 個人的、感情的
        • 叱る : 組織的、理性的
    • ついていると思う考え方
      • 首都圏が down をしなくて良かった
        • もし、全国が down していたら...
      • 平日の夕方で良かった
        • もし、休日だったら...
      • 時限爆弾が原因ではなくて良かった
        • もし、戻しが有効ではなかったら...
      • 対処策があって良かった
    • それぞれの役割の関係
      • Operation (art/craftsmanship) と Research (science) は OR (operations research) で繋がる
      • Research (science) と Development (engineering) は R&D で繋がる
      • Operation (art/craftsmanship) と Development (engineering) を繋げるのは何?