大規模障害時のマインド
JPNAPユーザ会 (2007.10.02) で水越さんの大規模障害事例 (マインド編) の講演のメモ
大規模と書いてあるけど、障害の規模に関係なく、常に心においておいたほうが良いです。
-
- bug はあるものと思え...
- 机上では実装は分からない...
- 設計と検証は別チームで行う事が理想かも...
- bug はあるものと思え...
-
- 鉄則
- なにかあったら戻す
- ネットワークはマルコフ (=鶏頭) なので容易
- ただし、サーバは難しい
- 報告
- 報告は冷静を取り戻す作用がある
- 情報発信
- 報告を後回しにする傾向があるが、情報は現場にしかない
- 情報が回らないと、後々、大変な事になってしまう (不幸の連鎖が発生する)
- 現場の人は正確な情報だけを言いたがるが、拙速でも良い
- ただし、訂正は明確に行う必要がある
- 普段から関係者との path を整備しておく
- 周知
- なにをしたか、どんな作業をしたか、どんな変更をしたかの把握が必要
- なにかあったら戻す
- 鉄則
-
- 安全と安心
- 電力会社 : 安全 -> 復旧を最優先
- 地域住民 : 安心 -> 現状報告がほしい
- 安全と安心
-
- やってはいけない事...
- 感情の逆撫で
- 根拠も無いのに、作業ミスと言うなど...
- 何か隠していると疑ってみたり...
- 怒ると叱る
- 怒る : 個人的、感情的
- 叱る : 組織的、理性的
- 感情の逆撫で
- やってはいけない事...
-
- ついていると思う考え方
- 首都圏が down をしなくて良かった
- もし、全国が down していたら...
- 平日の夕方で良かった
- もし、休日だったら...
- 時限爆弾が原因ではなくて良かった
- もし、戻しが有効ではなかったら...
- 対処策があって良かった
- 首都圏が down をしなくて良かった
- ついていると思う考え方
-
- 貞観政要
- 創業と守成とどちらも難しい
- 貞観政要
-
- それぞれの役割の関係
- Operation (art/craftsmanship) と Research (science) は OR (operations research) で繋がる
- Research (science) と Development (engineering) は R&D で繋がる
- Operation (art/craftsmanship) と Development (engineering) を繋げるのは何?
- それぞれの役割の関係