障害電話受け1番になった時に使える三つの心得
これは何
システムに障害が起こった時に電話が一番にかかってくるようになった人のための心得。具体的な障害対応手順ではなくて、元気にSREエンジニアとして生き残っていくための心得。
心得
1. 本当の優先事項は何かを考える
仕事の電話がかかってきた。(仮に)今は奥さんの誕生日食事会の途中だ。さあ電話に出て対応をするか? そういう時には対応をしてはいけません。他の人に任せましょう。ほっておけば2番目の人が電話を受けてくれます。 人生で重要なことの優先順位をつけましょう。電話がかかってきたら必ず仕事、なんてことはやってはいけません。そういう風に考えていると24時間いつでもかかってくる電話を所持していると精神が持ちません。気をつけましょう。 エンジニアとしても人としても長生きしましょう。 (補足:待機人員として拘束時間になっているならちゃんと出ましょう。しかし特に決まりもなく電話を持たされている場合には法的には何も拘束力がないと理解しています)
2. 最初にやることを意識する
まずは他の人も呼びましょう。 あまりにも軽微な障害なら一人で対応しても良いですが、すぐに問題原因が特定できない可能性があるもの、影響範囲が狭くないものの場合にはチームメンバーが気がつけるようにSlackで@channelしましょう。躊躇なく。 その目的としては以下のような人員を増やす目的があります
- 問題原因特定のための人員
- 原因特定後、手作業が発生した時に対応する手として
- 影響システムや社内一次報告、関係会社などに連絡する連絡人員として
- SREの知見は少なくてもユーザ目線で障害発生や復旧を確認できる動作確認人員として
なんにせよチームメンバならやれることはあるはずなので人を集めましょう。 上にはいろいろ理由は書きましたが、一人で対応するとテンパったりミスをしたりするのでオブザーバでもいてもらった方が良いです。
3. 障害対応は実況しよう
やったことは生のコンソールログを含めてSlackに貼っておこう。他のチームの状況なども可能なかぎり一つのチャンネルに集める。これの目的は以下のもの
- 途中から対応に参加した人が状況を把握できる
- 手分けして対応をしている場合に他の人の状況が把握できる
- ミスや考え違いをしていたら他の人が気がつくことができる
- 振り返りに使うことができる(後で見て情報ないと本当に困るので、やってみると効力がわかるはず)
実際にやったことだけでなく、障害原因の予想や、対応方針、ふわっとした違和感なども投げましょう。少しでも情報を表に出してみんなで考えることが大切です。書くことで自分の考えも整理されます。
終わりに
これらは電話をもらって頑張って死にそうになっている同期や後輩を見て考えたことです。
長生きしましょう。 ストレスためすぎているなと思ったら電話をおいて海にでも出かけるのも良いです。この投稿で言いたいことはこれがほとんで全てです。