すいまの日記

社会人5年目。

GW まとめ

GWで読んだ本で今後参考になりそうな部分の抜粋

 

システム障害対応の教科書

システム障害対応の教科書

  • 作者:木村 誠明
  • 発売日: 2020/03/21
  • メディア: 単行本(ソフトカバー)
 

 P.30

システムを直す≠障害対応

システム障害対応の目的は、システムを直すことではない。
ユーザーの業務影響を極小化し、早期に業務を復旧させること。
これがシステム障害対応の目的である。システムを直すことは業務回復の手段の一つであり、目的ではないのである。

たとえば、運悪くシステムの状態が回復しないときに、ユーザ側に「システムを使わずに手動で業務を継続してもらう」といったことも、システム障害対応に含まれる。

 

P.31

イベント障害関連に関連するプロセス

  1. イベントの確認
    システムエラーやユーザからの申告
  2. 検知・事象の確認
    システムが本来の機能を果たせていない可能性を検知した時点で、障害対応を開始する。
  3. 業務影響調査
    システム障害によってユーザーにどんな影響が出ているか調査する。
  4. 原因調査
    システム障害を引き起こしている部位を特定する。なぜそのような状態に至ったかを調査する。
  5. 復旧対応
    業務を回復するための手段を実施する。
  6. 本格(恒久)対策
    5が暫定的な手段であった場合、本格的な対策を行う(修正版のアプリケーションをリリースする。)
  7. 障害分析・再発防止策
    システム障害の類似調査や根本原因を分析し、再発防止を行う。

P.55

障害の発生と終息の宣言

障害対応を完了した際は終息を宣言し、障害対応チームを解散する。

 

P.67

ユーザ担当

  1. 業務用語とシステム用語の翻訳
  2. ユーザ部門とシステム部門の調整
    あるときはシステム側の、あるときはユーザ部門の代表として調整を行う。
    特に復旧対応のシーンにおいては、システム的な回避策と業務的な回避策の両面から対策を検討する必要があり、両方の対策がどこまで対応可能なのかを調整する役割を担う。
    また、システム担当は復旧させるべき業務の優先度を知らないことも多いため、ユーザ部門に確認をする。ユーザ担当は、システムとユーザ業務のどちらにもある程度精通している必要がある。