障害管理とは
コンピュータシステムにおいて障害とは、コンピュータシステムそのものが期待した機能、性能を発揮できない状態を指します。
障害管理とは、発生した障害を復旧させるために原因を追求し、対応策を検討・実施し、今後同様の障害が発生しないような再発防止策を検討するといった一連の対応を滞りなく進めていくために管理することを言います。
障害管理では、障害が発生している対象にフォーカスがあたります。
インシデント管理とは
「インシデント」とはユーザーが期待するオペレーションやサービスが実行不可能な状態を指します。システム障害に限らず、サービスの低下あるいは提供できないような状態(プリンタの紙詰まりや紙切れ)も含みます。
「インシデント」を解消し、サービス復旧に向けて状態を管理することをインシデント管理と呼びます。障害管理とは異なり、上記のインシデント対応では障害が復旧しなくても、ユーザーが期待するサービスを復旧させます。
インシデント管理について
障害管理と異なり、インシデント管理で優先すべき事項はユーザーに対する提供サービスの復旧となります。従って管理すべき内容も原因追及や障害原因の除去ステイタスではなく、ユーザーに対し提供できるサービス内容や対応目途といった内容になります。
根本対応よりもいかに滞りなくスピーディにユーザーにサービスが提供できるかといった点をトレース、分析、管理する必要があります。
1:インシデント管理の特徴
障害管理と比較してインシデント管理は次の特徴が存在します。
インシデント管理は根本解決よりもユーザーサービス復旧を優先します。スピード感を持った対応が必要となり、次々と担当者をアサインする必要がありますし、対応が滞っているインシデントを漏れなく抽出しエスカレーションする必要があります。
また、利用者の視点に立った対応も必要となり、サービス復旧目途の提示は必須です。復旧目途の時間は、過去の経験が活用できます。
2:インシデント管理の具体的な例
プリンタに出力要求を出したのに、印刷されないというユーザー照会を例に、プリンタ障害としての障害管理と「印刷されない」というインシデントに対するインシデント管理を障害管理と比較しながら具体的に確認します。
従来の障害管理
従来の障害管理では、障害発生時には障害原因を探るために障害部位を探し出し、障害復旧のために障害原因を取り除き、再発防止策を検討し障害発生率を抑えるというフローが存在します。
障害管理では障害となっている対象が中心であり、その障害発生により利用ユーザーにどのような影響があるかという視点は薄くなります。ユーザー視点でのサービス復旧については別視点で管理、コントロールする必要があります。
インシデント管理
インシデント管理では、ユーザーに対するサービス復旧が求められます。優先順位としてはユーザーの求めるサービスが復旧できれば根本解決は問われません。
資料が印刷できないとしても、プロジェクタを準備することでプレゼンは遂行できます。紙切れで印刷できないとき紙調達に時間がかかるのであれば、プリンタ横に紙ボックスと交換マニュアルを設置することでユーザー目的は達成できます。
3:インシデント管理者に求められること
インシデント管理に求められていることがユーザーに対するサービス復旧ということであれば、その管理者に求められる責任、役割、スキルについても障害管理とは別の事項が求められます。
障害管理においては障害箇所の特定、障害復旧に際して必要な対応事項に関する知識、スキルが求められます。また被疑箇所の交換やプログラムの修正などシステムの停止や変更といった強力な権限を求められるシーンも登場します。
責任
ユーザーに対するサービス復旧が優先事項ですので、障害管理とは異なりインシデント管理者には障害箇所の特定責任はありません。管理者は発生しているインシデントに対し、サービス復旧として選択できる手段や、ユーザー目的や優先順位に合致している手段を提示します。
影響先が少数に限定されるか多数ユーザーとなるかにより対応方法は変わってきます。インシデント管理者は影響を見極め適切な対応を判断する責任を負っています。
役割
ユーザーに対するサービス復旧が優先事項であるとすると、インシデント対応策の提示、判断はインシデント管理者の当然の役割です。またインシデントの解消目途や現在の対応状況を伝えることも役割に含まれます。
障害管理においては根本原因を除去し再発防止の責任があります。インシデント管理ではユーザーは対応目途を把握し、手元作業の優先順位を変更したり、待ち続けたりするという状態を回避することができます。
スキル
障害対応の場合は機器そのものあるいはソフトウェア、アプリケーションの構造に精通し障害復旧するスキルが必要となります。インシデント管理ではサービス復旧するにあたり対応可能な代替策を考えるスキル、発想するスキルが求められます。
多種多様なユーザー要望に対応するためには広範な業務知識とシステム構成やユーザー環境を熟知したシステム知識・環境知識の両方が必要となります。
あなたの会社に仕事の生産性をあげる「働き方改革」を起こしませんか?
名刺が多すぎて管理できない…社員が個人で管理していて有効活用ができていない…そんな悩みは「連絡とれるくん」で解決しましょう!まずはこちらからお気軽に資料請求してみてください。
インシデント管理ツール5選
大量のインシデントを漏れなく効率よく対応し、対応済結果を分析してインシデント対応のレベルアップを図っていくためにもインシデントを管理するインシデント管理ツールが重要になります。
インシデント管理ツールの主な機能はインシデントに対応したチケットの発行と、個別ステイタスのステイタス管理、そして対応したインシデントのナレッジ活用です。
障害管理も同時に管理できるツールも含め5つのツールを確認します。
1:RSA Archer GRC Platform
RSA Archer GRC PlatformはRSAブランドの統合リスク管理ツールです。この中にインシデント管理コンポーネントである「RSA Archer Incident Management」が含まれています。
インシデント発生毎にチケットを発行し、担当者をアサインします。チケットにはカテゴリや重要度が記録でき、管理者はレポート機能で個々のインシデントの全体状況を確認することができます。
2:LMIS on cloud
ユニリタが提供するクラウド型インシデント管理ツールはサービスデスク、ヘルプデスク業務で培った照会対応管理をインシデント管理へ昇華させたサービスです。インシデント管理のプロセスをあらかじめ組み込んでいるためプロセスに則った運用設計が可能です。
サービスポータル機能と連携できるため、ユーザー登録によるWebベース照会受け付け・対応が可能です。
3:JIRA
Atlassian社が提供するJIRA Softwareはもともとチームでのソフトウェア開発管理の支援ツールです。現在ではいろいろなオプション、テンプレートを組み合わせる情報管理プラットフォームです。
障害管理テンプレートを組み合わせることで、インシデント管理ツールとして利用可能となります。これでインシデント発生時のチケット発行から管理者によるレポート確認、蓄積した対応のナレッジ活用が可能となります。
4:Redmine
Redmineはもともとオープンソースのプロジェクト管理用ソフトウェアでした。チケット管理を得意としていることから、インシデント管理にも親和性の高い製品となっています。
Redmineではインシデント管理としてプロジェクトを立ち上げることで利用可能となります。インシデント発生毎にチケットを発行するだけではなく、関連イベントを子チケットとして管理できるなどインシデント管理に必要な機能を網羅しています。
5:ServiceNow
ServiceNow社のServiceNowはワークフロー機能を中心とした業務改革ツールです。ServiceNowにもステータスモデルというテンプレート機能を導入することでチケット管理を起点としたインシデント管理が可能となります。
対応毎にステイタスを進めていき、必要であればエスカレーションなどを組み合わせてスタイタスを管理します。全般的な対応状況はダッシュボードで確認することが可能です。
インシデント管理はユーザー志向の障害管理
インシデント管理は、ユーザーが期待するサービスレベルから低下した事態を適切に把握・管理しサービス復旧に向け管理していくツールです。ここで最も大切な点はユーザー観点で対応を進めていく必要があるという点です。
インシデント管理を効率的かつ漏れずに進めるために組織に合ったインシデント管理様式をさだめ、障害管理とは別の視点で適切にインシデントを管理していきましょう。