チームがあまりにも多くのアラートや誤報を受け取ると、アラート疲れが発生し始めます。 どちらかの要因が増加すると、その疲労は深刻な悪影響を及ぼし始めます。圧倒的なイベントの対応担当者は誤ったアラートに慣れており、より深刻な問題ではなく、すぐに解決するのが簡単な問題を優先します。 さらに悪いことに、応答期限内にとどまるために、未解決のまとめイベントを単純に閉じ始めてしまうことがよくあります。 これは、集中イベントの応答時間や重大な停止の発生が増加する一方で、実際のアラートが騒音の中に紛れてしまうことを意味します。
アラート疲れを解消し、将来的に発生しないようにするには、アラートの品質を向上させる必要があります。個別品質管理 (AQM) のポリシーを採用すると、迷惑なイベントの数を減らすことに重点が置かれ、ビジネスに真の影響を与えるのみに焦点を当てることができます。 これにより、アラート疲労が軽減され、あなたとあなたのチームが適切なタイミングで適切な場所に注意を集中できるようになります。
次の場合、あなたはAQMの有力候補です。
- アラートの数が多すぎます。
- 長時間開いたままのアラートがある。
- 関連性のないアラートがたくさんあります。
- モニタリングツールが発見する前に、お客様が問題を発見する。
ヒント
アカウントにこれを実装する前に、実践的な学習アプローチを試してみませんか?一括品質管理コースをご覧ください。
アラート品質管理を使用する理由は何ですか?
数回の品質管理に基づいたプラクティスを採用すると、応答時間が短縮され、重要なイベントに対する認識が高まります。 集計の信号対雑音比が向上すると、混乱が軽減され、問題の根本原因を迅速に特定して切り分けることができるようになります。 目標は、より価値の低いアラートを削減しながら、より価値のある集中イベントがいつ発生するかを識別する簡単な方法を作成することです。 結果は次のようになります:
- 稼働時間と可用性の向上。
- 平均解決時間 (MTTR) の短縮。
- アラートの音量が減少しました。
- 価値のないアラートを簡単に識別できるので、価値のあるものにするか、削除することができます。
重要業績評価指標の使用
適切な主要パフォーマンス指標 (KPI) を使用すると、最もノイズが多く価値の低いアラートを見つけて、その価値を向上させたり削除したりすることができます。 AQM プロセスを使用して、イベントの量とエンゲージメント KPI を収集および測定し、それらを使用して傾向を特定し、深刻な問題を引き起こす問題を修正します。 以下に、すべての KPI に関する情報と、 New Relic UIのどこからでも監視できるようにするための各 KPI のNRQL書き込みを示します。
まとめイベントボリューム
大量イベント(アラートの有無にかかわらず)をタスクのキューのように扱う必要があります。 キューと同様に、アラートの数は常に可能な限りゼロに近くする必要があります。集中イベントごとに、状態を解決するための調査または是正措置を開始する必要があります。 集計が何らかのアクションをもたらさない場合は、アラート条件の価値を疑う必要があります。
特に、特定の集計 イベントが頻繁にトリガーされる場合は、常に意味のある影響がある状態なのか、それとも単にノイズが多いだけなのかを疑問視する必要があります。 まとめイベントのボリューム KPI は、これらの質問に答え、高品質のアラートの健全な状態に向けた進捗状況を測定するのに役立ちます。
ユーザーエンゲージメント
人気イベントの価値は、それが受ける注目の量によって測るべきです。 個人が受け取るエンゲージメントの量は、その価値を直接測る指標です。 エンゲージメントが高いほど集計は有益である一方、エンゲージメントが低い(またはゼロ)場合は集計がノイズになる可能性があり、変更するか無効にする必要があることを意味します。
イベントの意識が高まった瞬間を測定することと、解決活動がいつ始まるかを認識することの間には大きな違いがあります。 New Relicアラートとの統合を使用している場合は、まとめイベントが外部の大量イベント管理ツールに送信されたときではなく、解決アクティビティの開始時にNew Relicに送信されたAcknowledgeイベントがトリガーされるようにしてください。
次は何ですか?
前のドキュメントの AQM プロセスを実装すると、信頼性と安定性を維持しながら、アラートの量が大幅に削減されることがわかります。上記のベスト プラクティスに従う場合、AQM KPI はこれらの改善に関する正確な情報を提供します。
AQM の実装が完了したら、次のようなプラットフォームの他の側面の改善と管理を検討することもできます。