時間が経つにつれて、アラートの数は増加します。これは、正しく管理されないと組織に問題を引き起こす可能性があります。さらに、アラートはシステムを改善するために使用できる重要な情報を提供します。その情報を活用しなければ、アラートの可能性を最大限に活用することはできません。
以下のプロセスに従うことで、アラート疲れなどを防ぐためにアラートの品質を管理する方法や、 を使用してデータを収集し、組織にプラスの影響を与える方法を知ることができます。
/ <img title="AQM dashboard" alt="A screenshot displaying a view of an AQM dashboard in New Relic" src="/images/alerts_screenshot-crop_AQM-dash.webp" /> /
アラートを最適化する
不必要なアラートを減らすと、受信するアラートが最も関連性の高いアラートになるようになります。それを簡単にするために、アラート品質管理ダッシュボードを作成しました。基本的に、ダッシュボードをインストールし、情報を収集し、収集した情報に基づいて変更を加えます。アラートから望む結果をより簡単に得ることができるように、このプロセスの各ステップの概要を説明しました。

アラートの最適化を開始するには、次のことを行う必要があります。
AQMダッシュボードのインストール
- Alert Quality Managementインスタント オブザーバビリティ ページに移動します。
- Install nowをクリックします。
- ダッシュボードをインストールするアカウントを選択します。
- ダッシュボードを表示します。
KPIを分析する
ダッシュボードは、次の 4 つの KPI (主要業績評価指標) を使用して業績を理解するのに役立ちます。
Alert event count: イベント数の多いアラート
Accumulated alert event time: 累積継続時間が長いアラート
Mean time to close:集中イベントが終了するまでにかかる時間
Percent under 5 minutes:5分以内にオープンした人気イベントの量
ダッシュボードのAlerting Count by Policyペインは、これらのアラート ポリシーを特定し、関連するパターンを判断するのに役立ちます。
ベースラインを確立する
AQM ダッシュボードには、改善プロセスを開始するために使用できる KPI のベースラインが表示されます。あなた (およびチームのメンバー全員) は、前のステップで最もアクティブなポリシーを確認して、アラート ノイズを減らすことができます。データが何を示しているか、そしてそれらをどのように修正できるかについて、次のような質問を自問してください。
アラートは、修正が必要なリソースについて何かを伝えていますか?その場合は、問題を修正し、アラートの音量が減少するかどうかを確認します。
アラートは、実際に即時の対応が必要なことを示していますか?そうでない場合は、ポリシーを調整または無効にします。
ポリシーのしきい値は適切に設定されていますか?そうでない場合は、しきい値の調整を検討してください。
ベースラインを確立した後は、次のガイドラインに従って集中イベントに対処する必要があります。
- アラートを見て、さらに調査を行うことを決めた場合は、アラートを確認してください。
- 通常、他に何もせずにアラートを閉じる場合は、アラートを承認しないでください。
- 人気イベントが常にオンになっている場合は、閉じたり承認したりしないでください。
データを収集する
ダッシュボードからの集計データの蓄積には時間がかかります。 このデータを収集するには少なくとも 2 週間待つ必要がありますが、アラートの集中イベント対応者が前のステップで概説したガイドラインに従っていることを定期的に確認してください。
データをベースラインと照合して確認する
2 週間後、分析に十分なデータが得られ、アラート改善プロセスを開始できるはずです。アラート データを使用してシステムを改善するには、次の手順に従います。
- KPI の前週比の傾向を分析します。修正する必要がある可能性のある領域を見つけて、それらを改善する方法を見つけ始めることができます。
- データを使用して、アラートの現在の品質をマッピングします。改善がビジネスにプラスの影響を与えた領域と、問題がマイナスの結果をもたらした領域を特定できます。
- ダッシュボードを使用して、最も騒がしいイベント ポリシーを特定します。
- 前のステップで特定したポリシーを確認します。ポリシーごとに、アラートが関連しているかどうか、適切に構成されているかどうか、対処する必要がある問題についてアラートが何を示しているかを判断してください。
- 検討したポリシーを改善するために取り組むことができる領域を特定します。これは技術的な分析である必要があり、アラートをトリガーするシステムの問題を修正する方法、改善が必要なポリシーを調整する方法、またはインストルメンテーションのギャップを修正する方法に関する推奨事項で終わる必要があります。
上記の手順を完了すると、アラートを使用してシステムを改善し、組織にプラスの影響を与える準備が整います。ただし、これはほんの始まりにすぎません。アラートを使用する可能性は、ここで説明したものよりもはるかに多くあります。アラートの品質と KPI の詳細については、 アラートの品質管理に関するドキュメントを参照してください。