New Relic の統合には、 Microsoft Azure Machine Learning メトリクスおよびその他のデータを New Relic にレポートするための統合が含まれます。このドキュメントでは、統合をアクティブ化する方法と、報告されるデータについて説明します。
特徴
New Relic は、Azure Machine Learning サービスのメトリック データを Azure Monitor から収集します。Azure Machine Learning は、機械学習プロジェクトのライフサイクルを加速および管理するためのクラウド サービスです。機械学習の専門家、データ サイエンティスト、エンジニアは、日常のワークフローでこれを使用して、モデルのトレーニングとデプロイ、または MLOps の管理を行うことができます。
New Relicを使うと、以下のことができます。
- 事前に構築されたダッシュボードで Azure Machine Learning メトリックを表示します。
- カスタムクエリを実行し、データを視覚化します。
- データの変化を通知するアラート条件を作成します。
統合をアクティブ化する
標準の Azure Monitor 統合手順 に従って、New Relic インフラストラクチャの監視で Azure サービスを有効にします。
構成とポーリング
構成オプションを使用して、ポーリング頻度を変更し、データをフィルタリングできます。
New Relic は、既定の ポーリング 間隔に従って、Azure Monitor 統合を通じて Azure Machine Learning サービスにクエリを実行します。
データを見つけて使用する
インテグレーションデータを調べるには、 one.newrelic.com/infra > Azure > (select an integration)にアクセスしてください。
メトリックデータ
この統合により、次の メトリック データが収集されます。
Azure Machine Learning メトリクス
ワークスペース
次の表に、 Microsoft.MachineLearningServices/workspaces
リソース タイプで使用できるメトリクスを示します。
メトリック | 説明 |
---|---|
| アクティブコアの数 |
| アクティブなノードの数。これらは、ジョブをアクティブに実行しているノードです。 |
| このワークスペースに対してキャンセルが要求された実行の数。 |
| このワークスペースでキャンセルされた実行の数。 |
| このワークスペースで正常に完了した実行の数。 |
| CPU ノードの最大容量 (ミリコア単位)。 |
| CPU ノードの最大メモリ使用率 (メガバイト単位)。 |
| CPU ノードのメモリ使用率 (メガバイト単位)。 |
| CPU ノードのメモリ使用率。 |
| CPU ノードの使用率 |
| ミリコア単位のCPUノードの使用率 |
| CPU ノードの使用率。 |
| 利用可能なディスク容量 (メガバイト単位)。 |
| ディスクから読み取られたデータ (メガバイト単位) |
| 使用済みディスク容量 (メガバイト単位) |
| ディスクに書き込まれるデータ (メガバイト単位) |
| このワークスペースの実行エラーの数 |
| このワークスペースで失敗したランの数 |
| ディスクから読み取られたデータ (メガバイト単位) |
| GPU デバイスの最大容量 (ミリ GPU) |
| GPU ノード上の間隔エネルギー (ジュール) |
| GPU デバイスの最大メモリ容量 (メガバイト単位)。 |
| GPU ノード上のメモリ使用率のパーセンテージ。 |
| GPU デバイスのメモリ使用率 (メガバイト単位) |
| GPU デバイスのメモリ使用率 |
| GPU ノードの使用率 |
| ミリGPUでのGPUデバイスの利用 |
| GPUデバイスの使用率 |
| InfiniBand 経由で受信したネットワーク データ (メガバイト単位) |
| InfiniBand 経由で送信されるネットワーク データ (メガバイト単位) |
| アイドルコアの数 |
| アイドル状態のノードの数 |
| 残すコア数 |
| 離脱ノード数 |
| このワークスペースで失敗したモデルのデプロイメントの数 |
| このワークスペースで開始されたモデル・デプロイメントの数 |
| このワークスペースで成功したモデルのデプロイメントの数 |
| このワークスペースで失敗したモデル登録の数 |
| このワークスペースで成功したモデル登録の数 |
| 受信したネットワーク データ (メガバイト単位)。メトリクスは 1 分間隔で集計されます |
| メガバイト単位で送信されるネットワーク データ。メトリクスは 1 分間隔で集計されます。 |
| このワークスペースで応答しない実行の数。 |
| このワークスペースの「未開始」状態の実行数 |
| プリエンプトされたコアの数 |
| プリエンプトされたノードの数 |
| このワークスペースを準備している実行の数。 |
| このワークスペースにプロビジョニングされている実行の数。 |
| このワークスペースのキューに入れられた実行の数 |
| 割当量の利用率 |
| このワークスペースで実行されている実行の数 |
| このワークスペースで開始されたランの数 |
| Azure Blob Storage API 呼び出しの失敗数。 |
| Azure Blob Storage API 呼び出しの成功数。 |
| 総コア数 |
| 総ノード数 |
| 使えないコアの数 |
| 使用できないノードの数 |
| このワークスペースの実行警告の数 |
次の表に、 Microsoft.MachineLearningServices/workspaces/onlineEndpoints/deployments
リソース タイプで使用できるメトリクスを示します。
メトリック | 説明 |
---|---|
| インスタンスのメモリ使用率のパーセンテージ |
| インスタンスの CPU 使用率のパーセンテージ |
| 1 分あたりにドロップされたデータ収集イベントの数 |
| 1 分あたりに処理されるデータ収集イベントの数。 |
| デプロイメント内のインスタンスの数 |
| インスタンス上のディスク使用率の割合 |
| GPU ノード上の間隔エネルギー (ジュール) |
| インスタンス上の GPU メモリ使用率の割合 |
| インスタンスの GPU 使用率のパーセンテージ。 |
| 平均 P50 リクエスト レイテンシ |
| 平均 P90 リクエスト レイテンシ |
| 平均 P95 リクエスト レイテンシ |
| 平均 P99 リクエスト レイテンシ |
| 1 分以内にオンライン展開に送信されたリクエストの数 |
次の表に、 Microsoft.MachineLearningServices/workspaces/onlineEndpoints
リソース タイプで使用できるメトリクスを示します。
メトリック | 説明 |
---|---|
| クライアントからアクティブな同時 TCP 接続の合計数 |
| 1 分あたりにドロップされたデータ収集イベントの数 |
| 1 分あたりに処理されるデータ収集イベントの数 |
| エンドポイントに提供される 1 秒あたりのバイト数 |
| クライアントから確立される 1 秒あたりの新しい TCP 接続の平均数 |
| リクエストが応答されるまでにかかった平均時間間隔(ミリ秒) |
| 選択した期間にわたって収集されたすべてのリクエスト レイテンシ値によって集計された平均 P50 リクエスト レイテンシ |
| 選択した期間にわたって収集されたすべてのリクエスト レイテンシー値によって集計された平均 P90 リクエスト レイテンシー |
| 選択した期間にわたって収集されたすべてのリクエスト レイテンシー値によって集計された平均 P95 リクエスト レイテンシー |
| 選択した期間にわたって収集されたすべてのリクエスト レイテンシー値によって集計された平均 P99 リクエスト レイテンシー |
| 1 分以内にオンライン エンドポイントに送信されたリクエストの数 |