問題
期待されるデータを時々収集するデバイスがありますが、グラフに一貫性のないギャップがあります。
これは通常、 ktranslate
コンテナとポーリングされたデバイスの間のネットワークで帯域幅の競合が発生している、パケットが失われている、または待ち時間が長いために、タイムアウト期間内にデバイスが SNMP 要求に確実に応答できない場合に発生します。
別のシナリオとして、デバイスが過負荷になり、SNMP 要求に迅速に応答できない可能性があります。これは通常、非常に大きなテーブルから OID を収集しようとすると、 poll_time_sec
が速すぎてデバイスが追いつかない場合に発生します。
解決
原則として、UDP SNMP ペイロードが送信されない可能性を減らすために、ポーリング コンテナーを監視対象デバイスのできるだけ近くに配置します。
待ち時間が長い WAN リンクを介してポーリングする必要がある場合は、 snmp-base.yaml
ファイルを編集して、 timeout_ms
をデフォルトの 5000 ミリ秒からより長い間隔に増やす必要がある場合があります。
リモート サイトへの接続が信頼できないと思われる場合は、デフォルトの 0 からretries
を増やすことを検討してください。再試行回数が多くても、タイムアウトが短すぎると、状況が改善されない可能性が高く、より多くの要求に応答しようとしていて、タイムアウトになる前にそれらのいずれも返されないため、監視対象のデバイスの負荷が増加する可能性があります。
ビジー状態のロード バランサーなどのデバイスから大きなテーブルのデータをポーリングしている場合、監視対象のデバイスが応答に必要なデータを収集するのにさらに時間がかかることがあります。これには、より長いtimeout_ms
期間の設定とpoll_time_sec
のより長い遅延の設定が必要になる場合があります。