5 commentaires
ton expr elle est un peu à l'envers là. le="0.5" c'est le nombre de requêtes qui ont pris moins de 500ms. si tu veux la latence moyenne tu devrais plutôt utiliser un histogram_quantile avec rate sur les buckets pour estimer le p99 ou p90
ouais carrément ! pour un p90 sur 5 minutes qui dépasse 500ms tu ferais un truc du genre :
histogram_quantile(0.90, sum by (le, job) (rate(http_request_duration_seconds_bucket{job="my-backend"}[5m]))) > 0.5
et for: 2m c ptete trop long pour la détection rapide, essaye avec 1m ou même 30s si c'est vraiment critique
nickel. pense à valider ta règle dans prometheus ui avant de la pusher pour t'assurer que ça te sort les bonnes valeurs
Laisser une réponse
Vous devez être connecté pour poster un message !
salut la compagnie ! j'ai un souci avec une alerte prometheus. je veux être prévenu dès qu'un endpoint de mon backend dépasse 500ms de latence moyenne sur 5 minutes. j'ai cette règle mais l'alerte se déclenche genre 10 minutes après que le problème ait commencé
mon scrape interval est de 15s. qqn a déjà eu ça ?