Alerte Prometheus qui spamme à cause d'une métrique flakey

Question

Salut. J'ai une alerte prometheus qui devient folle. Elle est censée me prévenir quand un de nos services est en mode dégradé (mettons moins de 90% de succès sur les requêtes). Le problème c'est que parfois pour des petits pics de trafic ça descend à 85% pendant 30s puis ça remonte à 99%. Du coup l'alerte se déclenche et s'arrête en boucle ça spamme à mort

# règle d'alerte simplifiée
- alert: ServiceDegrade
  expr: (sum(rate(http_requests_total{job="my-service",status="2xx"}[5m])) / sum(rate(http_requests_total{job="my-service"}[5m]))) * 100 < 90
  for: 5m
  labels:
    severity: critical
  annotations:
    summary: "Service MY-SERVICE a un taux de succès trop bas"

michelle58 · Answer

salut. le paramètre for: 5m est déjà là c bien. mais ton problème c que même sur 5m ça peut fluctuer. essaie de lisser un peu plus ta métrique. tu peux utiliser avg_over_time sur une période plus longue ou augmenter le for

laurent-gerard · Answer

j'avais pensé à augmenter le for mais 5min c'est déjà pas mal pour un service dégradé. si j'augmente à 10 ou 15min on va louper des trucs. avg_over_time c'est pour la moyenne sur une période c'est ça ?

nicole46 · Answer

oui exactement. tu peux faire quelque chose comme avg_over_time(sum(rate(http_requests_total{...status="2xx"}[1m]))[15m:1m]) par exemple. ça te donne une moyenne mobile sur 15 minutes des taux de succès calculés sur 1 minute. ça va bien lisser les spikes

laurent-gerard · Answer

ah ok je vois le truc. donc je calcule ma métrique toutes les minutes et j'en fais une moyenne sur les 15 dernières minutes. ça paraît plus robuste en effet. le for: 5m reste bien après ça ?

michelle58 · Answer

le for 5m oui ça reste bon. ça veut dire que même avec la moyenne lissée, il faut que le problème persiste 5 minutes avant de déclencher l'alerte. ça ajoute une couche de persistance

laurent-gerard · Answer

d'acc je vais tester ça je change l'expr. ça me parait bien plus solide pour éviter le flapping d'alertes. thx les gars

nicole46 · Answer

pense aussi au threshold des fois il faut le monter un peu si c'est trop sensible. genre 88% au lieu de 90% pour être sûr que c'est un vrai souci

laurent-gerard · Answer

bon j'ai mis en place l'avg_over_time sur 15m. depuis plus de spam d'alertes et quand ça tombe c'est que c'est une vraie dégradation. nickel !

Alerte Prometheus qui spamme à cause d'une métrique flakey

8 commentaires

Laisser une réponse

Sauvegarder et restaurer votre cluster Kubernetes

Policy-as-Code : La Révolution de la Gouvernance Holistique en DevOps

L'Ère des Agents Autonomes: Réinventer l'Orchestration DevOps

Guide : Étendre votre Service Mesh avec des filtres Wasm et Rust

L'illusion de la performance : Les pièges du context switching

Rejoindre la communauté