alertes prometheus qui flappent pour la latence db

margot-blanchet 06/09/2025
RÉSOLU

yo les sre

j'ai une alerte prometheus sur la latence de notre base de données et elle me rend dingue. dès que la latence monte un peu (genre au-dessus de 50ms) l'alerte part. le truc c'est qu'elle part et revient toutes les 2-3 minutes. c'est super bruyant et on rate les vrais incidents. comment je stabilise ça ?


# excerpt de notre rule prometheus
- alert: HighDBLatency
  expr: avg_over_time(db_query_latency_ms[5m]) > 50
  for: 1m
  labels:
    severity: critical
  annotations:
    summary: "Latence DB élevée sur {{ $labels.instance }}"
06/09/2025 à 15:18

6 commentaires

elise-philippe
Membre Actif
Avatar de elise-philippe
elise-philippe
Membre Actif

salut

ton for: 1m c'est ptete un peu court non ? ça veut dire que l'alerte est déclenchée après seulement 1 minute de dépassement. si t'as des pics passagers qui durent moins d'une minute ton alerte va flapper. essaie de mettre un for: 5m ou même 10m pour voir si ça calme le jeu

Modifié le 23/05/2026 à 16:20

ouais j'ai déjà essayé avec 3m mais ça change pas grand chose elle continue à flapper. c'est pas des pics courts c'est une latence qui monte et redescend autour de 50ms tout le temps

08/09/2025 à 13:31

le avg_over_time sur 5m c'est déjà pas mal pour lisser. mais si ta latence est vraiment instable tu pourrais augmenter ton seuil genre passer à > 75 ou même > 100 si 50ms est acceptable par moment. sinon tu peux aussi jouer avec les fonctions stddev_over_time pour détecter des variations trop fortes plutôt qu'un seuil fixe

Modifié le 23/05/2026 à 16:20
elise-philippe
Membre Actif
Avatar de elise-philippe
elise-philippe
Membre Actif

ou alors une double condition. genre avg_over_time(db_query_latency_ms[5m]) > 50 AND avg_over_time(db_query_latency_ms[15m]) > 40. comme ça il faut que la latence soit élevée sur une courte période et un peu élevée sur une plus longue. ça filtre les micro-pics

Modifié le 23/05/2026 à 16:20

intéressant la double condition j'y avais pas pensé. pour le seuil je peux pas trop monter 50ms c'est déjà pas top pour l'ux

11/09/2025 à 02:09

j'ai mis la double condition avec un for: 5m et ça a l'air de tenir. les alertes sont beaucoup plus stables maintenant et ne partent que quand y'a un vrai souci persistant. merci beaucoup les gars !

Modifié le 23/05/2026 à 16:20

Laisser une réponse

Vous devez être connecté pour poster un message !

Rejoindre la communauté

Recevoir les derniers articles gratuitement en créant un compte !

S'inscrire