SRE : Prometheus des alertes qui spamment ma vie

margaud35 31/01/2026
RÉSOLU
margaud35
Auteur
Avatar de margaud35
margaud35
Auteur

les gars j'en peux plus de prometheus j'ai des alertes qui partent toutes les 5 minutes pour des trucs qui s'autocorrigent en 30s. genre cpu spike ou latence sur une requete. mes devs se plaignent du spam c'est insupportable. comment vous gérez l'alert fatigue ?

31/01/2026 à 22:09

4 commentaires

lefort-michel
Membre Actif
Avatar de lefort-michel
lefort-michel
Membre Actif

faut revoir tes seuils et tes durées d'évaluation (for clause) sur tes règles d'alert. un cpu spike ponctuel c pas une alerte si ça dure pas. mets un for: 5m au moins pour les trucs pas critiques

01/02/2026 à 21:28
boulay-roger
Membre Actif Secouriste
Avatar de boulay-roger
boulay-roger
Membre Actif Secouriste

et utilise des recording rules pour pré-agréger des métriques. par exemple calcule une moyenne sur 5min de ton cpu usage et alerte sur cette métrique agrégée plutôt que sur le raw. ça lisse pas mal les pics

02/02/2026 à 21:18
elisabeth-mahe
Membre Actif Secouriste
Avatar de elisabeth-mahe
elisabeth-mahe
Membre Actif Secouriste

dans alertmanager tu peux aussi jouer avec les silences temporaires pour les maintenances planifiées et surtout la inhibit_rules pour pas recevoir 10 alertes différentes quand une seule root cause est là

03/02/2026 à 20:58
margaud35
Auteur
Avatar de margaud35
margaud35
Auteur

d'acc j'avais sous-estimé l'importance du for et des recording rules. je vais refaire un passe sur toutes mes alertes avec ces principes. et l'inhibit_rules ça a l'air super utile aussi. thx pour les tips ça va me sauver

04/02/2026 à 19:39

Laisser une réponse

Vous devez être connecté pour poster un message !

Rejoindre la communauté

Recevoir les derniers articles gratuitement en créant un compte !

S'inscrire