SRE : Prometheus des alertes qui spamment ma vie

Question

les gars j'en peux plus de prometheus j'ai des alertes qui partent toutes les 5 minutes pour des trucs qui s'autocorrigent en 30s. genre cpu spike ou latence sur une requete. mes devs se plaignent du spam c'est insupportable. comment vous gérez l'alert fatigue ?

lefort-michel · Answer

faut revoir tes seuils et tes durées d'évaluation (for clause) sur tes règles d'alert. un cpu spike ponctuel c pas une alerte si ça dure pas. mets un for: 5m au moins pour les trucs pas critiques

boulay-roger · Answer

et utilise des recording rules pour pré-agréger des métriques. par exemple calcule une moyenne sur 5min de ton cpu usage et alerte sur cette métrique agrégée plutôt que sur le raw. ça lisse pas mal les pics

elisabeth-mahe · Answer

dans alertmanager tu peux aussi jouer avec les silences temporaires pour les maintenances planifiées et surtout la inhibit_rules pour pas recevoir 10 alertes différentes quand une seule root cause est là

margaud35 · Answer

d'acc j'avais sous-estimé l'importance du for et des recording rules. je vais refaire un passe sur toutes mes alertes avec ces principes. et l'inhibit_rules ça a l'air super utile aussi. thx pour les tips ça va me sauver

SRE : Prometheus des alertes qui spamment ma vie

4 commentaires

Laisser une réponse

Introduction du cours pour apprendre l'orchestrateur Kubernetes (k8s)

Event à la Dockercon Europe 2018

Comment installer et configurer votre propre serveur GitLab

OOMKiller : Comment identifier et stopper vos fuites mémoire

Mutex et contention : Libérez enfin vos threads

Rejoindre la communauté