4 commentaires
faut revoir tes seuils et tes durées d'évaluation (for clause) sur tes règles d'alert. un cpu spike ponctuel c pas une alerte si ça dure pas. mets un for: 5m au moins pour les trucs pas critiques
et utilise des recording rules pour pré-agréger des métriques. par exemple calcule une moyenne sur 5min de ton cpu usage et alerte sur cette métrique agrégée plutôt que sur le raw. ça lisse pas mal les pics
dans alertmanager tu peux aussi jouer avec les silences temporaires pour les maintenances planifiées et surtout la inhibit_rules pour pas recevoir 10 alertes différentes quand une seule root cause est là
Laisser une réponse
Vous devez être connecté pour poster un message !
les gars j'en peux plus de prometheus j'ai des alertes qui partent toutes les 5 minutes pour des trucs qui s'autocorrigent en 30s. genre cpu spike ou latence sur une requete. mes devs se plaignent du spam c'est insupportable. comment vous gérez l'alert fatigue ?