8 commentaires
gros classique. la première étape c'est de revoir tes thresholds. sont-ils réalistes ? est-ce que "cpu > 80% pendant 1min" est vraiment critique ou est-ce que ça devrait être "cpu > 95% pendant 5min" ? utilise la clause 'for' dans tes règles d'alerting.
exactement. des fois on alerte sur une JVM qui consomme trop de ram mais ça n'a aucun impact sur le service. concentre-toi sur les SLIs/SLOs. si un service n'a pas de SLO défini il ne devrait pas avoir d'alerte critical.
pense aussi à l'alertmanager. tu peux regrouper les alertes similaires pour éviter 1000 notifications pour un seul problème. et utiliser les silences pour les maintenances planifiées.
c un processus continu la gestion des alertes. review tes alertes chaque semaine ou chaque fois qu'une alerte inutile se déclenche. un bon système d'alerte c un système où chaque alerte demande une action.
Laisser une réponse
Vous devez être connecté pour poster un message !
hello la team, on a mis en place prometheus et alertmanager il y a qqs mois. c'est cool mais on est noyés sous les alertes. la fatigue est réelle. on a des pages d'alertes "critical" qui ne sont pas vraiment critiques. des idées pour nettoyer tout ça et retrouver un peu de sérénité ?