10 commentaires
check tes for: clauses dans tes alert rules c'est la base si tu veux pas d'alertes pour des événements transitoires un for: 5m ça fait des miracles pour les alertes non critiques
grave le grouping c'est essentiel. essaie group_by: [alertname, service, namespace] et augmente le group_wait et group_interval dans alertmanager pour éviter le burst d'alertes sur un même problème
aussi tes seuils sont ptete trop bas une instance cpu à 70% pendant 30s c'est pas une alerte si c'est normal pour ton app revoit les seuils et mets-les plus haut ou plus longs
j'ai bien des for sur certaines mais pas toutes et le grouping je l'ai laissé par défaut. je vais regarder group_wait et group_interval merci
et relabeling des métriques avant qu'elles arrivent à prometheus ça peut aider à uniformiser les noms pour le grouping et éviter des alertes dupliquées si tes labels sont un peu n'importe quoi
un truc con mais tu monitorer quoi exactement. si tu monitors la santé des pods en soi c'est normal que ça spam quand k8s les redémarre. vaut mieux monitorer la santé du service au global derrière un ingress par exemple
ok je vois le tableau je vais refaire un passe sur les for sur toutes les alertes les seuils aussi et surtout le group_by et group_wait dans alertmanager. les inhibitions ça a l'air super utile aussi pour les alertes critiques. merci les gars ça me sauve la vie
Laisser une réponse
Vous devez être connecté pour poster un message !
salut la team j'ai un gros souci de fatigue avec prometheus les alertes sont devenues insupportables. genre un pod qui crash et redémarre en 2s paf j'ai une alerte slack. une instance qui a une micro-coupure réseau paf alerte. mes channels sont spammés je loupe les vraies alertes. comment on gère ça proprement sans tout muter