Prometheus fait trop de bruit les alerts sont n'importe quoi

Posté par stephane19 le 02/09/2024
RÉSOLU

stephane19

Membre depuis le 08/04/2019

salut la team j'ai un gros souci de fatigue avec prometheus les alertes sont devenues insupportables. genre un pod qui crash et redémarre en 2s paf j'ai une alerte slack. une instance qui a une micro-coupure réseau paf alerte. mes channels sont spammés je loupe les vraies alertes. comment on gère ça proprement sans tout muter

Commentaires

celina-arnaud

Membre depuis le 16/06/2024

check tes `for:` clauses dans tes alert rules c'est la base si tu veux pas d'alertes pour des événements transitoires un `for: 5m` ça fait des miracles pour les alertes non critiques

lucy60

Membre depuis le 02/04/2019

c'est ça `for` c'est clé. ensuite regarde comment tes alerts sont groupées dans alertmanager si tu as `group_by: [alertname, cluster]` ça peut faire beaucoup de bruit

gregoire-maryse

Membre depuis le 27/07/2019

grave le grouping c'est essentiel. essaie `group_by: [alertname, service, namespace]` et augmente le `group_wait` et `group_interval` dans alertmanager pour éviter le burst d'alertes sur un même problème

celina-arnaud

Membre depuis le 16/06/2024

aussi tes seuils sont ptete trop bas une instance cpu à 70% pendant 30s c'est pas une alerte si c'est normal pour ton app revoit les seuils et mets-les plus haut ou plus longs

stephane19

Membre depuis le 08/04/2019

j'ai bien des `for` sur certaines mais pas toutes et le grouping je l'ai laissé par défaut. je vais regarder `group_wait` et `group_interval` merci

lucy60

Membre depuis le 02/04/2019

pense aux inhibitions dans alertmanager aussi si une alerte critique est levée (genre cluster down) tu peux inhiber des alertes moins importantes (genre pod down) pour pas avoir les deux en même temps

celina-arnaud

Membre depuis le 16/06/2024

et relabeling des métriques avant qu'elles arrivent à prometheus ça peut aider à uniformiser les noms pour le grouping et éviter des alertes dupliquées si tes labels sont un peu n'importe quoi

gregoire-maryse

Membre depuis le 27/07/2019

un truc con mais tu monitorer quoi exactement. si tu monitors la santé des pods en soi c'est normal que ça spam quand k8s les redémarre. vaut mieux monitorer la santé du service au global derrière un ingress par exemple

lucy60

Membre depuis le 02/04/2019

utilise des blackbox exporters pour monitorer tes endpoints externes ça simule l'expérience utilisateur et t'alertes que si un service est vraiment inaccessible et pas juste un pod qui tousse

stephane19

Membre depuis le 08/04/2019

ok je vois le tableau je vais refaire un passe sur les `for` sur toutes les alertes les seuils aussi et surtout le `group_by` et `group_wait` dans alertmanager. les inhibitions ça a l'air super utile aussi pour les alertes critiques. merci les gars ça me sauve la vie

Laisser une réponse

Vous devez être connecté pour poster un message !

Rejoindre la communauté

Recevoir les derniers articles gratuitement en créant un compte !

S'inscrire