Prometheus alerte pour tout et rien, alertmanager débordé

Question

yo les sre j'ai un souci prometheus. on a des alertes qui tombent pour tout et rien, l'alertmanager est saturé on reçoit des centaines de notifs par jour. genre des spikes cpu d'une seconde sur un pod qui s'autoscale après. c'est ingérable on loupe les vraies alertes du coup

hrenaud · Answer

salut. typique des alertes trop sensibles. il faut revoir tes thresholds. une spike d'une seconde c'est pas une alerte, c'est du bruit. mets des for: 5m ou 10m sur tes rules pour qu'une alerte ne se déclenche que si la condition est vraie pendant cette durée

charles-leroux · Answer

et aussi regarde tes silences dans alertmanager. si c'est un déploiement ou une maintenance faut pas hésiter à muter temporairement. et le grouping par service ça aide à pas inonder quand un seul truc lâche

claudine-gosselin · Answer

le for: 5m c'est une super idée j'y avais pas pensé ça va filtrer pas mal de faux positifs. pour les silences on essaie mais on a tellement de microservices que c'est un enfer à gérer. je vais refaire un audit de toutes les règles d'alerte

hrenaud · Answer

c'est la base. une alerte doit signifier que quelqu'un doit faire quelque chose. si personne ne fait rien, c'est pas une alerte mais une métrique. bon courage pour le nettoyage

claudine-gosselin · Answer

merci j'ai du taff mais ça va être plus propre après

Prometheus alerte pour tout et rien, alertmanager débordé

5 commentaires

Laisser une réponse

Les Slices (tableaux dynamiques) dans le langage de programmation Go

Installer et configurer votre environnement Terraform

Découverte et utilisation d'Elasticsearch

Low-Code/No-Code DevOps : L'Agilité Visuelle Rencontre la Robustesse

Tuto : Sécurisez vos fichiers d'état Terraform sans effort

Rejoindre la communauté