Prometheus alertmanager trop de bruit sur les alerts d'infra

descamps-elodie 21/05/2025
RÉSOLU

yo la team on a une infra qui grandit vite et le nombre d'alertes prometheus est devenu ingérable. on a des dizaines d'alertes pour un seul problème genre un noeud qui tombe ça trigger cpu memory disk network. c'est quoi votre approche pour agréger ça proprement sans tout louper

21/05/2025 à 20:46

5 commentaires

gerard-louise
Membre Actif
Avatar de gerard-louise
gerard-louise
Membre Actif

salut tu as configuré ton alertmanager group_by ? c'est la base pour pas être spammé. tu peux grouper par cluster ou par namespace ou même par instance si ça te dit

22/05/2025 à 16:45
jean-weiss
Membre
Avatar de jean-weiss
jean-weiss
Membre

en plus du group_by check tes silences. si tu as des maintenances prévues ou des incidents en cours des silences alertmanager sont tes amis pour calmer le jeu temporairement

23/05/2025 à 12:57
afrancois
Membre
Avatar de afrancois
afrancois
Membre

et aussi les inhibit rules si une alerte "critique" en rend une autre "warning" inutile ou redondante genre si le cluster est down pas besoin d'alerter sur chaque pod qui est crashlopping

24/05/2025 à 07:01

pense aussi à la cardinalité de tes labels. si tes alerts ont trop de labels qui varient souvent ça peut casser ton group_by. normalise tes labels avant d'envoyer à alertmanager

25/05/2025 à 03:37

ok je vois l'idée c'était pas super bien configuré le group_by avec les bons labels. je vais revoir ça avec les cluster et env labels on verra ce que ça donne thx les gars

Modifié le 23/05/2026 à 16:20

Laisser une réponse

Vous devez être connecté pour poster un message !

Rejoindre la communauté

Recevoir les derniers articles gratuitement en créant un compte !

S'inscrire