Prometheus alertmanager trop de bruit sur les alerts d'infra

Posté par descamps-elodie le 21/05/2025
RÉSOLU

descamps-elodie

Membre depuis le 15/01/2025

yo la team on a une infra qui grandit vite et le nombre d'alertes prometheus est devenu ingérable. on a des dizaines d'alertes pour un seul problème genre un noeud qui tombe ça trigger cpu memory disk network. c'est quoi votre approche pour agréger ça proprement sans tout louper

Commentaires

gerard-louise

Membre depuis le 21/07/2024

salut tu as configuré ton alertmanager group_by ? c'est la base pour pas être spammé. tu peux grouper par cluster ou par namespace ou même par instance si ça te dit

jean-weiss

Membre depuis le 20/11/2024

en plus du group_by check tes silences. si tu as des maintenances prévues ou des incidents en cours des silences alertmanager sont tes amis pour calmer le jeu temporairement

afrancois

Membre depuis le 21/05/2024

et aussi les inhibit rules si une alerte "critique" en rend une autre "warning" inutile ou redondante genre si le cluster est down pas besoin d'alerter sur chaque pod qui est crashlopping

gilles-auger

Membre depuis le 24/01/2025

pense aussi à la cardinalité de tes labels. si tes alerts ont trop de labels qui varient souvent ça peut casser ton group_by. normalise tes labels avant d'envoyer à alertmanager

descamps-elodie

Membre depuis le 15/01/2025

ok je vois l'idée c'était pas super bien configuré le group_by avec les bons labels. je vais revoir ça avec les `cluster` et `env` labels on verra ce que ça donne thx les gars

Laisser une réponse

Vous devez être connecté pour poster un message !

Rejoindre la communauté

Recevoir les derniers articles gratuitement en créant un compte !

S'inscrire