Membre depuis le 15/09/2023
salut tu as configuré ton alertmanager group_by ? c'est la base pour pas être spammé. tu peux grouper par cluster ou par namespace ou même par instance si ça te dit
Membre depuis le 20/11/2024
en plus du group_by check tes silences. si tu as des maintenances prévues ou des incidents en cours des silences alertmanager sont tes amis pour calmer le jeu temporairement
Membre depuis le 21/05/2024
et aussi les inhibit rules si une alerte "critique" en rend une autre "warning" inutile ou redondante genre si le cluster est down pas besoin d'alerter sur chaque pod qui est crashlopping
Membre depuis le 03/09/2019
pense aussi à la cardinalité de tes labels. si tes alerts ont trop de labels qui varient souvent ça peut casser ton group_by. normalise tes labels avant d'envoyer à alertmanager
Membre depuis le 15/01/2025
ok je vois l'idée c'était pas super bien configuré le group_by avec les bons labels. je vais revoir ça avec les `cluster` et `env` labels on verra ce que ça donne thx les gars
Vous devez être connecté pour poster un message !
Recevoir les derniers articles gratuitement en créant un compte !
S'inscrire
descamps-elodie
Membre depuis le 15/01/2025
yo la team on a une infra qui grandit vite et le nombre d'alertes prometheus est devenu ingérable. on a des dizaines d'alertes pour un seul problème genre un noeud qui tombe ça trigger cpu memory disk network. c'est quoi votre approche pour agréger ça proprement sans tout louper