salut. typique des alertes trop sensibles. il faut revoir tes thresholds. une spike d'une seconde c'est pas une alerte, c'est du bruit. mets des for: 5m ou 10m sur tes rules pour qu'une alerte ne se déclenche que si la condition est vraie pendant cette durée
et aussi regarde tes silences dans alertmanager. si c'est un déploiement ou une maintenance faut pas hésiter à muter temporairement. et le grouping par service ça aide à pas inonder quand un seul truc lâche
le for: 5m c'est une super idée j'y avais pas pensé ça va filtrer pas mal de faux positifs. pour les silences on essaie mais on a tellement de microservices que c'est un enfer à gérer. je vais refaire un audit de toutes les règles d'alerte
c'est la base. une alerte doit signifier que quelqu'un doit faire quelque chose. si personne ne fait rien, c'est pas une alerte mais une métrique. bon courage pour le nettoyage
merci j'ai du taff mais ça va être plus propre après
Vous devez être connecté pour poster un message !
Recevoir les derniers articles gratuitement en créant un compte !
S'inscrire
claudine-gosselin
Membre depuis le 05/08/2024actif
yo les sre j'ai un souci prometheus. on a des alertes qui tombent pour tout et rien, l'alertmanager est saturé on reçoit des centaines de notifs par jour. genre des spikes cpu d'une seconde sur un pod qui s'autoscale après. c'est ingérable on loupe les vraies alertes du coup