Prometheus alerte pour tout et rien, alertmanager débordé

Posté par claudine-gosselin le 23/12/2025
RÉSOLU

claudine-gosselin

Membre depuis le 05/08/2024

actif

yo les sre j'ai un souci prometheus. on a des alertes qui tombent pour tout et rien, l'alertmanager est saturé on reçoit des centaines de notifs par jour. genre des spikes cpu d'une seconde sur un pod qui s'autoscale après. c'est ingérable on loupe les vraies alertes du coup

Commentaires

hrenaud

Membre depuis le 12/12/2018

actif secouriste

salut. typique des alertes trop sensibles. il faut revoir tes thresholds. une spike d'une seconde c'est pas une alerte, c'est du bruit. mets des for: 5m ou 10m sur tes rules pour qu'une alerte ne se déclenche que si la condition est vraie pendant cette durée

charles-leroux

Membre depuis le 06/05/2024

actif

et aussi regarde tes silences dans alertmanager. si c'est un déploiement ou une maintenance faut pas hésiter à muter temporairement. et le grouping par service ça aide à pas inonder quand un seul truc lâche

claudine-gosselin

Membre depuis le 05/08/2024

actif

le for: 5m c'est une super idée j'y avais pas pensé ça va filtrer pas mal de faux positifs. pour les silences on essaie mais on a tellement de microservices que c'est un enfer à gérer. je vais refaire un audit de toutes les règles d'alerte

hrenaud

Membre depuis le 12/12/2018

actif secouriste

c'est la base. une alerte doit signifier que quelqu'un doit faire quelque chose. si personne ne fait rien, c'est pas une alerte mais une métrique. bon courage pour le nettoyage

claudine-gosselin

Membre depuis le 05/08/2024

actif

merci j'ai du taff mais ça va être plus propre après

Laisser une réponse

Vous devez être connecté pour poster un message !

Rejoindre la communauté

Recevoir les derniers articles gratuitement en créant un compte !

S'inscrire