prometheus alert fatigue sur nos services critiques

fdiallo 26/03/2025
RÉSOLU
fdiallo
Auteur Actif Secouriste
Avatar de fdiallo
fdiallo
Auteur Actif Secouriste

hello la team, on a mis en place prometheus et alertmanager il y a qqs mois. c'est cool mais on est noyés sous les alertes. la fatigue est réelle. on a des pages d'alertes "critical" qui ne sont pas vraiment critiques. des idées pour nettoyer tout ça et retrouver un peu de sérénité ?

26/03/2025 à 20:34

8 commentaires

ahernandez
Membre Actif
Avatar de ahernandez
ahernandez
Membre Actif

gros classique. la première étape c'est de revoir tes thresholds. sont-ils réalistes ? est-ce que "cpu > 80% pendant 1min" est vraiment critique ou est-ce que ça devrait être "cpu > 95% pendant 5min" ? utilise la clause 'for' dans tes règles d'alerting.

27/03/2025 à 17:26
elamy
Membre
Avatar de elamy
elamy
Membre

et surtout arrête d'alerter sur l'utilisation des ressources brutes. alerte sur l'impact utilisateur. par ex si ta latence p99 augmente ou si ton taux d'erreur http augmente. les golden signals quoi.

28/03/2025 à 13:59
ahernandez
Membre Actif
Avatar de ahernandez
ahernandez
Membre Actif

exactement. des fois on alerte sur une JVM qui consomme trop de ram mais ça n'a aucun impact sur le service. concentre-toi sur les SLIs/SLOs. si un service n'a pas de SLO défini il ne devrait pas avoir d'alerte critical.

29/03/2025 à 10:09
bruneau-claude
Membre Actif
Avatar de bruneau-claude
bruneau-claude
Membre Actif

pense aussi à l'alertmanager. tu peux regrouper les alertes similaires pour éviter 1000 notifications pour un seul problème. et utiliser les silences pour les maintenances planifiées.

30/03/2025 à 09:39
fdiallo
Auteur Actif Secouriste
Avatar de fdiallo
fdiallo
Auteur Actif Secouriste

ok je vois le tableau. j'ai pas mal d'alertes sur cpu/mem brutes qui effectivement ne déclenchent pas toujours d'impact user. on a des slis/slos basiques mais on pourrait les affiner. merci pour l'input.

31/03/2025 à 07:04
elamy
Membre
Avatar de elamy
elamy
Membre

pour commencer des active/active ou active/passive sur tes alertes c'est bien. par exemple si t'as une alerte pour "service down" et une autre pour "service unreachable" regroupe-les ou mets la unreachable comme info si le down est déjà là.

01/04/2025 à 04:47
ahernandez
Membre Actif
Avatar de ahernandez
ahernandez
Membre Actif

c un processus continu la gestion des alertes. review tes alertes chaque semaine ou chaque fois qu'une alerte inutile se déclenche. un bon système d'alerte c un système où chaque alerte demande une action.

01/04/2025 à 23:43
fdiallo
Auteur Actif Secouriste
Avatar de fdiallo
fdiallo
Auteur Actif Secouriste

ça marche je vais faire une review complète de nos règles et commencer par les seuils et les clauses 'for'. et essayer de baser plus d'alertes sur les vrais slis. thx la team !

02/04/2025 à 21:46

Laisser une réponse

Vous devez être connecté pour poster un message !

Rejoindre la communauté

Recevoir les derniers articles gratuitement en créant un compte !

S'inscrire