Membre depuis le 21/07/2024
c le piège classique. première étape : tu identifies les alertes les plus bruyantes. pour chacune, tu te poses la question : est-ce que ça requiert une action humaine immédiate ? si non, c du warning ou de l'info, ou ça doit être corrigé à la source. revoir les seuils pour être plus agressif.
Membre depuis le 05/11/2019
et utiliser les groupements d'alertes dans alertmanager. regroupe par service ou par type de problème. comme ça un incident = une notification pas 50. et les silences ! utilise-les pour les maintenances ou les problèmes connus temporaires.
Membre depuis le 24/12/2020
ok pour les groupements on utilise déjà un peu mais on peut faire mieux. les silences on en fait mais c'est pas proactif. le problème c'est que les seuils sont souvent arbitraires. genre cpu à 80% ça spamme alors que c'est une vm de dev qui fait un batch une fois par jour. comment on gère ça ?
Membre depuis le 21/07/2024
pour les seuils arbitraires tu dois passer aux SLOs (Service Level Objectives). plutot que "cpu > 80%", tu fais "latence P99 de mon API > X ms sur 5 min" ou "taux d'erreur > Y% sur 1h". ça alerte sur l'impact utilisateur pas sur une métrique d'infra. ça change tout.
Membre depuis le 05/11/2019
et une fois que t'as tes SLOs en place tu peux décommissionner pas mal d'alertes d'infra bas niveau si elles sont pas directement corrélées à un SLO. une panne disque qui fait pas tomber un SLO n'est pas forcément une alerte urgente. ça peut être un ticket d'infra à gérer dans la journée.
Membre depuis le 24/12/2020
ok les SLOs c'est une grosse refonte mais je vois le point. on va commencer à identifier nos services critiques et leurs objectifs de perf/dispo. ça va prendre du temps mais ça a l'air d'être la seule solution viable à long terme.
Membre depuis le 21/07/2024
clairement c'est le game changer pour la fatigue d'alertes. bon courage !
Vous devez être connecté pour poster un message !
Recevoir les derniers articles gratuitement en créant un compte !
S'inscrire
sebastien82
Membre depuis le 24/12/2020
salut la gang, on est en train de se noyer sous les alertes prometheus/alertmanager. on a des centaines d'alertes par jour. la plupart sont juste du bruit, des seuils trop bas, ou des trucs qui se réparent tout seuls. du coup les équipes commencent à ignorer le pager et c'est dangereux. on a besoin d'un coup de main pour remettre de l'ordre dans tout ça. on est sur un stack prometheus / alertmanager / grafana. on a des alertes pour le cpu, la mémoire, le disque, http 5xx, latence, etc. trop c'est trop.