Prometheus alerte fatigue ca soule à force

Question

putain mais ras le bol des alertes prometheus qui sonnent pour rien ! on a une tonne d'alertes "service down" ou "high latency" qui sont des faux positifs parce que la métrique a fait un petit pic une seconde. ca rend les ops fous et on finit par ignorer. comment vous faites pour tuner vos alerts sans rater les vrais trucs ?

yvalette · Answer

classique le for clause. au lieu d'alerter direct si up == 0, fais for: 5m. ça veut dire que la condition doit être vraie pendant 5 minutes avant que ça alerte. et regarde bien tes sum by ou avg by pour éviter d'agréger trop large.

sabine13 · Answer

les recording rules c'est la vie. si tu calcules un truc complexe ou qui demande du cpu, tu le pré-agrèges dans une recording rule. ça allège les query alertes et ça peut lisser des petits pics. par exemple un sum_over_time ou avg_over_time sur 1m ou 5m.

leon92 · Answer

étiquette tes alertes avec des niveaux de sévérité. severity: critical, severity: warning, severity: info. et tu routes les critiques vers pagerduty, les warnings vers slack et les infos vers un dashboard. ça filtre le bruit et les gens savent quoi regarder.

yvalette · Answer

pour les services down, utilise blackbox exporter. plutôt que de te baser sur l'uptime de l'instance, blackbox va faire un vrai appel HTTP ou TCP vers ton service. ça détecte mieux un service qui tourne mais répond plus.

sabine13 · Answer

attention aussi à la fonction absent(). si une métrique disparait totalement (genre un pod s'est crashé et n'expose plus rien), l'alerte up == 0 ne sonnera pas. absent(up{job="mon_service"}) est là pour ça.

celina14 · Answer

côté alertmanager, utilise les group_by et les repeat_interval pour pas te spammer. si 100 pods tombent, tu veux une seule alerte "mon service est en PLS" pas 100 "pod X est down". et les silences temporaires pour les maintenances.

leon92 · Answer

les alertes basées sur les SLO/SLI sont bien plus efficaces. au lieu de dire "cpu > 80%", tu dis "la latence p99 des requêtes est > X ms pendant Y minutes". ça alerte sur l'impact utilisateur pas sur une métrique d'infra brute.

yvalette · Answer

quand tu fais du rate() sur des compteurs, assure-toi d'utiliser des intervalles suffisamment longs pour lisser les pics. rate(http_requests_total[5m]) est souvent mieux que [1m]. et les métriques de type histogram pour bien comprendre la distribution des latences.

sabine13 · Answer

si tu as plusieurs métriques pour une même alerte, utilise group_left ou group_right avec on (label) pour joindre et ajouter du contexte. ça enrichit tes alertes et aide au debugging direct sans avoir à chercher 10 dashboards.

laurent-roger · Answer

ok merci pour les tips ! les recording rules j'y avais pas pensé pour le lissage et le for clause je vais revoir tous mes alertes critiques avec ça. et le SLO based alerting c'est clairement la direction à prendre. good job la commu !

Prometheus alerte fatigue ca soule à force

10 commentaires

Laisser une réponse

Cours complet d'introduction à la SDL 2

L'Ère des Pipelines Intelligents: GenAI Révolutionne le Platform Engineering

L'Ère du DevOps par Intentions : Quand l'IA Réinvente l'Opération

DevOps Cognitif : L'IA Co-Pilote de Vos Opérations Complexes

Kubernetes est-il devenu trop complexe pour l'ère de l'IA ?

Rejoindre la communauté