Membre depuis le 01/04/2023
on a des alertes prometheus qui deviennent ingérables ça flappe tout le temps sur le cpu usage de nos pods k8s. on a mis un seuil à 80% pendant 5min mais dès que ça pique un peu ça gueule et ça revient normal 2min après. comment on gère ça proprement sans augmenter le seuil à 95% ?
Vous devez être connecté pour poster un message !
Recevoir les derniers articles gratuitement en créant un compte !
S'inscrire
Commentaires
fdiallo
Membre depuis le 19/05/2024
hmm le flapping c la plaie. t'as pensé à ajouter une agrégation par quantile genre avg_over_time ou rate ? plutot que le cpu instantané ça prend en compte la tendance
auguste30
Membre depuis le 01/10/2023
ouais et regarde aussi la cardinalité de tes métriques si t'as trop de labels différents pour le cpu ça peut ralentir prometheus et le rendre moins réactif aux changements. ça peut contribuer au flapping si les requêtes sont lentes
ollivier-thibault
Membre depuis le 20/05/2024
t'as mis des blackouts ou des silences pendant les périodes de maintenance ? ça aide à réduire le bruit. et si c'est spécifique à un service vérifie la config de ressource requests/limits de ton pod dans k8s si c'est pas un souci d'autoscaling qui met trop de pression
bouchet-francois
Membre depuis le 01/04/2023
les blackouts on utilise ça mais c'est pas pour le flapping régulier. les labels c'est propre j'ai vérifié. par contre l'agrégation par quantile ça m'intéresse. genre avg_over_time(node_cpu_seconds_total[5m]) ça serait mieux ?
fdiallo
Membre depuis le 19/05/2024
exactement ou même histogram_quantile si tu veux voir la distribution des latences par exemple. pour le cpu usage direct regarde plutôt les fonctions comme irate ou rate avec un bon range vector pour lisser les pics
auguste30
Membre depuis le 01/10/2023
et n'oublie pas le FOR clause dans ton alert. si c'est FOR 5m et que ça dure 2min c'est normal que ça flappe. peut-être qu'il faut un FOR 10m ou même un GROUP BY pour agréger par namespace/deployment pour avoir des alertes moins granulaires
bouchet-francois
Membre depuis le 01/04/2023
ok j'ai refait les règles d'alerting avec rate et avg_over_time sur 10min et le flapping a quasi disparu. on a toujours les alertes quand c'est vraiment critique mais on est plus spammés. thx pour les tips les gars c'était bien relou ce truc