7 commentaires
t'as mis des blackouts ou des silences pendant les périodes de maintenance ? ça aide à réduire le bruit. et si c'est spécifique à un service vérifie la config de ressource requests/limits de ton pod dans k8s si c'est pas un souci d'autoscaling qui met trop de pression
les blackouts on utilise ça mais c'est pas pour le flapping régulier. les labels c'est propre j'ai vérifié. par contre l'agrégation par quantile ça m'intéresse. genre avg_over_time(node_cpu_seconds_total[5m]) ça serait mieux ?
et n'oublie pas le FOR clause dans ton alert. si c'est FOR 5m et que ça dure 2min c'est normal que ça flappe. peut-être qu'il faut un FOR 10m ou même un GROUP BY pour agréger par namespace/deployment pour avoir des alertes moins granulaires
ok j'ai refait les règles d'alerting avec rate et avg_over_time sur 10min et le flapping a quasi disparu. on a toujours les alertes quand c'est vraiment critique mais on est plus spammés. thx pour les tips les gars c'était bien relou ce truc
Laisser une réponse
Vous devez être connecté pour poster un message !
on a des alertes prometheus qui deviennent ingérables ça flappe tout le temps sur le cpu usage de nos pods k8s. on a mis un seuil à 80% pendant 5min mais dès que ça pique un peu ça gueule et ça revient normal 2min après. comment on gère ça proprement sans augmenter le seuil à 95% ?