5 commentaires
hello c'est un grand classique. ton for 1m est ptete trop court. si tu as des micro-bursts de cpu ça va déclencher l'alerte. essaie un FOR plus long genre 5m pour que l'alerte ne se déclenche que si la charge reste élevée pendant un certain temps
ouais et pour ton calcul de cpu tu utilises rate sur 5m. le rate c bien mais ça prend le dernier point de la période si c une irate ou ça peut lisser un peu trop des fois. essaie avg_over_time(rate(...)[5m]) sur une période encore plus longue avant la comparaison, ça va lisser tes pics
sinon tu peux aussi jouer sur le seuil. 80% c'est ptete trop bas si tes services ont des variations. essaie 85 ou 90%. ou alors tu crées deux alertes une warning à 80% pour info et une critical à 95% avec un FOR plus long
ok merci pour les tips. je vais essayer de passer mon FOR à 3m et d'utiliser avg_over_time(rate(node_cpu_seconds_total{mode="idle"}[5m]))[2m]. je vais aussi checker le bruit sur mes labels on sait jamais. bonne journée
Laisser une réponse
Vous devez être connecté pour poster un message !
Salut à tous ! j'ai un souci avec mes alertes cpu sur k8s elles font que flapper c'est insupportable. le seuil est à 80% sur
node_cpu_utilisationet c'est pourtant pas des pics réels de conso stable. ça monte 2sec à 85% puis redescend. du coup l'alerte se déclenche puis s'éteint. vous gérez ça comment