Sujet :
RÉSOLU
Liste des sujets Répondre Créer un sujet
Membre depuis le 03/06/2024
Salut à tous ! j'ai un souci avec mes alertes cpu sur k8s elles font que flapper c'est insupportable. le seuil est à 80% sur node_cpu_utilisation et c'est pourtant pas des pics réels de conso stable. ça monte 2sec à 85% puis redescend. du coup l'alerte se déclenche puis s'éteint. vous gérez ça comment
# Exemple d'alerte qui flappe
ALERT HighNodeCPU
IF (100 - (avg by (instance) (rate(node_cpu_seconds_total{mode="idle"}[5m])) * 100)) > 80
FOR 1m
LABELS {severity="warning"}
ANNOTATIONS {
summary="High CPU usage on node {{ $labels.instance }}",
description="CPU usage is above 80% for more than 1 minute."
}
vous devez être connecté pour poster un message !
Recevoir les derniers articles gratuitement en créant un compte !
S'inscrire
ramos-cecile
Membre depuis le 12/06/2024
hello c'est un grand classique. ton
for 1mest ptete trop court. si tu as des micro-bursts de cpu ça va déclencher l'alerte. essaie unFORplus long genre 5m pour que l'alerte ne se déclenche que si la charge reste élevée pendant un certain tempssmarques
Membre depuis le 02/07/2024
ouais et pour ton calcul de cpu tu utilises
ratesur 5m. leratec bien mais ça prend le dernier point de la période si c uneirateou ça peut lisser un peu trop des fois. essaieavg_over_time(rate(...)[5m])sur une période encore plus longue avant la comparaison, ça va lisser tes picstherese-louis
Membre depuis le 27/05/2024
sinon tu peux aussi jouer sur le seuil. 80% c'est ptete trop bas si tes services ont des variations. essaie 85 ou 90%. ou alors tu crées deux alertes une warning à 80% pour info et une critical à 95% avec un
FORplus longichauvet
Membre depuis le 31/05/2024
et t'as regardé si tu n'as pas de
noisesur tes métriques à cause dekube-state-metricsou des exporters avec trop de labels ? des fois ça fausse les calculs si t'as pas fait un bongroup_leftouon/bymarie-lebreton
Membre depuis le 03/06/2024
ok merci pour les tips. je vais essayer de passer mon
FORà 3m et d'utiliseravg_over_time(rate(node_cpu_seconds_total{mode="idle"}[5m]))[2m]. je vais aussi checker le bruit sur mes labels on sait jamais. bonne journée