Sujet :

Prometheus : Alertes flapping CPU sur Kubernetes

RÉSOLU

Liste des sujets Répondre Créer un sujet

marie-lebreton

Membre depuis le 03/06/2024

Salut à tous ! j'ai un souci avec mes alertes cpu sur k8s elles font que flapper c'est insupportable. le seuil est à 80% sur node_cpu_utilisation et c'est pourtant pas des pics réels de conso stable. ça monte 2sec à 85% puis redescend. du coup l'alerte se déclenche puis s'éteint. vous gérez ça comment


# Exemple d'alerte qui flappe
ALERT HighNodeCPU
  IF (100 - (avg by (instance) (rate(node_cpu_seconds_total{mode="idle"}[5m])) * 100)) > 80
  FOR 1m
  LABELS {severity="warning"}
  ANNOTATIONS {
    summary="High CPU usage on node {{ $labels.instance }}",
    description="CPU usage is above 80% for more than 1 minute."
  }

ramos-cecile

Membre depuis le 12/06/2024

hello c'est un grand classique. ton for 1m est ptete trop court. si tu as des micro-bursts de cpu ça va déclencher l'alerte. essaie un FOR plus long genre 5m pour que l'alerte ne se déclenche que si la charge reste élevée pendant un certain temps

smarques

Membre depuis le 02/07/2024

ouais et pour ton calcul de cpu tu utilises rate sur 5m. le rate c bien mais ça prend le dernier point de la période si c une irate ou ça peut lisser un peu trop des fois. essaie avg_over_time(rate(...)[5m]) sur une période encore plus longue avant la comparaison, ça va lisser tes pics

therese-louis

Membre depuis le 27/05/2024

sinon tu peux aussi jouer sur le seuil. 80% c'est ptete trop bas si tes services ont des variations. essaie 85 ou 90%. ou alors tu crées deux alertes une warning à 80% pour info et une critical à 95% avec un FOR plus long

ichauvet

Membre depuis le 31/05/2024

et t'as regardé si tu n'as pas de noise sur tes métriques à cause de kube-state-metrics ou des exporters avec trop de labels ? des fois ça fausse les calculs si t'as pas fait un bon group_left ou on/by

marie-lebreton

Membre depuis le 03/06/2024

ok merci pour les tips. je vais essayer de passer mon FOR à 3m et d'utiliser avg_over_time(rate(node_cpu_seconds_total{mode="idle"}[5m]))[2m]. je vais aussi checker le bruit sur mes labels on sait jamais. bonne journée

Répondre

vous devez être connecté pour poster un message !

Rejoindre la communauté

Recevoir les derniers articles gratuitement en créant un compte !

S'inscrire