Alerte PromQL qui flappe de fou sur le CPU

Posté par emmanuelle33 le 17/05/2024
RÉSOLU

emmanuelle33

Membre depuis le 12/03/2020

actif

salut le monde

j'ai une alerte prometheus qui devient folle. c'est pour le cpu usage des pods et ça flappe non stop. toutes les 5min ça se déclenche et ça s'auto-résout. le seuil est à 80% sur 5min mais j'ai l'impression que le cpu fait juste des pics rapides et redescend aussitôt. genre 90% pendant 30s puis 10%. du coup l'alerte est useless

# mon alerte actuelle
- alert: HighCpuUsage
  expr: |
    sum(rate(container_cpu_usage_seconds_total{container!=""}[5m])) by (pod, namespace) * 100 > 80
  for: 5m
  labels:
    severity: warning
  annotations:
    summary: "CPU usage high for {{ $labels.pod }} in {{ $labels.namespace }}"

comment je peux lisser ça pour éviter le flapping ?

Commentaires

marguerite43

Membre depuis le 17/04/2020

actif secouriste

bah déjà ton for: 5m est un peu court si tu veux lisser des pics. si le pic dure 30s et que tu regardes sur 5m en rate c'est pas assez. essaie d'augmenter le for genre 10m ou même 15m. ça va obliger l'alerte à rester déclenchée plus longtemps avant de te notifier

gilles-descamps

Membre depuis le 02/04/2019

actif secouriste

le rate en soi c'est pour lisser sur la période que tu lui donnes [5m] mais si t'as des pics très courts le rate peut quand même monter haut. ptete utiliser avg_over_time ou un quantile pour mieux représenter l'usage "réel" sur une période plus large ? genre avg_over_time(container_cpu_usage_seconds_total{container!=""}[15m])

emmanuelle33

Membre depuis le 12/03/2020

actif

ok je vois. j'ai testé en augmentant le for à 10m et en mettant avg_over_time sur 10m pour le calcul du cpu et ça a l'air bcp plus stable. les alertes se déclenchent que si le problème est vraiment persistant. merci les gars pour le coup de main !

Laisser une réponse

Vous devez être connecté pour poster un message !

Rejoindre la communauté

Recevoir les derniers articles gratuitement en créant un compte !

S'inscrire