Alerte PromQL qui flappe de fou sur le CPU

Question

salut le monde
j'ai une alerte prometheus qui devient folle. c'est pour le cpu usage des pods et ça flappe non stop. toutes les 5min ça se déclenche et ça s'auto-résout. le seuil est à 80% sur 5min mais j'ai l'impression que le cpu fait juste des pics rapides et redescend aussitôt. genre 90% pendant 30s puis 10%. du coup l'alerte est useless
# mon alerte actuelle
- alert: HighCpuUsage
  expr: |
    sum(rate(container_cpu_usage_seconds_total{container!=""}[5m])) by (pod, namespace) * 100 > 80
  for: 5m
  labels:
    severity: warning
  annotations:
    summary: "CPU usage high for {{ $labels.pod }} in {{ $labels.namespace }}"

comment je peux lisser ça pour éviter le flapping ?

marguerite43 · Answer

bah déjà ton for: 5m est un peu court si tu veux lisser des pics. si le pic dure 30s et que tu regardes sur 5m en rate c'est pas assez. essaie d'augmenter le for genre 10m ou même 15m. ça va obliger l'alerte à rester déclenchée plus longtemps avant de te notifier

gilles-descamps · Answer

le rate en soi c'est pour lisser sur la période que tu lui donnes [5m] mais si t'as des pics très courts le rate peut quand même monter haut. ptete utiliser avg_over_time ou un quantile pour mieux représenter l'usage "réel" sur une période plus large ? genre avg_over_time(container_cpu_usage_seconds_total{container!=""}[15m])

emmanuelle33 · Answer

ok je vois. j'ai testé en augmentant le for à 10m et en mettant avg_over_time sur 10m pour le calcul du cpu et ça a l'air bcp plus stable. les alertes se déclenchent que si le problème est vraiment persistant. merci les gars pour le coup de main !

Alerte PromQL qui flappe de fou sur le CPU

3 commentaires

Laisser une réponse

Les channels dans le langage de programmation Go

Exécutez vos premières commandes Ansible

Les provisioners et taints

Construire une infrastructure AWS hautement disponible

Comment fusionner vos commits avec le Squash sur GitLab

Rejoindre la communauté