Prometheus alerte CPU usage faux positifs

Question

hello la commu on a un truc chelou avec prometheus on reçoit plein d'alertes CPU usage élevé pour des pods qui en fait sont chill. l'alerte se déclenche pour 5min de 80% cpu mais quand on va voir les métriques direct après l'alerte ça a déjà chuté à 10-20%. c'est super relou
# règle d'alerte prometheus
- alert: HighCpuUsage
  expr: |
    sum(rate(container_cpu_usage_seconds_total{namespace="my-app", container!="POD", container!=""}[5m])) by (pod, namespace) /
    sum(container_spec_cpu_quota{namespace="my-app", container!="POD", container!=""} / 100000) by (pod, namespace) * 100
    > 80
  for: 5m
  labels:
    severity: warning
  annotations:
    summary: "High CPU usage on pod {{ $labels.pod }}"

andre52 · Answer

t'es sûr que le scrape interval de prometheus est assez court pour capter les pics ? si c'est 30s ou 1min et tes pics sont plus courts ça peut donner des faux positifs ou rater des vrais. et ta résolution recording rules ?

royer-margaret · Answer

le scrape interval est à 15s donc ça devrait être bon. pas de recording rules pour le cpu direct on utilise la métrique brute

andre52 · Answer

ça ressemble à des cpu bursts. certains pods utilisent leur full quota pendant un court instant puis redescendent. si tu veux pas alerter sur ces pics tu peux augmenter le for: à genre 10m ou utiliser un average sur une période plus longue dans l'expr comme avg_over_time(...[10m])

royer-margaret · Answer

je vais tenter d'augmenter le for à 10m ça me semble une bonne piste. ouais c'est des microservices java ils ont des pics au démarrage ou pour du gc. merci pour le tuyau

Prometheus alerte CPU usage faux positifs

4 commentaires

Laisser une réponse

Conclusion du cours Kubernetes

Les Datas Source sur Terraform

Comment installer et configurer votre propre serveur GitLab

DevOps Cognitif : L'IA Co-Pilote de Vos Opérations Complexes

Anatomie de io_uring : La fin du goulot d'étranglement syscall

Rejoindre la communauté