Prometheus alerte CPU usage faux positifs

Posté par royer-margaret le 08/02/2026
RÉSOLU

royer-margaret

Membre depuis le 08/09/2024

hello la commu on a un truc chelou avec prometheus on reçoit plein d'alertes CPU usage élevé pour des pods qui en fait sont chill. l'alerte se déclenche pour 5min de 80% cpu mais quand on va voir les métriques direct après l'alerte ça a déjà chuté à 10-20%. c'est super relou

# règle d'alerte prometheus
- alert: HighCpuUsage
  expr: |
    sum(rate(container_cpu_usage_seconds_total{namespace="my-app", container!="POD", container!=""}[5m])) by (pod, namespace) /
    sum(container_spec_cpu_quota{namespace="my-app", container!="POD", container!=""} / 100000) by (pod, namespace) * 100
    > 80
  for: 5m
  labels:
    severity: warning
  annotations:
    summary: "High CPU usage on pod {{ $labels.pod }}"

Commentaires

andre52

Membre depuis le 08/05/2024

t'es sûr que le scrape interval de prometheus est assez court pour capter les pics ? si c'est 30s ou 1min et tes pics sont plus courts ça peut donner des faux positifs ou rater des vrais. et ta résolution recording rules ?

royer-margaret

Membre depuis le 08/09/2024

le scrape interval est à 15s donc ça devrait être bon. pas de recording rules pour le cpu direct on utilise la métrique brute

andre52

Membre depuis le 08/05/2024

ça ressemble à des cpu bursts. certains pods utilisent leur full quota pendant un court instant puis redescendent. si tu veux pas alerter sur ces pics tu peux augmenter le for: à genre 10m ou utiliser un average sur une période plus longue dans l'expr comme avg_over_time(...[10m])

royer-margaret

Membre depuis le 08/09/2024

je vais tenter d'augmenter le for à 10m ça me semble une bonne piste. ouais c'est des microservices java ils ont des pics au démarrage ou pour du gc. merci pour le tuyau

Laisser une réponse

Vous devez être connecté pour poster un message !

Rejoindre la communauté

Recevoir les derniers articles gratuitement en créant un compte !

S'inscrire