alerte prometheus qui spamme h24 pour un faux positif

Posté par frey le 28/08/2025
RÉSOLU

frey

Membre depuis le 15/12/2024

les gars j'ai une alerte prometheus qui me rend fou. c'est pour l'utilisation cpu d'un de nos services qui tourne dans un pod k8s. dès que le pod dépasse 70% d'utilisation pendant 5 minutes ça alerte. le problème c'est qu'il monte souvent à 80% pendant des pics légitimes puis il redescend et ça spamme alors qu'il y a pas de souci


# mon alert rule
- alert: HighCPULoad
  expr: 100 * (sum(rate(container_cpu_usage_seconds_total{container="my-service"}[5m])) by (pod) / sum(container_spec_cpu_quota{container="my-service"} / container_spec_cpu_period{container="my-service"}) by (pod)) > 70
  for: 5m
  labels:
    severity: warning
  annotations:
    summary: "CPU de {{ $labels.pod }} dépasse 70%"

Commentaires

bjacob

Membre depuis le 25/09/2024

yo le 70% c'est ptete trop bas si tu as des pics légitimes. monte le seuil à 85-90% histoire de filtrer le bruit. ou alors ajoute un second seuil plus élevé pour une alerte critique si ça dépasse genre 95% pendant 10min

vtanguy

Membre depuis le 10/04/2025

tu peux aussi utiliser le concept de 'burn rate' au lieu d'un seuil fixe. genre si ton cpu dépasse 70% pendant 5min mais que l'objectif de ton service est 99.9% de disponibilité cpu tu peux calculer si ça 'burn' ton budget d'erreur trop vite. c'est plus compliqué à setup mais ça évite les faux positifs sur des fluctuations normales

frey

Membre depuis le 15/12/2024

d'acc je vais monter le seuil à 85% pour commencer et voir si ça calme le jeu. le burn rate ça m'intéresse pour plus tard mais là je veux juste dormir. thx pour les conseils les gars

Laisser une réponse

Vous devez être connecté pour poster un message !

Rejoindre la communauté

Recevoir les derniers articles gratuitement en créant un compte !

S'inscrire