alerte prometheus qui spamme h24 pour un faux positif

Question

les gars j'ai une alerte prometheus qui me rend fou. c'est pour l'utilisation cpu d'un de nos services qui tourne dans un pod k8s. dès que le pod dépasse 70% d'utilisation pendant 5 minutes ça alerte. le problème c'est qu'il monte souvent à 80% pendant des pics légitimes puis il redescend et ça spamme alors qu'il y a pas de souci

# mon alert rule
- alert: HighCPULoad
  expr: 100 * (sum(rate(container_cpu_usage_seconds_total{container="my-service"}[5m])) by (pod) / sum(container_spec_cpu_quota{container="my-service"} / container_spec_cpu_period{container="my-service"}) by (pod)) > 70
  for: 5m
  labels:
    severity: warning
  annotations:
    summary: "CPU de {{ $labels.pod }} dépasse 70%"

bjacob · Answer

yo le 70% c'est ptete trop bas si tu as des pics légitimes. monte le seuil à 85-90% histoire de filtrer le bruit. ou alors ajoute un second seuil plus élevé pour une alerte critique si ça dépasse genre 95% pendant 10min

vtanguy · Answer

tu peux aussi utiliser le concept de 'burn rate' au lieu d'un seuil fixe. genre si ton cpu dépasse 70% pendant 5min mais que l'objectif de ton service est 99.9% de disponibilité cpu tu peux calculer si ça 'burn' ton budget d'erreur trop vite. c'est plus compliqué à setup mais ça évite les faux positifs sur des fluctuations normales

frey · Answer

d'acc je vais monter le seuil à 85% pour commencer et voir si ça calme le jeu. le burn rate ça m'intéresse pour plus tard mais là je veux juste dormir. thx pour les conseils les gars

alerte prometheus qui spamme h24 pour un faux positif

3 commentaires

Laisser une réponse

Notre première infrastructure AWS depuis Terraform

Améliorer le modèle DevOps : les performances (DORA)

Créer une sauvegarde Backup de GitLab pour sécuriser vos données

Ingénierie Logicielle Durable : Construire un DevOps Vert Natif

Révolution Financière DevOps : L'IA au Service de l'Arbitrage Cloud Dynamique

Rejoindre la communauté