Membre depuis le 15/12/2024
les gars j'ai une alerte prometheus qui me rend fou. c'est pour l'utilisation cpu d'un de nos services qui tourne dans un pod k8s. dès que le pod dépasse 70% d'utilisation pendant 5 minutes ça alerte. le problème c'est qu'il monte souvent à 80% pendant des pics légitimes puis il redescend et ça spamme alors qu'il y a pas de souci
# mon alert rule
- alert: HighCPULoad
expr: 100 * (sum(rate(container_cpu_usage_seconds_total{container="my-service"}[5m])) by (pod) / sum(container_spec_cpu_quota{container="my-service"} / container_spec_cpu_period{container="my-service"}) by (pod)) > 70
for: 5m
labels:
severity: warning
annotations:
summary: "CPU de {{ $labels.pod }} dépasse 70%"
Vous devez être connecté pour poster un message !
Recevoir les derniers articles gratuitement en créant un compte !
S'inscrire
Commentaires
bjacob
Membre depuis le 25/09/2024
yo le 70% c'est ptete trop bas si tu as des pics légitimes. monte le seuil à 85-90% histoire de filtrer le bruit. ou alors ajoute un second seuil plus élevé pour une alerte critique si ça dépasse genre 95% pendant 10min
vtanguy
Membre depuis le 10/04/2025
tu peux aussi utiliser le concept de 'burn rate' au lieu d'un seuil fixe. genre si ton cpu dépasse 70% pendant 5min mais que l'objectif de ton service est 99.9% de disponibilité cpu tu peux calculer si ça 'burn' ton budget d'erreur trop vite. c'est plus compliqué à setup mais ça évite les faux positifs sur des fluctuations normales
frey
Membre depuis le 15/12/2024
d'acc je vais monter le seuil à 85% pour commencer et voir si ça calme le jeu. le burn rate ça m'intéresse pour plus tard mais là je veux juste dormir. thx pour les conseils les gars