Membre depuis le 08/09/2024
hello la commu on a un truc chelou avec prometheus on reçoit plein d'alertes CPU usage élevé pour des pods qui en fait sont chill. l'alerte se déclenche pour 5min de 80% cpu mais quand on va voir les métriques direct après l'alerte ça a déjà chuté à 10-20%. c'est super relou
# règle d'alerte prometheus
- alert: HighCpuUsage
expr: |
sum(rate(container_cpu_usage_seconds_total{namespace="my-app", container!="POD", container!=""}[5m])) by (pod, namespace) /
sum(container_spec_cpu_quota{namespace="my-app", container!="POD", container!=""} / 100000) by (pod, namespace) * 100
> 80
for: 5m
labels:
severity: warning
annotations:
summary: "High CPU usage on pod {{ $labels.pod }}"
Vous devez être connecté pour poster un message !
Recevoir les derniers articles gratuitement en créant un compte !
S'inscrire
Commentaires
andre52
Membre depuis le 08/05/2024
t'es sûr que le scrape interval de prometheus est assez court pour capter les pics ? si c'est 30s ou 1min et tes pics sont plus courts ça peut donner des faux positifs ou rater des vrais. et ta résolution recording rules ?
royer-margaret
Membre depuis le 08/09/2024
le scrape interval est à 15s donc ça devrait être bon. pas de recording rules pour le cpu direct on utilise la métrique brute
andre52
Membre depuis le 08/05/2024
ça ressemble à des cpu bursts. certains pods utilisent leur full quota pendant un court instant puis redescendent. si tu veux pas alerter sur ces pics tu peux augmenter le for: à genre 10m ou utiliser un average sur une période plus longue dans l'expr comme avg_over_time(...[10m])
royer-margaret
Membre depuis le 08/09/2024
je vais tenter d'augmenter le for à 10m ça me semble une bonne piste. ouais c'est des microservices java ils ont des pics au démarrage ou pour du gc. merci pour le tuyau