t'es sûr que le scrape interval de prometheus est assez court pour capter les pics ? si c'est 30s ou 1min et tes pics sont plus courts ça peut donner des faux positifs ou rater des vrais. et ta résolution recording rules ?
le scrape interval est à 15s donc ça devrait être bon. pas de recording rules pour le cpu direct on utilise la métrique brute
ça ressemble à des cpu bursts. certains pods utilisent leur full quota pendant un court instant puis redescendent. si tu veux pas alerter sur ces pics tu peux augmenter le for: à genre 10m ou utiliser un average sur une période plus longue dans l'expr comme avg_over_time(...[10m])
je vais tenter d'augmenter le for à 10m ça me semble une bonne piste. ouais c'est des microservices java ils ont des pics au démarrage ou pour du gc. merci pour le tuyau
Vous devez être connecté pour poster un message !
Recevoir les derniers articles gratuitement en créant un compte !
S'inscrire
royer-margaret
Membre depuis le 19/05/2019actif rédacteur
hello la commu on a un truc chelou avec prometheus on reçoit plein d'alertes CPU usage élevé pour des pods qui en fait sont chill. l'alerte se déclenche pour 5min de 80% cpu mais quand on va voir les métriques direct après l'alerte ça a déjà chuté à 10-20%. c'est super relou