4 commentaires
le scrape interval est à 15s donc ça devrait être bon. pas de recording rules pour le cpu direct on utilise la métrique brute
ça ressemble à des cpu bursts. certains pods utilisent leur full quota pendant un court instant puis redescendent. si tu veux pas alerter sur ces pics tu peux augmenter le for: à genre 10m ou utiliser un average sur une période plus longue dans l'expr comme avg_over_time(...[10m])
je vais tenter d'augmenter le for à 10m ça me semble une bonne piste. ouais c'est des microservices java ils ont des pics au démarrage ou pour du gc. merci pour le tuyau
Laisser une réponse
Vous devez être connecté pour poster un message !
hello la commu on a un truc chelou avec prometheus on reçoit plein d'alertes CPU usage élevé pour des pods qui en fait sont chill. l'alerte se déclenche pour 5min de 80% cpu mais quand on va voir les métriques direct après l'alerte ça a déjà chuté à 10-20%. c'est super relou