salut. c'est un souci de threshold trop bas ou de duration trop courte ? si tes pods ont des pics d'utilisation courts c'est normal que ça flappe. essaie d'augmenter la duration de ton alerte à genre 5min et de mettre un threshold un peu plus haut. et regarde la métrique rate(container_cpu_usage_seconds_total[5m]) au lieu du instant
d'acc je vais essayer d'augmenter la durée et le seuil. on utilisait la métrique brute container_cpu_usage_seconds_total du coup c'est ptete ça. je vais passer sur la rate sur 5min pour lisser. merci du tip
de rien. si ça continue de flapper après ça c'est ptete un problème de resilience de tes services plutôt que de monitoring. mais commence par affiner tes alertes
ok super je vous tiens au jus. thx
Vous devez être connecté pour poster un message !
Recevoir les derniers articles gratuitement en créant un compte !
S'inscrire
roy-eric
Membre depuis le 06/09/2024actif
yo la team. on a des alertes Prometheus qui flappent non-stop sur les pods de nos microservices. genre
cpuusagehighouMemoryUsageHigh. ça s'active 30s puis ça se désactive direct. c'est super chiant on sait plus quoi regarder