hello. première chose à regarder côté prom c'est les logs. y'a quoi quand le scrape échoue ? des timeouts ? des erreurs de connexion ? et regarde la métrique prometheus_target_scrape_pool_exceeded_max_samples ou _exceeded_sample_limit si ton exporter sort trop de métriques
aussi check la latence réseau entre prometheus et tes cibles. même si un curl passe à la main ça veut pas dire que c stable en permanence. un peu de perte de paquets ou de congestion réseau sur 15s de scrape interval ça peut faire foirer un scrape. un mtr depuis prometheus vers la cible pour voir
ok les logs de prom montrent bien des scrape_timeout. j'ai pas d'erreurs d'exceeded_max_samples. le mtr est clean. j'ai l'impression que c'est aléatoire mais ça arrive plus souvent quand l'appli est un peu chargée. ptete un souci sur l'exporter lui-même ou la jvm qui lag un peu à répondre aux requêtes /metrics
c'est fort possible. si la jvm est sous pression le thread qui gère l'endpoint /metrics peut prendre du temps à répondre. augmente ton scrape_timeout à 30s juste pour voir si ça atténue le problème. et regarde les métriques de la jvm elle-même (cpu usage heap usage gc activity) pour voir si y'a pas des pics qui corrèlent avec les échecs de scrape
bingo ! j'ai monté le scrape_timeout à 30s et les ratés ont presque disparu. en fait la jvm faisait des pauses gc assez longues par intermittence et ça rendait l'endpoint /metrics lent à répondre. faut qu'on optimise les settings gc. thx la team pour le diagnostic rapide !
Vous devez être connecté pour poster un message !
Recevoir les derniers articles gratuitement en créant un compte !
S'inscrire
augustin55
Membre depuis le 29/03/2019salut les sres. j'ai un souci avec prometheus. sur certains de nos services (des jvm app avec un exporter custom) prometheus rate les scrapes de manière intermittente. genre ça scrape bien 2-3 fois puis un scrape échoue puis ça repart. l'instance de l'appli est up, l'exporter répond bien quand je curl à la main depuis le prom server. je pige pas le pourquoi du comment. prom 2.30, 1000 cpus 4To ram