salut. 10s de timeout pour 15s d'interval c'est un peu short si tes targets sont déjà lentes. tu peux tenter d'augmenter le scrape_timeout pour ces targets spécifiques avec un relabel_config si tu peux les isoler via un label. ou alors baisser le scrape_interval si le timeout doit rester bas, mais ça surcharge prometheus
perso j'aurai tendance à regarder pourquoi tes targets sont si lentes. c quoi le service ? si c un exporter custom ptete qu'il fait des requêtes bloquantes avant de servir les métriques. faut optimiser le exporter lui-même c le mieux. ou si c un client direct genre un /metrics endpoint, pourquoi ça lag de ouf
si c'est des targets que t'as pas la main dessus ou qui sont inherentement lentes genre des vieux systèmes d'info, une option c'est d'utiliser un pushgateway. tes services poussent leurs métriques dessus et prometheus scrape juste le pushgateway qui lui est rapide. ça decouple la collecte de la latence du target. par contre tu perds un peu le modèle pull de prometheus
un truc con aussi mais ton réseau entre prometheus et les targets il est ok ? pas de congestion ou de pare-feu qui introduirait de la latence de manière aléatoire ? un tcpdump ou un iperf entre prometheus et une target lente peut donner des infos sur la latence pure réseau
d'acc merci pour les pistes. c'est un mix d'anciens services et des exporters pas super optis. je vais tester le relabel_config pour augmenter le timeout sur les pires et en parallèle investiguer les exporters. le pushgateway c'est une bonne idée pour les irrécupérables. le réseau est ok pas de souci de ce côté. je vais aussi regarder pourquoi les exporters sont si gourmands. thx à tous !
Vous devez être connecté pour poster un message !
Recevoir les derniers articles gratuitement en créant un compte !
S'inscrire
mace-jeannine
Membre depuis le 08/05/2024actif
hello la team sre. on a des targets prometheus qui sont parfois super lentes à répondre (genre 15-20s) et du coup prometheus rate des scrapes. ma config
scrape_intervalest à 15s etscrape_timeoutà 10s. ça me crée des trous dans mes métriques. comment on gère ça proprement sans augmenter le timeout partout ?