Sujet :

prometheus : targets lents et manquant des scrapes

RÉSOLU

Liste des sujets Répondre Créer un sujet

mace-jeannine

Membre depuis le 08/05/2024

hello la team sre. on a des targets prometheus qui sont parfois super lentes à répondre (genre 15-20s) et du coup prometheus rate des scrapes. ma config scrape_interval est à 15s et scrape_timeout à 10s. ça me crée des trous dans mes métriques. comment on gère ça proprement sans augmenter le timeout partout ?

hugues44

Membre depuis le 21/07/2024

salut. 10s de timeout pour 15s d'interval c'est un peu short si tes targets sont déjà lentes. tu peux tenter d'augmenter le scrape_timeout pour ces targets spécifiques avec un relabel_config si tu peux les isoler via un label. ou alors baisser le scrape_interval si le timeout doit rester bas, mais ça surcharge prometheus

vlejeune

Membre depuis le 01/09/2024

perso j'aurai tendance à regarder pourquoi tes targets sont si lentes. c quoi le service ? si c un exporter custom ptete qu'il fait des requêtes bloquantes avant de servir les métriques. faut optimiser le exporter lui-même c le mieux. ou si c un client direct genre un /metrics endpoint, pourquoi ça lag de ouf

zoe47

Membre depuis le 06/09/2024

si c'est des targets que t'as pas la main dessus ou qui sont inherentement lentes genre des vieux systèmes d'info, une option c'est d'utiliser un pushgateway. tes services poussent leurs métriques dessus et prometheus scrape juste le pushgateway qui lui est rapide. ça decouple la collecte de la latence du target. par contre tu perds un peu le modèle pull de prometheus

gros-victor

Membre depuis le 23/05/2024

un truc con aussi mais ton réseau entre prometheus et les targets il est ok ? pas de congestion ou de pare-feu qui introduirait de la latence de manière aléatoire ? un tcpdump ou un iperf entre prometheus et une target lente peut donner des infos sur la latence pure réseau

mace-jeannine

Membre depuis le 08/05/2024

d'acc merci pour les pistes. c'est un mix d'anciens services et des exporters pas super optis. je vais tester le relabel_config pour augmenter le timeout sur les pires et en parallèle investiguer les exporters. le pushgateway c'est une bonne idée pour les irrécupérables. le réseau est ok pas de souci de ce côté. je vais aussi regarder pourquoi les exporters sont si gourmands. thx à tous !

Répondre

vous devez être connecté pour poster un message !

Rejoindre la communauté

Recevoir les derniers articles gratuitement en créant un compte !

S'inscrire