prometheus : targets lents et manquant des scrapes

mace-jeannine 28/09/2024
RÉSOLU

hello la team sre. on a des targets prometheus qui sont parfois super lentes à répondre (genre 15-20s) et du coup prometheus rate des scrapes. ma config scrape_interval est à 15s et scrape_timeout à 10s. ça me crée des trous dans mes métriques. comment on gère ça proprement sans augmenter le timeout partout ?

28/09/2024 à 11:10

5 commentaires

hugues44
Membre Actif
Avatar de hugues44
hugues44
Membre Actif

salut. 10s de timeout pour 15s d'interval c'est un peu short si tes targets sont déjà lentes. tu peux tenter d'augmenter le scrape_timeout pour ces targets spécifiques avec un relabel_config si tu peux les isoler via un label. ou alors baisser le scrape_interval si le timeout doit rester bas, mais ça surcharge prometheus

29/09/2024 à 10:36
vlejeune
Membre Actif
Avatar de vlejeune
vlejeune
Membre Actif

perso j'aurai tendance à regarder pourquoi tes targets sont si lentes. c quoi le service ? si c un exporter custom ptete qu'il fait des requêtes bloquantes avant de servir les métriques. faut optimiser le exporter lui-même c le mieux. ou si c un client direct genre un /metrics endpoint, pourquoi ça lag de ouf

30/09/2024 à 06:32
zoe47
Membre Actif
Avatar de zoe47
zoe47
Membre Actif

si c'est des targets que t'as pas la main dessus ou qui sont inherentement lentes genre des vieux systèmes d'info, une option c'est d'utiliser un pushgateway. tes services poussent leurs métriques dessus et prometheus scrape juste le pushgateway qui lui est rapide. ça decouple la collecte de la latence du target. par contre tu perds un peu le modèle pull de prometheus

01/10/2024 à 00:48
gros-victor
Membre Actif Secouriste
Avatar de gros-victor
gros-victor
Membre Actif Secouriste

un truc con aussi mais ton réseau entre prometheus et les targets il est ok ? pas de congestion ou de pare-feu qui introduirait de la latence de manière aléatoire ? un tcpdump ou un iperf entre prometheus et une target lente peut donner des infos sur la latence pure réseau

01/10/2024 à 22:20

d'acc merci pour les pistes. c'est un mix d'anciens services et des exporters pas super optis. je vais tester le relabel_config pour augmenter le timeout sur les pires et en parallèle investiguer les exporters. le pushgateway c'est une bonne idée pour les irrécupérables. le réseau est ok pas de souci de ce côté. je vais aussi regarder pourquoi les exporters sont si gourmands. thx à tous !

02/10/2024 à 16:44

Laisser une réponse

Vous devez être connecté pour poster un message !

Rejoindre la communauté

Recevoir les derniers articles gratuitement en créant un compte !

S'inscrire