context deadline exceeded c'est souvent un timeout. ton scrape_interval et scrape_timeout sont comment pour ce job ? t'as ptete des targets qui sont sur des serveurs plus chargés ou plus éloignés qui mettent plus de temps à répondre aux requêtes http de prometheus
regarde aussi côté réseau t'as pas un firewall ou un security group qui se ferme sur ces ips là après un certain temps ? un tcpdump sur prometheus et sur le target pendant qu'il scrape pourrait te donner des infos sur la connexion qui foire
alors scrape_interval c 15s et scrape_timeout 10s. les serveurs sont tous dans le même datacenter même subnet. j'ai fait le tcpdump et je vois des connexions s'établir puis se fermer sans échange de données juste avant le timeout. c'est bizarre
ok si le tcpdump montre une connexion qui s'établit mais sans échange de données regarde sur les targets si le node_exporter (ou whatever exporter t'utilises) est pas en train de planter ou de se bloquer. un systemctl status node_exporter et les logs du service seraient utiles
bingo ! le node_exporter de ces targets est en mode zombie il répondait pas aux requêtes même si le process était up. un redémarrage du service a tout remis d'aplomb. merci pour la piste !
Vous devez être connecté pour poster un message !
Recevoir les derniers articles gratuitement en créant un compte !
S'inscrire
jeanne65
Membre depuis le 30/08/2019actif secouriste
salut la team j'ai un souci avec prometheus. certains targets ne sont plus scrapés par intermittence alors qu'ils sont up et que les métriques sont dispo si je curl l'endpoint directement. j'ai regardé les logs de prometheus mais rien d'explicite si ce n'est des
context deadline exceeded. d'autres targets sur le même job scrape nickel