SRE : Prometheus ne scrape plus tous les targets

Posté par jeanne65 le 22/04/2024
RÉSOLU

jeanne65

Membre depuis le 30/08/2019

actif secouriste

salut la team j'ai un souci avec prometheus. certains targets ne sont plus scrapés par intermittence alors qu'ils sont up et que les métriques sont dispo si je curl l'endpoint directement. j'ai regardé les logs de prometheus mais rien d'explicite si ce n'est des context deadline exceeded. d'autres targets sur le même job scrape nickel

# extrait de prometheus.yml (simplifié)
scrape_configs:
  - job_name: 'my_service'
    static_configs:
      - targets: ['10.0.0.1:9100', '10.0.0.2:9100', '10.0.0.3:9100']

Commentaires

maggie18

Membre depuis le 10/06/2020

actif secouriste

context deadline exceeded c'est souvent un timeout. ton scrape_interval et scrape_timeout sont comment pour ce job ? t'as ptete des targets qui sont sur des serveurs plus chargés ou plus éloignés qui mettent plus de temps à répondre aux requêtes http de prometheus

antoine-gay

Membre depuis le 31/03/2024

actif secouriste

regarde aussi côté réseau t'as pas un firewall ou un security group qui se ferme sur ces ips là après un certain temps ? un tcpdump sur prometheus et sur le target pendant qu'il scrape pourrait te donner des infos sur la connexion qui foire

jeanne65

Membre depuis le 30/08/2019

actif secouriste

alors scrape_interval c 15s et scrape_timeout 10s. les serveurs sont tous dans le même datacenter même subnet. j'ai fait le tcpdump et je vois des connexions s'établir puis se fermer sans échange de données juste avant le timeout. c'est bizarre

maggie18

Membre depuis le 10/06/2020

actif secouriste

ok si le tcpdump montre une connexion qui s'établit mais sans échange de données regarde sur les targets si le node_exporter (ou whatever exporter t'utilises) est pas en train de planter ou de se bloquer. un systemctl status node_exporter et les logs du service seraient utiles

jeanne65

Membre depuis le 30/08/2019

actif secouriste

bingo ! le node_exporter de ces targets est en mode zombie il répondait pas aux requêtes même si le process était up. un redémarrage du service a tout remis d'aplomb. merci pour la piste !

Laisser une réponse

Vous devez être connecté pour poster un message !

Rejoindre la communauté

Recevoir les derniers articles gratuitement en créant un compte !

S'inscrire