SRE : Prometheus ne scrape plus tous les targets

Question

salut la team j'ai un souci avec prometheus. certains targets ne sont plus scrapés par intermittence alors qu'ils sont up et que les métriques sont dispo si je curl l'endpoint directement. j'ai regardé les logs de prometheus mais rien d'explicite si ce n'est des context deadline exceeded. d'autres targets sur le même job scrape nickel
# extrait de prometheus.yml (simplifié)
scrape_configs:
  - job_name: 'my_service'
    static_configs:
      - targets: ['10.0.0.1:9100', '10.0.0.2:9100', '10.0.0.3:9100']

maggie18 · Answer

context deadline exceeded c'est souvent un timeout. ton scrape_interval et scrape_timeout sont comment pour ce job ? t'as ptete des targets qui sont sur des serveurs plus chargés ou plus éloignés qui mettent plus de temps à répondre aux requêtes http de prometheus

antoine-gay · Answer

regarde aussi côté réseau t'as pas un firewall ou un security group qui se ferme sur ces ips là après un certain temps ? un tcpdump sur prometheus et sur le target pendant qu'il scrape pourrait te donner des infos sur la connexion qui foire

jeanne65 · Answer

alors scrape_interval c 15s et scrape_timeout 10s. les serveurs sont tous dans le même datacenter même subnet. j'ai fait le tcpdump et je vois des connexions s'établir puis se fermer sans échange de données juste avant le timeout. c'est bizarre

maggie18 · Answer

ok si le tcpdump montre une connexion qui s'établit mais sans échange de données regarde sur les targets si le node_exporter (ou whatever exporter t'utilises) est pas en train de planter ou de se bloquer. un systemctl status node_exporter et les logs du service seraient utiles

jeanne65 · Answer

bingo ! le node_exporter de ces targets est en mode zombie il répondait pas aux requêtes même si le process était up. un redémarrage du service a tout remis d'aplomb. merci pour la piste !

SRE : Prometheus ne scrape plus tous les targets

5 commentaires

Laisser une réponse

C'est quoi exactement un conteneur ?

Mise à niveau d'un cluster Kubernetes (kubeadm)

MLOps : Le DevOps au Cœur de l'Intelligence Artificielle

Le Futur du Calcul : Maîtriser la Matière Programmable avec DevOps

Guide : Étendre votre Service Mesh avec des filtres Wasm et Rust

Rejoindre la communauté