SRE : Prometheus ne scrape plus tous les targets

jeanne65 22/04/2024
RÉSOLU
jeanne65
Auteur Actif Secouriste
Avatar de jeanne65
jeanne65
Auteur Actif Secouriste

salut la team j'ai un souci avec prometheus. certains targets ne sont plus scrapés par intermittence alors qu'ils sont up et que les métriques sont dispo si je curl l'endpoint directement. j'ai regardé les logs de prometheus mais rien d'explicite si ce n'est des context deadline exceeded. d'autres targets sur le même job scrape nickel

# extrait de prometheus.yml (simplifié)
scrape_configs:
  - job_name: 'my_service'
    static_configs:
      - targets: ['10.0.0.1:9100', '10.0.0.2:9100', '10.0.0.3:9100']
22/04/2024 à 18:09

5 commentaires

maggie18
Membre Actif
Avatar de maggie18
maggie18
Membre Actif

context deadline exceeded c'est souvent un timeout. ton scrape_interval et scrape_timeout sont comment pour ce job ? t'as ptete des targets qui sont sur des serveurs plus chargés ou plus éloignés qui mettent plus de temps à répondre aux requêtes http de prometheus

23/04/2024 à 13:44
antoine-gay
Membre Actif Secouriste
Avatar de antoine-gay
antoine-gay
Membre Actif Secouriste

regarde aussi côté réseau t'as pas un firewall ou un security group qui se ferme sur ces ips là après un certain temps ? un tcpdump sur prometheus et sur le target pendant qu'il scrape pourrait te donner des infos sur la connexion qui foire

24/04/2024 à 12:26
jeanne65
Auteur Actif Secouriste
Avatar de jeanne65
jeanne65
Auteur Actif Secouriste

alors scrape_interval c 15s et scrape_timeout 10s. les serveurs sont tous dans le même datacenter même subnet. j'ai fait le tcpdump et je vois des connexions s'établir puis se fermer sans échange de données juste avant le timeout. c'est bizarre

25/04/2024 à 08:33
maggie18
Membre Actif
Avatar de maggie18
maggie18
Membre Actif

ok si le tcpdump montre une connexion qui s'établit mais sans échange de données regarde sur les targets si le node_exporter (ou whatever exporter t'utilises) est pas en train de planter ou de se bloquer. un systemctl status node_exporter et les logs du service seraient utiles

26/04/2024 à 07:32
jeanne65
Auteur Actif Secouriste
Avatar de jeanne65
jeanne65
Auteur Actif Secouriste

bingo ! le node_exporter de ces targets est en mode zombie il répondait pas aux requêtes même si le process était up. un redémarrage du service a tout remis d'aplomb. merci pour la piste !

27/04/2024 à 06:04

Laisser une réponse

Vous devez être connecté pour poster un message !

Rejoindre la communauté

Recevoir les derniers articles gratuitement en créant un compte !

S'inscrire