Prometheus scrape_duration super élevé sur certains targets

bertrand-dubois 25/03/2025
RÉSOLU
bertrand-dubois
Auteur Actif
Avatar de bertrand-dubois
bertrand-dubois
Auteur Actif

salut la team prom ! j'ai un truc chelou sur notre cluster prometheus certains targets ont une scrape_duration qui monte à 10s voir plus alors que le scrape_interval est à 15s. ça les rends inatteignables pendant de longues périodes. les services derrière les targets ont l'air ok pas de charge cpu/mem de fou. des idées pour debug ça ?

# excerpt from prometheus.yml
- job_name: 'my-service'
  metrics_path: /metrics
  static_configs:
    - targets: ['10.0.0.1:9100', '10.0.0.2:9100']
25/03/2025 à 19:47

7 commentaires

vincent-marianne
Membre Actif
Avatar de vincent-marianne
vincent-marianne
Membre Actif

t'as regardé les logs de prometheus pour voir si y a des erreurs de timeout ou des soucis de connexion tcp ? des fois c juste le réseau entre prometheus et le target qui galère

26/03/2025 à 17:48
matthieu-briand
Membre Actif
Avatar de matthieu-briand
matthieu-briand
Membre Actif

aussi check la taille des métriques exposées sur les targets qui posent problème un endpoint avec des milliers de métriques ça peut prendre du temps à scraper même si le service est pas chargé

27/03/2025 à 15:46
eric-pichon
Membre Actif
Avatar de eric-pichon
eric-pichon
Membre Actif

ouais et le format des métriques text vs protobuf si c'est du text et que c'est gros ça peut impacter le parsing côté prometheus. regarde l'output de /metrics direct sur un browser pour voir si c'est lourd

28/03/2025 à 10:49
bertrand-dubois
Auteur Actif
Avatar de bertrand-dubois
bertrand-dubois
Auteur Actif

ok pour les logs y a bien des timeout dans prom mais pas de tcp errors apparentes. pour la taille c'est des targets node_exporter donc ça devrait pas être gigantesque. mais j'ai checké une instance récalcitrante et le fichier /metrics est à 500ko. ça vous semble beaucoup ?

29/03/2025 à 05:25
vincent-marianne
Membre Actif
Avatar de vincent-marianne
vincent-marianne
Membre Actif

500ko pour node_exporter c'est pas dingue mais c'est pas négligeable non plus. par contre si le target est sur un host avec bcp de disques bcp de nic bcp de fichiersystème etc ça peut gonfler. est-ce que tu as des relabel_configs complexes sur ces targets ? ça peut aussi impacter le processing

30/03/2025 à 00:35
matthieu-briand
Membre Actif
Avatar de matthieu-briand
matthieu-briand
Membre Actif

aussi un truc con mais la conf du pare-feu sur le target ou sur le chemin entre prom et target un peu trop zélé ça peut faire des latences aléatoires à cause de la négociation

30/03/2025 à 20:23
bertrand-dubois
Auteur Actif
Avatar de bertrand-dubois
bertrand-dubois
Auteur Actif

pas de relabel configs spécifiques pour ces targets non. par contre l'idée du pare-feu est intéressante c'est un env un peu blindé je vais voir avec la sécu si y a pas un truc qui traîne. thx pour les pistes

31/03/2025 à 19:54

Laisser une réponse

Vous devez être connecté pour poster un message !

Rejoindre la communauté

Recevoir les derniers articles gratuitement en créant un compte !

S'inscrire