Prometheus scrape_duration super élevé sur certains targets

Posté par bertrand-dubois le 25/03/2025
RÉSOLU

bertrand-dubois

Membre depuis le 30/04/2024

salut la team prom ! j'ai un truc chelou sur notre cluster prometheus certains targets ont une scrape_duration qui monte à 10s voir plus alors que le scrape_interval est à 15s. ça les rends inatteignables pendant de longues périodes. les services derrière les targets ont l'air ok pas de charge cpu/mem de fou. des idées pour debug ça ?

# excerpt from prometheus.yml
- job_name: 'my-service'
  metrics_path: /metrics
  static_configs:
    - targets: ['10.0.0.1:9100', '10.0.0.2:9100']

Commentaires

vincent-marianne

Membre depuis le 07/05/2024

t'as regardé les logs de prometheus pour voir si y a des erreurs de timeout ou des soucis de connexion tcp ? des fois c juste le réseau entre prometheus et le target qui galère

matthieu-briand

Membre depuis le 25/05/2024

aussi check la taille des métriques exposées sur les targets qui posent problème un endpoint avec des milliers de métriques ça peut prendre du temps à scraper même si le service est pas chargé

eric-pichon

Membre depuis le 18/12/2024

ouais et le format des métriques text vs protobuf si c'est du text et que c'est gros ça peut impacter le parsing côté prometheus. regarde l'output de /metrics direct sur un browser pour voir si c'est lourd

bertrand-dubois

Membre depuis le 30/04/2024

ok pour les logs y a bien des timeout dans prom mais pas de tcp errors apparentes. pour la taille c'est des targets node_exporter donc ça devrait pas être gigantesque. mais j'ai checké une instance récalcitrante et le fichier /metrics est à 500ko. ça vous semble beaucoup ?

vincent-marianne

Membre depuis le 07/05/2024

500ko pour node_exporter c'est pas dingue mais c'est pas négligeable non plus. par contre si le target est sur un host avec bcp de disques bcp de nic bcp de fichiersystème etc ça peut gonfler. est-ce que tu as des relabel_configs complexes sur ces targets ? ça peut aussi impacter le processing

matthieu-briand

Membre depuis le 25/05/2024

aussi un truc con mais la conf du pare-feu sur le target ou sur le chemin entre prom et target un peu trop zélé ça peut faire des latences aléatoires à cause de la négociation

bertrand-dubois

Membre depuis le 30/04/2024

pas de relabel configs spécifiques pour ces targets non. par contre l'idée du pare-feu est intéressante c'est un env un peu blindé je vais voir avec la sécu si y a pas un truc qui traîne. thx pour les pistes

Laisser une réponse

Vous devez être connecté pour poster un message !

Rejoindre la communauté

Recevoir les derniers articles gratuitement en créant un compte !

S'inscrire