Prometheus scrape_duration super élevé sur certains targets

Question

salut la team prom ! j'ai un truc chelou sur notre cluster prometheus certains targets ont une scrape_duration qui monte à 10s voir plus alors que le scrape_interval est à 15s. ça les rends inatteignables pendant de longues périodes. les services derrière les targets ont l'air ok pas de charge cpu/mem de fou. des idées pour debug ça ?
# excerpt from prometheus.yml
- job_name: 'my-service'
  metrics_path: /metrics
  static_configs:
    - targets: ['10.0.0.1:9100', '10.0.0.2:9100']

vincent-marianne · Answer

t'as regardé les logs de prometheus pour voir si y a des erreurs de timeout ou des soucis de connexion tcp ? des fois c juste le réseau entre prometheus et le target qui galère

matthieu-briand · Answer

aussi check la taille des métriques exposées sur les targets qui posent problème un endpoint avec des milliers de métriques ça peut prendre du temps à scraper même si le service est pas chargé

eric-pichon · Answer

ouais et le format des métriques text vs protobuf si c'est du text et que c'est gros ça peut impacter le parsing côté prometheus. regarde l'output de /metrics direct sur un browser pour voir si c'est lourd

bertrand-dubois · Answer

ok pour les logs y a bien des timeout dans prom mais pas de tcp errors apparentes. pour la taille c'est des targets node_exporter donc ça devrait pas être gigantesque. mais j'ai checké une instance récalcitrante et le fichier /metrics est à 500ko. ça vous semble beaucoup ?

vincent-marianne · Answer

500ko pour node_exporter c'est pas dingue mais c'est pas négligeable non plus. par contre si le target est sur un host avec bcp de disques bcp de nic bcp de fichiersystème etc ça peut gonfler. est-ce que tu as des relabel_configs complexes sur ces targets ? ça peut aussi impacter le processing

matthieu-briand · Answer

aussi un truc con mais la conf du pare-feu sur le target ou sur le chemin entre prom et target un peu trop zélé ça peut faire des latences aléatoires à cause de la négociation

bertrand-dubois · Answer

pas de relabel configs spécifiques pour ces targets non. par contre l'idée du pare-feu est intéressante c'est un env un peu blindé je vais voir avec la sécu si y a pas un truc qui traîne. thx pour les pistes

Prometheus scrape_duration super élevé sur certains targets

7 commentaires

Laisser une réponse

Les conditions dans le langage de programmation Go

Introduction au rapport DORA

L'IA Redéfinit l'Architecture Logicielle : Vers des Systèmes Auto-Conçus en DevOps

Tuto : Configurer l'Auto-scaling GPU pour vos LLM avec Karpenter

Bases de Données sur Kubernetes : Miracle ou Mirage Architectural ?

Rejoindre la communauté