t'as regardé les logs de prometheus pour voir si y a des erreurs de timeout ou des soucis de connexion tcp ? des fois c juste le réseau entre prometheus et le target qui galère
aussi check la taille des métriques exposées sur les targets qui posent problème un endpoint avec des milliers de métriques ça peut prendre du temps à scraper même si le service est pas chargé
ouais et le format des métriques text vs protobuf si c'est du text et que c'est gros ça peut impacter le parsing côté prometheus. regarde l'output de /metrics direct sur un browser pour voir si c'est lourd
ok pour les logs y a bien des timeout dans prom mais pas de tcp errors apparentes. pour la taille c'est des targets node_exporter donc ça devrait pas être gigantesque. mais j'ai checké une instance récalcitrante et le fichier /metrics est à 500ko. ça vous semble beaucoup ?
500ko pour node_exporter c'est pas dingue mais c'est pas négligeable non plus. par contre si le target est sur un host avec bcp de disques bcp de nic bcp de fichiersystème etc ça peut gonfler. est-ce que tu as des relabel_configs complexes sur ces targets ? ça peut aussi impacter le processing
aussi un truc con mais la conf du pare-feu sur le target ou sur le chemin entre prom et target un peu trop zélé ça peut faire des latences aléatoires à cause de la négociation
pas de relabel configs spécifiques pour ces targets non. par contre l'idée du pare-feu est intéressante c'est un env un peu blindé je vais voir avec la sécu si y a pas un truc qui traîne. thx pour les pistes
Vous devez être connecté pour poster un message !
Recevoir les derniers articles gratuitement en créant un compte !
S'inscrire
bertrand-dubois
Membre depuis le 14/12/2019actif
salut la team prom ! j'ai un truc chelou sur notre cluster prometheus certains targets ont une scrape_duration qui monte à 10s voir plus alors que le scrape_interval est à 15s. ça les rends inatteignables pendant de longues périodes. les services derrière les targets ont l'air ok pas de charge cpu/mem de fou. des idées pour debug ça ?