yo. si les pods sont sains c'est ptete pas l'appli en elle-même. regarde tes prometheus logs. y'a des messages sur des timeouts lors du scrape ? ou des erreurs de connexion ? ça pourrait être un souci réseau au niveau du cni ou des kube-proxy.
grave. et check les ressources de ton prometheus pod. si il est throttlé en cpu ou oomkillé il peut avoir du mal à scraper. et regarde aussi la métrique prometheus_target_scrape_pools_desired_scrapes vs prometheus_target_scrape_pools_actual_scrapes.
les logs prometheus montrent quelques timeouts effectivement. et prometheus_target_scrape_pools_actual_scrapes est parfois inférieur au desired. les ressources du pod prometheus sont ok, pas de throttling apparent.
hmm timeouts et scrapes manquants ça sent le réseau ou la charge sur les targets. est-ce que les pods qui flapent sont toujours sur les mêmes noeuds ? ou aléatoirement partout ? si c'est sur les mêmes noeuds ça peut être un souci cni localisé.
si c'est des timeouts aussi vérifie la résolution dns pour tes services. si kube-dns ou coredns a du mal à résoudre l'ip du pod de temps en temps ça peut provoquer ces flaps. regarde les logs de coredns.
et la taille des réponses /metrics. si elles sont super grosses ça peut prendre plus de temps à scraper surtout si ya un peu de latence réseau. essaie de réduire l'intervalle de scrape pour voir si ça empire ou s'améliore, ça donnera une idée de la sensibilité.
bon c'était un mix de coredns qui avait des pics de charge et des réponses /metrics trop grosses sur certains services. j'ai optimisé les metrics endpoints et on a scale up coredns. ça a l'air beaucoup plus stable maintenant. merci pour l'aide les gars c'était bien relou ce truc !
Vous devez être connecté pour poster un message !
Recevoir les derniers articles gratuitement en créant un compte !
S'inscrire
fleclerc
Membre depuis le 25/06/2024actif
salut. on a prometheus qui tourne en k8s et nos targets (pods avec annotations) elles flapent de ouf. des fois elles sont up, des fois down, puis up. ça arrive aléatoirement sur des services différents. la conf de scraping est basique on scrape sur /metrics. les pods sont sains par ailleurs. c'est super chiant pour les alertes. une idée de pourquoi ça fait ça ?