Membre depuis le 25/06/2024
salut. on a prometheus qui tourne en k8s et nos targets (pods avec annotations) elles flapent de ouf. des fois elles sont up, des fois down, puis up. ça arrive aléatoirement sur des services différents. la conf de scraping est basique on scrape sur /metrics. les pods sont sains par ailleurs. c'est super chiant pour les alertes. une idée de pourquoi ça fait ça ?
# extrait de notre service monitor (simplifié)
apiVersion: monitoring.coreos.com/v1
kind: ServiceMonitor
metadata:
name: my-app
labels:
app: my-app
spec:
selector:
matchLabels:
app: my-app
endpoints:
- port: http-metrics
path: /metrics
interval: 15s
Vous devez être connecté pour poster un message !
Recevoir les derniers articles gratuitement en créant un compte !
S'inscrire
Commentaires
jeanne65
Membre depuis le 07/04/2024
yo. si les pods sont sains c'est ptete pas l'appli en elle-même. regarde tes prometheus logs. y'a des messages sur des timeouts lors du scrape ? ou des erreurs de connexion ? ça pourrait être un souci réseau au niveau du cni ou des kube-proxy.
lucas43
Membre depuis le 23/10/2024
grave. et check les ressources de ton prometheus pod. si il est throttlé en cpu ou oomkillé il peut avoir du mal à scraper. et regarde aussi la métrique prometheus_target_scrape_pools_desired_scrapes vs prometheus_target_scrape_pools_actual_scrapes.
fleclerc
Membre depuis le 25/06/2024
les logs prometheus montrent quelques timeouts effectivement. et prometheus_target_scrape_pools_actual_scrapes est parfois inférieur au desired. les ressources du pod prometheus sont ok, pas de throttling apparent.
mathilde-briand
Membre depuis le 04/08/2024
hmm timeouts et scrapes manquants ça sent le réseau ou la charge sur les targets. est-ce que les pods qui flapent sont toujours sur les mêmes noeuds ? ou aléatoirement partout ? si c'est sur les mêmes noeuds ça peut être un souci cni localisé.
jeanne65
Membre depuis le 07/04/2024
si c'est des timeouts aussi vérifie la résolution dns pour tes services. si kube-dns ou coredns a du mal à résoudre l'ip du pod de temps en temps ça peut provoquer ces flaps. regarde les logs de coredns.
lucas43
Membre depuis le 23/10/2024
et la taille des réponses /metrics. si elles sont super grosses ça peut prendre plus de temps à scraper surtout si ya un peu de latence réseau. essaie de réduire l'intervalle de scrape pour voir si ça empire ou s'améliore, ça donnera une idée de la sensibilité.
fleclerc
Membre depuis le 25/06/2024
bon c'était un mix de coredns qui avait des pics de charge et des réponses /metrics trop grosses sur certains services. j'ai optimisé les metrics endpoints et on a scale up coredns. ça a l'air beaucoup plus stable maintenant. merci pour l'aide les gars c'était bien relou ce truc !