prometheus targets qui flapent en k8s c'est quoi le bordel

Posté par fleclerc le 06/01/2025
RÉSOLU

fleclerc

Membre depuis le 25/06/2024

salut. on a prometheus qui tourne en k8s et nos targets (pods avec annotations) elles flapent de ouf. des fois elles sont up, des fois down, puis up. ça arrive aléatoirement sur des services différents. la conf de scraping est basique on scrape sur /metrics. les pods sont sains par ailleurs. c'est super chiant pour les alertes. une idée de pourquoi ça fait ça ?

# extrait de notre service monitor (simplifié)
apiVersion: monitoring.coreos.com/v1
kind: ServiceMonitor
metadata:
  name: my-app
  labels:
    app: my-app
spec:
  selector:
    matchLabels:
      app: my-app
  endpoints:
  - port: http-metrics
    path: /metrics
    interval: 15s

Commentaires

jeanne65

Membre depuis le 07/04/2024

yo. si les pods sont sains c'est ptete pas l'appli en elle-même. regarde tes prometheus logs. y'a des messages sur des timeouts lors du scrape ? ou des erreurs de connexion ? ça pourrait être un souci réseau au niveau du cni ou des kube-proxy.

lucas43

Membre depuis le 23/10/2024

grave. et check les ressources de ton prometheus pod. si il est throttlé en cpu ou oomkillé il peut avoir du mal à scraper. et regarde aussi la métrique prometheus_target_scrape_pools_desired_scrapes vs prometheus_target_scrape_pools_actual_scrapes.

fleclerc

Membre depuis le 25/06/2024

les logs prometheus montrent quelques timeouts effectivement. et prometheus_target_scrape_pools_actual_scrapes est parfois inférieur au desired. les ressources du pod prometheus sont ok, pas de throttling apparent.

mathilde-briand

Membre depuis le 04/08/2024

hmm timeouts et scrapes manquants ça sent le réseau ou la charge sur les targets. est-ce que les pods qui flapent sont toujours sur les mêmes noeuds ? ou aléatoirement partout ? si c'est sur les mêmes noeuds ça peut être un souci cni localisé.

jeanne65

Membre depuis le 07/04/2024

si c'est des timeouts aussi vérifie la résolution dns pour tes services. si kube-dns ou coredns a du mal à résoudre l'ip du pod de temps en temps ça peut provoquer ces flaps. regarde les logs de coredns.

lucas43

Membre depuis le 23/10/2024

et la taille des réponses /metrics. si elles sont super grosses ça peut prendre plus de temps à scraper surtout si ya un peu de latence réseau. essaie de réduire l'intervalle de scrape pour voir si ça empire ou s'améliore, ça donnera une idée de la sensibilité.

fleclerc

Membre depuis le 25/06/2024

bon c'était un mix de coredns qui avait des pics de charge et des réponses /metrics trop grosses sur certains services. j'ai optimisé les metrics endpoints et on a scale up coredns. ça a l'air beaucoup plus stable maintenant. merci pour l'aide les gars c'était bien relou ce truc !

Laisser une réponse

Vous devez être connecté pour poster un message !

Rejoindre la communauté

Recevoir les derniers articles gratuitement en créant un compte !

S'inscrire