prometheus targets qui flapent en k8s c'est quoi le bordel

Question

salut. on a prometheus qui tourne en k8s et nos targets (pods avec annotations) elles flapent de ouf. des fois elles sont up, des fois down, puis up. ça arrive aléatoirement sur des services différents. la conf de scraping est basique on scrape sur /metrics. les pods sont sains par ailleurs. c'est super chiant pour les alertes. une idée de pourquoi ça fait ça ?
# extrait de notre service monitor (simplifié)
apiVersion: monitoring.coreos.com/v1
kind: ServiceMonitor
metadata:
  name: my-app
  labels:
    app: my-app
spec:
  selector:
    matchLabels:
      app: my-app
  endpoints:
  - port: http-metrics
    path: /metrics
    interval: 15s

jeanne65 · Answer

yo. si les pods sont sains c'est ptete pas l'appli en elle-même. regarde tes prometheus logs. y'a des messages sur des timeouts lors du scrape ? ou des erreurs de connexion ? ça pourrait être un souci réseau au niveau du cni ou des kube-proxy.

lucas43 · Answer

grave. et check les ressources de ton prometheus pod. si il est throttlé en cpu ou oomkillé il peut avoir du mal à scraper. et regarde aussi la métrique prometheus_target_scrape_pools_desired_scrapes vs prometheus_target_scrape_pools_actual_scrapes.

fleclerc · Answer

les logs prometheus montrent quelques timeouts effectivement. et prometheus_target_scrape_pools_actual_scrapes est parfois inférieur au desired. les ressources du pod prometheus sont ok, pas de throttling apparent.

mathilde-briand · Answer

hmm timeouts et scrapes manquants ça sent le réseau ou la charge sur les targets. est-ce que les pods qui flapent sont toujours sur les mêmes noeuds ? ou aléatoirement partout ? si c'est sur les mêmes noeuds ça peut être un souci cni localisé.

jeanne65 · Answer

si c'est des timeouts aussi vérifie la résolution dns pour tes services. si kube-dns ou coredns a du mal à résoudre l'ip du pod de temps en temps ça peut provoquer ces flaps. regarde les logs de coredns.

lucas43 · Answer

et la taille des réponses /metrics. si elles sont super grosses ça peut prendre plus de temps à scraper surtout si ya un peu de latence réseau. essaie de réduire l'intervalle de scrape pour voir si ça empire ou s'améliore, ça donnera une idée de la sensibilité.

fleclerc · Answer

bon c'était un mix de coredns qui avait des pics de charge et des réponses /metrics trop grosses sur certains services. j'ai optimisé les metrics endpoints et on a scale up coredns. ça a l'air beaucoup plus stable maintenant. merci pour l'aide les gars c'était bien relou ce truc !

prometheus targets qui flapent en k8s c'est quoi le bordel

Commentaires

Laisser une réponse

Comprendre les Permissions Utilisateurs sur GitLab

Comprendre et utiliser Filebeat dans la stack ELK

Cours complet d'introduction à la SDL 2

Rejoindre la communauté