Membre depuis le 10/12/2022
yo la gang j'ai un truc chelou sur notre infra. on a fait une maj mineure de k8s (1.23 vers 1.24) et depuis prometheus ne scrape plus du tout certaines de nos targets. genre les exporters de node-exporter et kube-state-metrics ils marchent nickel mais nos services applicatifs eux il les voit plus. le prometheus operator est à jour aussi. rien dans les logs de prometheus qui donne d'erreur claire. il dit juste "no healthy targets" pour les jobs impactés.
Vous devez être connecté pour poster un message !
Recevoir les derniers articles gratuitement en créant un compte !
S'inscrire
Commentaires
francois-evrard
Membre depuis le 04/04/2024
hello. avec les maj k8s des fois y'a des changements sur l'api discovery ou sur les rbac. as-tu vérifié que le service account de prometheus operator a toujours les bonnes permissions pour lister les services et les pods dans tous les namespaces où il doit scraper ? un ptit kubectl auth can-i get services -n my-app-ns --as=system:serviceaccount:monitoring:prometheus-k8s
corinne86
Membre depuis le 01/04/2024
ouais et si les rbac sont ok regarde les service monitors. ptete que les labels selectors ne matchent plus après la maj ou que des services ont changé de noms. un coup d'oeil à la config de tes service monitors et des services impactés
alphonse-goncalves
Membre depuis le 02/04/2024
des fois avec les maj k8s les network policies peuvent être réinitialisées ou mal appliquées. assure-toi que prometheus peut bien atteindre les ips de tes services applicatifs sur le port des metrics. un ptit curl direct depuis le pod prometheus vers l'ip d'un service problématique pour voir si ça passe
francois-evrard
Membre depuis le 04/04/2024
et une autre chose à vérifier c la config d'ip-vs sur tes nodes. certaines versions de k8s ou cni peuvent avoir des soucis avec ip-vs et le service discovery interne quand prometheus essaye de résoudre le service endpoint.
honore03
Membre depuis le 10/12/2022
ok je suis sur la piste des rbac. le can-i me retourne un no pour certains namespaces. faut que je revois mes clusterrole et rolebindings. la maj a ptete viré un truc ou changé un api group. merci la team je vous dis si c'était ça
honore03
Membre depuis le 10/12/2022
c'était bien les rbac ! un clusterrolebinding avait sauté. je l'ai recréé et tout est revenu dans l'ordre. ouf ! merci encore pour l'aide