12 commentaires
check tes logs prometheus y'a ptete des erreurs de scrape genre timeout ou http status non 2xx. des fois le pod est ok mais l'endpoint /metrics rame
t'as pas des network policies dans ton cluster k8s qui pourraient bloquer temporairement le trafic entre prometheus et l'api-server ou entre prometheus et les pods ciblés ? des fois les règles sont un peu trop agressives
aussi check la fréquence de resync de ton kubernetes_sd_configs. par défaut c'est 30s. si ton cluster est très dynamique avec bcp de churn de pods ça peut rater des events
si le problème est vraiment intermittent et qu'il n'y a pas d'erreurs visibles dans les logs de prometheus ou des pods cible, ça sent le soucis d'event de l'api k8s. parfois l'api cache des etcd events ou le watch channel est lent. regarde les métriques de ton k8s api-server pour voir si y'a des latences ou des erreurs de watch
Laisser une réponse
Vous devez être connecté pour poster un message !
Salut à tous ! On a Prometheus qui monitore nos pods k8s avec le service discovery intégré. Sauf que régulièrement des targets disparaissent du scrape pour réapparaître plus tard. Y'a pas de scale down ou de crash de pod. juste le scrape qui est plus là pendant quelques minutes. C'est aléatoire mais chiant pour les alertes