8 commentaires
j'ai mis un extrait de servicemonitor c'est bien l'opérateur. l'intervalle est à 30s. le service qui expose les métriques utilise un health check de readiness sur /healthz qui renvoie un 200 quand il est prêt. mais même après le readiness probe ok prometheus rate le scrape
hmm un truc classique c'est que ton pod est "ready" mais pas encore "réellement prêt" à servir des métriques. le temps entre le moment où le container démarre et expose son port et le moment où l'appli dedans est vraiment up et expose les métriques peut être plus long que ton readiness probe ne le laisse penser
pour les apps java qui mettent du temps à boot tu peux essayer un initialDelaySeconds plus long sur ton readiness probe ou même un exec probe qui curl /metrics direct pour être sûr qu'il répond avec des trucs valides avant de marquer le pod comme ready
Laisser une réponse
Vous devez être connecté pour poster un message !
Salut à tous on a un souci récurrent avec Prometheus dans notre cluster k8s. On a un service qui scale pas mal et Prometheus rate des scrapes régulièrement surtout quand ça scale up ou down. Des fois des pods sont up mais Prometheus ne les voit pas ou met trop de temps à les scrape. J'ai l'impression qu'il manque des métriques sur certains pods