Perte de métriques Prometheus après redémarrage des cibles

Question

salut
on a un souci avec prometheus. quand on redémarre nos applications (nos cibles prometheus) on perd les métriques pendant quelques minutes après le redémarrage. le job scrape prometheus met du temps à les récupérer. c'est un microservice java avec spring boot actuator donc il expose bien les métriques des le start. on utilise consul pour la discovery.

alice52 · Answer

yo des fois c'est juste un souci de scrape interval. si ton service met disons 30s à démarrer et prometheus est configuré avec un scrape interval de 15s le temps qu'il se relève il peut rater quelques scrapes et ça donne une impression de vide. aussi check la config consul pour voir si le service est bien enregistré rapidement après le redémarrage

alaine · Answer

le scrape interval est à 10s et le démarrage des services prend 5-10s. consul est assez réactif pour l'enregistrement. par contre j'ai vu des messages dans les logs de prometheus du genre target stale ou failed to scrape target endpoint. ça correspond au moment du redémarrage

alice52 · Answer

ah ok target stale c'est normal si le target n'est plus là. par contre failed to scrape c'est plus intéressant. est-ce que quand le service redémarre il change d'adresse ip ou de port ? ou ptete le scrape timeout de prometheus est trop court et le service pas encore vraiment prêt à répondre sur son endpoint même s'il est up

alaine · Answer

non l'ip et le port restent les mêmes. le scrape timeout est à 5s. j'ai essayé de l'augmenter à 15s et là les métriques sont récupérées plus vite après le redémarrage. ptete que le endpoint répondait pas encore assez vite juste après le start même si le service était "up"

alice52 · Answer

ça colle. le service peut être up et écouter mais prendre un peu de temps à initier toutes ses ressources et rendre l'endpoint /actuator/prometheus vraiment réactif. augmenter le scrape timeout c'est une bonne solution pour ça. content que ça ait aidé

Perte de métriques Prometheus après redémarrage des cibles

5 commentaires

Laisser une réponse

Les Slices (tableaux dynamiques) dans le langage de programmation Go

C'est quoi exactement un conteneur ?

La solution clé en main DevSecOps "Automatisator"

Maîtriser les permissions GitLab CI/CD pour la sécurité

Configuration avancée des Runners GitLab via config.toml

Rejoindre la communauté