SRE : Prometheus des alertes instance down aléatoires

legendre-bertrand 12/10/2025
RÉSOLU
legendre-bertrand
Auteur Actif
Avatar de legendre-bertrand
legendre-bertrand
Auteur Actif

salut on a prometheus qui nous envoie des alertes instance down un peu n'importe comment des fois sur des serveurs qui sont clairement up et répondent nickel quand on ssh dessus

les exporters tournent bien sur les machines le port est ouvert pas de pare-feu et pourtant boum une alerte toutes les deux trois heures sur des cibles random

12/10/2025 à 11:09

5 commentaires

renee49
Membre Actif
Avatar de renee49
renee49
Membre Actif

yep classique ça. regarde la config de ton prometheus surtout le scrape_interval et le evaluation_interval si ton scrape_timeout est trop court ça peut faire des faux positifs si le réseau est un peu lent ou l'exporter un peu long à répondre

13/10/2025 à 10:53

un autre truc qui peut poser problème c'est la résolution dns depuis le pod prometheus si t'as un coredns un peu foireux ou des entrées dns qui se mettent à jour lentement prometheus peut galérer à trouver l'ip de la cible et la marquer down temporairement

14/10/2025 à 10:34
legendre-bertrand
Auteur Actif
Avatar de legendre-bertrand
legendre-bertrand
Auteur Actif

ah ok je vais check ça les scrape_timeout sont à 10s c'est peut-être un peu short pour certaines cibles. et pour le dns j'avais pas pensé au coredns je vais jeter un œil aux logs

15/10/2025 à 10:33
renee49
Membre Actif
Avatar de renee49
renee49
Membre Actif

si le dns est l' culprit tu peux essayer de mettre des host_sd_configs pour les cibles critiques pour bypasser le dns interne du cluster c'est pas idéal mais ça dépanne

16/10/2025 à 06:14
legendre-bertrand
Auteur Actif
Avatar de legendre-bertrand
legendre-bertrand
Auteur Actif

c'était bien la résolution DNS du coredns qui faisait des siennes de temps en temps il mettait trop de temps à résoudre certaines entrées. j'ai mis un hostAliases pour les cibles les plus problématiques et ça a l'air de tenir. thx les gars !

17/10/2025 à 02:24

Laisser une réponse

Vous devez être connecté pour poster un message !

Rejoindre la communauté

Recevoir les derniers articles gratuitement en créant un compte !

S'inscrire