5 commentaires
un autre truc qui peut poser problème c'est la résolution dns depuis le pod prometheus si t'as un coredns un peu foireux ou des entrées dns qui se mettent à jour lentement prometheus peut galérer à trouver l'ip de la cible et la marquer down temporairement
ah ok je vais check ça les scrape_timeout sont à 10s c'est peut-être un peu short pour certaines cibles. et pour le dns j'avais pas pensé au coredns je vais jeter un œil aux logs
c'était bien la résolution DNS du coredns qui faisait des siennes de temps en temps il mettait trop de temps à résoudre certaines entrées. j'ai mis un hostAliases pour les cibles les plus problématiques et ça a l'air de tenir. thx les gars !
Laisser une réponse
Vous devez être connecté pour poster un message !
salut on a prometheus qui nous envoie des alertes
instance downun peu n'importe comment des fois sur des serveurs qui sont clairement up et répondent nickel quand on ssh dessusles exporters tournent bien sur les machines le port est ouvert pas de pare-feu et pourtant boum une alerte toutes les deux trois heures sur des cibles random