Sujet :

SRE : Prometheus des alertes instance down aléatoires

RÉSOLU

Liste des sujets Répondre Créer un sujet

legendre-bertrand

Membre depuis le 17/10/2024

salut on a prometheus qui nous envoie des alertes instance down un peu n'importe comment des fois sur des serveurs qui sont clairement up et répondent nickel quand on ssh dessus

les exporters tournent bien sur les machines le port est ouvert pas de pare-feu et pourtant boum une alerte toutes les deux trois heures sur des cibles random

renee49

Membre depuis le 21/07/2024

yep classique ça. regarde la config de ton prometheus surtout le scrape_interval et le evaluation_interval si ton scrape_timeout est trop court ça peut faire des faux positifs si le réseau est un peu lent ou l'exporter un peu long à répondre

christophe-deschamps

Membre depuis le 25/10/2024

un autre truc qui peut poser problème c'est la résolution dns depuis le pod prometheus si t'as un coredns un peu foireux ou des entrées dns qui se mettent à jour lentement prometheus peut galérer à trouver l'ip de la cible et la marquer down temporairement

legendre-bertrand

Membre depuis le 17/10/2024

ah ok je vais check ça les scrape_timeout sont à 10s c'est peut-être un peu short pour certaines cibles. et pour le dns j'avais pas pensé au coredns je vais jeter un œil aux logs

renee49

Membre depuis le 21/07/2024

si le dns est l' culprit tu peux essayer de mettre des host_sd_configs pour les cibles critiques pour bypasser le dns interne du cluster c'est pas idéal mais ça dépanne

legendre-bertrand

Membre depuis le 17/10/2024

c'était bien la résolution DNS du coredns qui faisait des siennes de temps en temps il mettait trop de temps à résoudre certaines entrées. j'ai mis un hostAliases pour les cibles les plus problématiques et ça a l'air de tenir. thx les gars !

Répondre

vous devez être connecté pour poster un message !

Rejoindre la communauté

Recevoir les derniers articles gratuitement en créant un compte !

S'inscrire