SRE : Prometheus des alertes instance down aléatoires

Question

salut on a prometheus qui nous envoie des alertes instance down un peu n'importe comment des fois sur des serveurs qui sont clairement up et répondent nickel quand on ssh dessus
les exporters tournent bien sur les machines le port est ouvert pas de pare-feu et pourtant boum une alerte toutes les deux trois heures sur des cibles random

renee49 · Answer

yep classique ça. regarde la config de ton prometheus surtout le scrape_interval et le evaluation_interval si ton scrape_timeout est trop court ça peut faire des faux positifs si le réseau est un peu lent ou l'exporter un peu long à répondre

christophe-deschamps · Answer

un autre truc qui peut poser problème c'est la résolution dns depuis le pod prometheus si t'as un coredns un peu foireux ou des entrées dns qui se mettent à jour lentement prometheus peut galérer à trouver l'ip de la cible et la marquer down temporairement

legendre-bertrand · Answer

ah ok je vais check ça les scrape_timeout sont à 10s c'est peut-être un peu short pour certaines cibles. et pour le dns j'avais pas pensé au coredns je vais jeter un œil aux logs

renee49 · Answer

si le dns est l' culprit tu peux essayer de mettre des host_sd_configs pour les cibles critiques pour bypasser le dns interne du cluster c'est pas idéal mais ça dépanne

legendre-bertrand · Answer

c'était bien la résolution DNS du coredns qui faisait des siennes de temps en temps il mettait trop de temps à résoudre certaines entrées. j'ai mis un hostAliases pour les cibles les plus problématiques et ça a l'air de tenir. thx les gars !

SRE : Prometheus des alertes instance down aléatoires

5 commentaires

Laisser une réponse

Les différentes stratégies pour migrer vers le Cloud (6 R)

Guide Complet pour la Gestion des Logs en Environnement DevOps

L'Ère des Tests Auto-Évolutifs : Quand l'IA Réécrit la Qualité DevOps

Le Shift Left est-il l'ennemi n°1 de l'expérience développeur ?

SRE vs DevOps : Le clash des cultures qui paralyse vos déploiements

Rejoindre la communauté

Oops! An Error Occurred

The server returned a "500 Internal Server Error".