7 commentaires
yo t'as vérifié les labels sur tes services et pods s'ils sont bien consistants avec les selectors de tes servicemonitors/podmonitors un petit typo et hop target perdue
autre piste : la capacité de prometheus lui-même. si t'as trop de targets ou si ton prometheus est sous-dimensionné il peut avoir du mal à scrape toutes les targets dans le temps imparti. check les métriques de prometheus sur le nombre de scrapes ratés et l'utilisation cpu/mem
c'était un mix des deux. certains de nos services étaient un peu lents à répondre et prometheus lui-même commençait à être un peu juste. on a scaled up prometheus et ajusté les timeouts pour les services les plus lents. ça a réglé le problème à 90%. merci pour l'aide les gars
Laisser une réponse
Vous devez être connecté pour poster un message !
salut la gang
on a prometheus qui tourne dans k8s et il nous rate des targets aléatoirement on a des alertes 'target down' pour des pods qui sont up et healthy. j'ai l'impression que c'est souvent quand y'a du scaling ou du rolling update sur nos déploiements. le prometheus operator est bien configuré avec les servicemonitors et podmonitors
quand je vais voir l'UI de prometheus les targets apparaissent et disparaissent. c'est ultra chiant pour la fiabilité de nos métriques