Membre depuis le 19/03/2019
hmm ça sent le problème de cgroup ou de limite réseau pour prometheus après l'upgrade. k8s 1.27 a durci pas mal de trucs sur la gestion des ressources système. t'as regardé les métriques CPU/memory de ton pod prometheus et de son nœud ? des fois le scraping devient lent si prometheus est throttlé
Membre depuis le 14/03/2019
check aussi tes coredns. avec l'upgrade k8s des fois les configs coredns peuvent changer ou y avoir des soucis de perf. si prometheus a du mal à résoudre les ips des pods à scraper ça peut provoquer ces timeouts. t'as des logs d'erreurs dns dans les pods qui ratent ?
Membre depuis le 18/04/2024
c peut-être un souci de conntrack sur tes nœuds. si prometheus ouvre trop de connexions et que la table conntrack est pleine ou qu'elle a du mal à nettoyer les vieilles entrées ça peut faire ramer les nouvelles connexions. regarde d'abord les logs de coredns comme dit user3 sinon un tcpdump sur le pod prometheus quand ça rate pour voir si les paquets partent et reviennent
Membre depuis le 12/01/2021
ok je viens de checker les métriques prometheus est ok niveau ressources. par contre user4 tu m'as donné une piste avec conntrack. après l'upgrade le paramètre net.netfilter.nf_conntrack_max sur les nodes était revenu à sa valeur par défaut. j'ai remis notre valeur custom plus haute et depuis 10 min plus de deadline exceeded. je surveille mais je pense que c'était ça. thx à tous
Membre depuis le 26/03/2019
nickel c'est souvent un truc de bas niveau qui pète après un upgrade majeur. bien joué d'avoir trouvé. pense à persister ta config conntrack pour pas que ça revienne à défaut
Membre depuis le 12/01/2021
oui je vais faire ça. merci encore pour l'aide précieuse
Vous devez être connecté pour poster un message !
Recevoir les derniers articles gratuitement en créant un compte !
S'inscrire
umillet
Membre depuis le 12/01/2021
salut la gang j'ai un souci bizarre depuis qu'on a fait l'upgrade k8s de 1.25 à 1.27. prometheus rate des scrapes de temps en temps. pas tous les pods mais quelques-uns aléatoirement dans des namespaces différents. les pods sont bien up et les endpoints prometheus répondent quand je les teste en curl depuis le pod prometheus. aucune erreur dans les logs prometheus non plus à part des "context deadline exceeded" pour les cibles qui ratent