Prometheus qui rate des scrapes après upgrade K8s

Question

salut la gang j'ai un souci bizarre depuis qu'on a fait l'upgrade k8s de 1.25 à 1.27. prometheus rate des scrapes de temps en temps. pas tous les pods mais quelques-uns aléatoirement dans des namespaces différents. les pods sont bien up et les endpoints prometheus répondent quand je les teste en curl depuis le pod prometheus. aucune erreur dans les logs prometheus non plus à part des "context deadline exceeded" pour les cibles qui ratent

guillon-agathe · Answer

hmm ça sent le problème de cgroup ou de limite réseau pour prometheus après l'upgrade. k8s 1.27 a durci pas mal de trucs sur la gestion des ressources système. t'as regardé les métriques CPU/memory de ton pod prometheus et de son nœud ? des fois le scraping devient lent si prometheus est throttlé

godard-antoinette · Answer

check aussi tes coredns. avec l'upgrade k8s des fois les configs coredns peuvent changer ou y avoir des soucis de perf. si prometheus a du mal à résoudre les ips des pods à scraper ça peut provoquer ces timeouts. t'as des logs d'erreurs dns dans les pods qui ratent ?

margot49 · Answer

c peut-être un souci de conntrack sur tes nœuds. si prometheus ouvre trop de connexions et que la table conntrack est pleine ou qu'elle a du mal à nettoyer les vieilles entrées ça peut faire ramer les nouvelles connexions. regarde d'abord les logs de coredns comme dit user3 sinon un tcpdump sur le pod prometheus quand ça rate pour voir si les paquets partent et reviennent

umillet · Answer

ok je viens de checker les métriques prometheus est ok niveau ressources. par contre user4 tu m'as donné une piste avec conntrack. après l'upgrade le paramètre net.netfilter.nf_conntrack_max sur les nodes était revenu à sa valeur par défaut. j'ai remis notre valeur custom plus haute et depuis 10 min plus de deadline exceeded. je surveille mais je pense que c'était ça. thx à tous

dlaroche · Answer

nickel c'est souvent un truc de bas niveau qui pète après un upgrade majeur. bien joué d'avoir trouvé. pense à persister ta config conntrack pour pas que ça revienne à défaut

umillet · Answer

oui je vais faire ça. merci encore pour l'aide précieuse

Prometheus qui rate des scrapes après upgrade K8s

6 commentaires

Laisser une réponse

Les Slices (tableaux dynamiques) dans le langage de programmation Go

Les channels dans le langage de programmation Go

Découverte et installation de Docker

Améliorer le modèle DevOps : les performances (DORA)

Jumeaux Numériques : La Révolution des Opérations Prédictives

Rejoindre la communauté