Prometheus qui rate des scrapes après upgrade K8s

umillet 13/05/2024
RÉSOLU
umillet
Auteur Actif
Avatar de umillet
umillet
Auteur Actif

salut la gang j'ai un souci bizarre depuis qu'on a fait l'upgrade k8s de 1.25 à 1.27. prometheus rate des scrapes de temps en temps. pas tous les pods mais quelques-uns aléatoirement dans des namespaces différents. les pods sont bien up et les endpoints prometheus répondent quand je les teste en curl depuis le pod prometheus. aucune erreur dans les logs prometheus non plus à part des "context deadline exceeded" pour les cibles qui ratent

13/05/2024 à 20:11

6 commentaires

hmm ça sent le problème de cgroup ou de limite réseau pour prometheus après l'upgrade. k8s 1.27 a durci pas mal de trucs sur la gestion des ressources système. t'as regardé les métriques CPU/memory de ton pod prometheus et de son nœud ? des fois le scraping devient lent si prometheus est throttlé

14/05/2024 à 20:05
godard-antoinette
Membre Actif Secouriste
Avatar de godard-antoinette
godard-antoinette
Membre Actif Secouriste

check aussi tes coredns. avec l'upgrade k8s des fois les configs coredns peuvent changer ou y avoir des soucis de perf. si prometheus a du mal à résoudre les ips des pods à scraper ça peut provoquer ces timeouts. t'as des logs d'erreurs dns dans les pods qui ratent ?

15/05/2024 à 18:48
margot49
Membre
Avatar de margot49
margot49
Membre

c peut-être un souci de conntrack sur tes nœuds. si prometheus ouvre trop de connexions et que la table conntrack est pleine ou qu'elle a du mal à nettoyer les vieilles entrées ça peut faire ramer les nouvelles connexions. regarde d'abord les logs de coredns comme dit user3 sinon un tcpdump sur le pod prometheus quand ça rate pour voir si les paquets partent et reviennent

16/05/2024 à 18:09
umillet
Auteur Actif
Avatar de umillet
umillet
Auteur Actif

ok je viens de checker les métriques prometheus est ok niveau ressources. par contre user4 tu m'as donné une piste avec conntrack. après l'upgrade le paramètre net.netfilter.nf_conntrack_max sur les nodes était revenu à sa valeur par défaut. j'ai remis notre valeur custom plus haute et depuis 10 min plus de deadline exceeded. je surveille mais je pense que c'était ça. thx à tous

17/05/2024 à 15:08
dlaroche
Membre Actif
Avatar de dlaroche
dlaroche
Membre Actif

nickel c'est souvent un truc de bas niveau qui pète après un upgrade majeur. bien joué d'avoir trouvé. pense à persister ta config conntrack pour pas que ça revienne à défaut

18/05/2024 à 14:41
umillet
Auteur Actif
Avatar de umillet
umillet
Auteur Actif

oui je vais faire ça. merci encore pour l'aide précieuse

19/05/2024 à 12:57

Laisser une réponse

Vous devez être connecté pour poster un message !

Rejoindre la communauté

Recevoir les derniers articles gratuitement en créant un compte !

S'inscrire