hello. première chose à checker le cpu/mémoire de tes pods coredns. s'ils sont throttled ils peuvent rater des requêtes. et regarde aussi si t'as pas des soucis de conntrack sur tes nodes linux, des fois ça sature et ça bloque le traffic udp dns
regarde aussi les logs de kube-proxy sur les nodes où tes pods client tournent. si y'a des soucis de configuration iptables pour le service coredns ça peut générer des drops. et vérifie le ttl des entrées dns dans coredns
les ressources coredns sont ok pas de throttling. par contre conntrack sur les nodes c une bonne piste. on a pas mal de trafic et ça fait longtemps qu'on a pas optimisé ça. comment je check ça rapidement ?
conntrack -S sur tes nodes. tu verras entries et searched_entries. si entries est proche de max c'est que t'es full. tu peux augmenter la limite avec sysctl net.netfilter.nf_conntrack_max=xxxx mais faut reboot ou appliquer pour que ce soit persistant
ok je viens de checker c'était ça ! nf_conntrack_max était à 65536 et on était quasi à 60000. j'ai monté la limite à 262144 et les NXDOMAIN ont disparu. énorme merci !
de rien ! content que ça aide. les limites kernel ça surprend toujours
Vous devez être connecté pour poster un message !
Recevoir les derniers articles gratuitement en créant un compte !
S'inscrire
gabriel-guyon
Membre depuis le 19/05/2024actif
Salut à tous ! On a un souci bien relou avec CoreDNS dans notre cluster K8s. On a des erreurs NXDOMAIN aléatoires pour des résolutions de noms de services internes (genre
my-service.my-namespace.svc.cluster.local). Ça arrive pas tout le temps, mais de manière imprévisible, et ça pète des requêtes inter-services. Nos pods ont bien leresolv.confqui pointe vers le service CoreDNS. Les logs de CoreDNS montrent rien d'anormal en général. Des idées de pistes à explorer ?