NXDOMAIN sporadiques sur CoreDNS K8s pour services internes

Question

Salut à tous ! On a un souci bien relou avec CoreDNS dans notre cluster K8s. On a des erreurs NXDOMAIN aléatoires pour des résolutions de noms de services internes (genre my-service.my-namespace.svc.cluster.local). Ça arrive pas tout le temps, mais de manière imprévisible, et ça pète des requêtes inter-services. Nos pods ont bien le resolv.conf qui pointe vers le service CoreDNS. Les logs de CoreDNS montrent rien d'anormal en général. Des idées de pistes à explorer ?

xbreton · Answer

hello. première chose à checker le cpu/mémoire de tes pods coredns. s'ils sont throttled ils peuvent rater des requêtes. et regarde aussi si t'as pas des soucis de conntrack sur tes nodes linux, des fois ça sature et ça bloque le traffic udp dns

xmillet · Answer

regarde aussi les logs de kube-proxy sur les nodes où tes pods client tournent. si y'a des soucis de configuration iptables pour le service coredns ça peut générer des drops. et vérifie le ttl des entrées dns dans coredns

gabriel-guyon · Answer

les ressources coredns sont ok pas de throttling. par contre conntrack sur les nodes c une bonne piste. on a pas mal de trafic et ça fait longtemps qu'on a pas optimisé ça. comment je check ça rapidement ?

xbreton · Answer

conntrack -S sur tes nodes. tu verras entries et searched_entries. si entries est proche de max c'est que t'es full. tu peux augmenter la limite avec sysctl net.netfilter.nf_conntrack_max=xxxx mais faut reboot ou appliquer pour que ce soit persistant

gabriel-guyon · Answer

ok je viens de checker c'était ça ! nf_conntrack_max était à 65536 et on était quasi à 60000. j'ai monté la limite à 262144 et les NXDOMAIN ont disparu. énorme merci !

xbreton · Answer

de rien ! content que ça aide. les limites kernel ça surprend toujours

NXDOMAIN sporadiques sur CoreDNS K8s pour services internes

6 commentaires

Laisser une réponse

Gestion des erreurs dans le langage de programmation Go

Comprendre, Gérer et Manipuler un cluster Docker Swarm

Introduction au DevOps

Configuration des clés SSH pour sécuriser vos accès GitLab

L'Ère de l'Infrastructure Autonome : Quand l'IA Opère Votre Cloud

Rejoindre la communauté