DNS résolution lente sur EKS avec CoreDNS

Question

yo la team j'ai un souci bizarre sur notre cluster EKS. les résolutions DNS sont hyper lentes genre 500ms des fois alors que ça devrait être quasi instantané. on utilise CoreDNS par défaut. j'ai checké les logs des pods CoreDNS et pas d'erreurs flagrantes, juste que ça prend du temps. une idée d'où ça peut venir ?
kubectl logs -n kube-system -l k8s-app=kube-dns

louis-albert · Answer

hello t'as regardé les métriques cpu/mémoire de tes pods coredns ? des fois ils sont throttlés si les limites sont trop basses et ça ralentit tout. ou si t'as un gros traffic dns, coredns est ptete sous-dimensionné en réplicas ou en ressources

durand-lucas · Answer

et t'es sûr que ton VPC DNS resolver est pas surchargé ? les requêtes qui ne sont pas résolues par CoreDNS (genre les externes) partent vers le resolver du VPC. chaque subnet a une limite. regarde si t'as des SERVFAIL ou des NXDOMAIN dans les logs CoreDNS

jean-bigot · Answer

les pods CoreDNS sont ok niveau ressources. j'ai mis plus de réplicas pour voir mais ça change pas grand chose. pour le VPC resolver j'ai pas pensé à ça, comment je peux monitorer ça ?

rrenaud · Answer

le VPC resolver c'est galère à monitorer direct. mais si t'as un service mesh genre istio ou linkerd qui interceptent le DNS ça peut être une piste aussi. sinon, et c'est con, mais t'as un MTU de 1500 sur tes interfaces ? si t'as des jumbo frames (9001) et qu'un équipement au milieu le fragmente, ça peut impacter les réponses DNS surtout en UDP

jean-bigot · Answer

pas de service mesh. le MTU... c'est une excellente piste. on a des appliances au milieu qui pourraient avoir un MTU plus petit. je vais tester de forcer le MTU à 1500 sur une instance de test et voir si ça améliore

louis-albert · Answer

bien vu le MTU c'est un piège classique. utilise `ping -M do -s 1472 ` depuis ton pod pour voir si les paquets de 1500 passent sans fragmentation

jean-bigot · Answer

OMG c'était bien ça ! Le MTU était à 9001 sur les EKS nodes et notre firewall au milieu le réduisait sans le dire. Forcer 1500 sur les interfaces a réglé le problème de latence DNS. Vous êtes des chefs, thx !

DNS résolution lente sur EKS avec CoreDNS

7 commentaires

Laisser une réponse

Les Vaults sur Ansible

Utilisation de la stack ELK sur les logs Apache

Maîtrisez les commandes Git indispensables pour GitLab

Configurer les GitLab Runners comme moteurs de votre CI/CD

Zero Trust DevOps : L'Ère de la Confiance Zéro en Cloud Natif

Rejoindre la communauté

Oops! An Error Occurred

The server returned a "500 Internal Server Error".