Latence DNS inter-AZ bizarre sur k8s AWS

Question

yo la team un truc de fou sur notre cluster k8s EKS. on a des services qui sont déployés sur plusieurs AZ et des fois la résolution DNS entre les pods dans des AZ différentes prend des plombes genre 5 secondes au lieu de 5ms. c'est pas tout le temps et ça semble aléatoire. les logs coredns sont cleans

jean-weiss · Answer

c'est peut-être pas coredns directement mais l'upstream DNS de tes nodes. si tes nodes ont des résolveurs pas tops ou qu'ils sont limités en requêtes ça peut ralentir la résolution externe

elise-robin · Answer

vérifie aussi la config de ton coredns autoscaler. si t'as des pics de requêtes DNS et qu'il n'arrive pas à scaler assez vite ça peut créer un bottleneck. des fois c'est juste la charge qui est trop forte sur les pods coredns

david-jacob · Answer

t'as regardé les métriques réseau de tes nodes et des pods coredns ? s'il y a de la perte de paquets ou du retransmission rate élevé ça peut indiquer un souci réseau sous-jacent

ithierry · Answer

et la dns policy de tes pods est bien ClusterFirst ? si c'est Default ça peut utiliser le dns du node directement et bypass coredns pour certaines requêtes ce qui peut introduire des latences si le node dns est lent

thibault-dominique · Answer

c'est pas une histoire d'egress firewall ou security groups qui filtrent certaines requêtes DNS vers l'extérieur ? j'ai déjà vu des règles trop restrictives pour UDP/53 qui créent des timeouts partiels

zoe12 · Answer

en fait après investigations c'était un mix entre une mauvaise config de coredns qui forwardait vers des serveurs DNS un peu lointains au lieu des DNS locaux du VPC AWS et le autoscaler qui était pas assez agressif. on a corrigé les forwarders et boosté le autoscaler et ça semble beaucoup mieux. merci pour les pistes les gars !

Latence DNS inter-AZ bizarre sur k8s AWS

6 commentaires

Laisser une réponse

Lire et écrire dans un fichier dans le langage de programmation Go

Le Container Registry GitLab pour le stockage de vos images Docker

Le Futur du Calcul : Maîtriser la Matière Programmable avec DevOps

Tuto : Configurer l'Auto-scaling GPU pour vos LLM avec Karpenter

Mutex et contention : Libérez enfin vos threads

Rejoindre la communauté