Latence DNS inter-AZ bizarre sur k8s AWS

zoe12 20/07/2025
RÉSOLU
zoe12
Auteur Actif Rédacteur
Avatar de zoe12
zoe12
Auteur Actif Rédacteur

yo la team un truc de fou sur notre cluster k8s EKS. on a des services qui sont déployés sur plusieurs AZ et des fois la résolution DNS entre les pods dans des AZ différentes prend des plombes genre 5 secondes au lieu de 5ms. c'est pas tout le temps et ça semble aléatoire. les logs coredns sont cleans

20/07/2025 à 22:46

6 commentaires

jean-weiss
Membre
Avatar de jean-weiss
jean-weiss
Membre

c'est peut-être pas coredns directement mais l'upstream DNS de tes nodes. si tes nodes ont des résolveurs pas tops ou qu'ils sont limités en requêtes ça peut ralentir la résolution externe

21/07/2025 à 19:33
elise-robin
Membre Actif
Avatar de elise-robin
elise-robin
Membre Actif

vérifie aussi la config de ton coredns autoscaler. si t'as des pics de requêtes DNS et qu'il n'arrive pas à scaler assez vite ça peut créer un bottleneck. des fois c'est juste la charge qui est trop forte sur les pods coredns

22/07/2025 à 19:10
david-jacob
Membre Actif
Avatar de david-jacob
david-jacob
Membre Actif

t'as regardé les métriques réseau de tes nodes et des pods coredns ? s'il y a de la perte de paquets ou du retransmission rate élevé ça peut indiquer un souci réseau sous-jacent

23/07/2025 à 15:19
ithierry
Membre Actif
Avatar de ithierry
ithierry
Membre Actif

et la dns policy de tes pods est bien ClusterFirst ? si c'est Default ça peut utiliser le dns du node directement et bypass coredns pour certaines requêtes ce qui peut introduire des latences si le node dns est lent

24/07/2025 à 15:12
thibault-dominique
Membre Actif
Avatar de thibault-dominique
thibault-dominique
Membre Actif

c'est pas une histoire d'egress firewall ou security groups qui filtrent certaines requêtes DNS vers l'extérieur ? j'ai déjà vu des règles trop restrictives pour UDP/53 qui créent des timeouts partiels

25/07/2025 à 11:46
zoe12
Auteur Actif Rédacteur
Avatar de zoe12
zoe12
Auteur Actif Rédacteur

en fait après investigations c'était un mix entre une mauvaise config de coredns qui forwardait vers des serveurs DNS un peu lointains au lieu des DNS locaux du VPC AWS et le autoscaler qui était pas assez agressif. on a corrigé les forwarders et boosté le autoscaler et ça semble beaucoup mieux. merci pour les pistes les gars !

26/07/2025 à 10:15

Laisser une réponse

Vous devez être connecté pour poster un message !

Rejoindre la communauté

Recevoir les derniers articles gratuitement en créant un compte !

S'inscrire