c'est peut-être pas coredns directement mais l'upstream DNS de tes nodes. si tes nodes ont des résolveurs pas tops ou qu'ils sont limités en requêtes ça peut ralentir la résolution externe
vérifie aussi la config de ton coredns autoscaler. si t'as des pics de requêtes DNS et qu'il n'arrive pas à scaler assez vite ça peut créer un bottleneck. des fois c'est juste la charge qui est trop forte sur les pods coredns
t'as regardé les métriques réseau de tes nodes et des pods coredns ? s'il y a de la perte de paquets ou du retransmission rate élevé ça peut indiquer un souci réseau sous-jacent
et la dns policy de tes pods est bien ClusterFirst ? si c'est Default ça peut utiliser le dns du node directement et bypass coredns pour certaines requêtes ce qui peut introduire des latences si le node dns est lent
c'est pas une histoire d'egress firewall ou security groups qui filtrent certaines requêtes DNS vers l'extérieur ? j'ai déjà vu des règles trop restrictives pour UDP/53 qui créent des timeouts partiels
en fait après investigations c'était un mix entre une mauvaise config de coredns qui forwardait vers des serveurs DNS un peu lointains au lieu des DNS locaux du VPC AWS et le autoscaler qui était pas assez agressif. on a corrigé les forwarders et boosté le autoscaler et ça semble beaucoup mieux. merci pour les pistes les gars !
Vous devez être connecté pour poster un message !
Recevoir les derniers articles gratuitement en créant un compte !
S'inscrire
zoe12
Membre depuis le 23/05/2024actif rédacteur
yo la team un truc de fou sur notre cluster k8s EKS. on a des services qui sont déployés sur plusieurs AZ et des fois la résolution DNS entre les pods dans des AZ différentes prend des plombes genre 5 secondes au lieu de 5ms. c'est pas tout le temps et ça semble aléatoire. les logs coredns sont cleans