Intermittent DNS lookup failures microservices derriere un LB interne

Question

salut la gang ! j'ai un truc qui me rend fou. on a des microservices en k8s qui communiquent entre eux via des internal load balancers (AWS ALB). de temps en temps une poignée de pods n'arrivent plus à résoudre le nom DNS de l'autre service. ça dure quelques secondes puis ça revient. pas de changement dans le LB pas de déploiement récent. les logs côté service appelant donnent Name lookup failed
# exemple dans un pod qui foire
curl http://my-internal-service.internal.mydomain.com
curl: (6) Could not resolve host: my-internal-service.internal.mydomain.com

c'est super aléatoire et ça impacte notre uptime. des idées sur où chercher ?

laure23 · Answer

hello. t'as vérifié les dns servers configurés dans ton vpc ? genre si t'as le dns resolver par défaut d'aws (vpc cidr + 2) ou si tu utilises des custom dns. et le nombre de dns servers. parfois si y en a qu'un et qu'il est surchargé ça peut donner ça. aussi check la dns support de tes pods est-ce qu'ils ont bien le dns policy kubernetes par défaut ou autre chose ?

veronique28 · Answer

et aussi vérifie le nombre de requêtes DNS que tes pods génèrent. si tu as des services qui font des millions de lookups par seconde ça peut saturer le resolver DNS. des fois c'est pas le DNS en lui-même qui foire mais le client DNS dans le pod qui a un cache un peu trop agressif ou qui gère mal les timeouts

ldupre · Answer

franchement j'ai déjà vu ça quand des pods avaient leur propre /etc/resolv.conf qui était pas sync ou qui pointait vers des dns resolvers lents ou pas à jour. ou alors un ndots: trop élevé dans resolv.conf qui fait que le dns cherche trop longtemps des suffixes avant de tenter le lookup direct

maggie18 · Answer

merci pour toutes les pistes ! après investigation il s'avère que certains de nos pods faisaient du cache DNS côté applicatif (un lib java un peu old school) et ne rafraichissaient pas bien leur cache quand le DNS changeait (ce qui arrive avec des lbs k8s). en désactivant ce cache ou en forçant le ttl ça a résolu le souci. c'était pas le resolver mais le client. un grand merci pour le coup de main !

Intermittent DNS lookup failures microservices derriere un LB interne

4 commentaires

Laisser une réponse

Comprendre et utiliser Packetbeat dans la stack ELK

Ma participation au DevFest Nantes

Importer un dépôt externe vers GitLab pour migrer vos projets

Maîtriser les permissions GitLab CI/CD pour la sécurité

L'IA au Service du Flow: Le Neuro-DevOps pour une Productivité Inégalée

Rejoindre la communauté