Résolution DNS interne qui flanche après une mise à jour K8s

apetitjean 27/10/2024
RÉSOLU
apetitjean
Auteur
Avatar de apetitjean
apetitjean
Auteur

yo la team ! après une update de notre cluster k8s (kube-apiserver, kube-controller-manager, etc.) la résolution dns interne est devenue super instable. genre la moitié des services arrivent plus à pinger d'autres services par leur nom. les logs de coredns sont cleans mais j'ai des host not found partout


# Exemple d'erreur dans les logs d'un pod applicatif
kubectl logs my-app-pod-xyz
Error: lookup service-b.mynamespace.svc.cluster.local on 10.96.0.10:53: no such host
27/10/2024 à 16:11

6 commentaires

colette-jacquet
Membre Actif Secouriste
Avatar de colette-jacquet
colette-jacquet
Membre Actif Secouriste

hello. t'as checké la configmap de coredns ? des fois une update peut écraser des customisations genre des stubDomains ou des serveurs upstream spécifiques. compare avec ton ancienne version

28/10/2024 à 13:13
apetitjean
Auteur
Avatar de apetitjean
apetitjean
Auteur

ouaip j'ai déjà checké la configmap rien de neuf. elle est identique à avant l'update. mais c'est bizarre certains pods ont le problème d'autres non dans le même namespace. c'est aléatoire.

29/10/2024 à 11:49
ldelmas
Membre
Avatar de ldelmas
ldelmas
Membre

hum aléatoire ça pue. t'aurais pas mis en place de nouvelles network policies par hasard ? une politique trop restrictive pourrait bloquer le trafic udp/tcp 53 vers le service coredns pour certains pods

30/10/2024 à 11:32
apetitjean
Auteur
Avatar de apetitjean
apetitjean
Auteur

ah merde c'est une bonne piste ! on a déployé un nouveau jeu de network policies il y a deux jours en même temps que l'update k8s. je vais regarder ça de près pour voir si ça bloque pas le namespace kube-system ou l'accès aux services dns

31/10/2024 à 05:39
colette-jacquet
Membre Actif Secouriste
Avatar de colette-jacquet
colette-jacquet
Membre Actif Secouriste

et aussi un truc con mais le nombre de réplicas de coredns ? si t'en as pas assez ou que certains sont sur des nœuds saturés ça peut créer des latences ou des timeouts pour la résolution surtout si t'as beaucoup de requêtes

01/11/2024 à 01:29
apetitjean
Auteur
Avatar de apetitjean
apetitjean
Auteur

vous êtes des génies ! c'était bien une network policy qui bloquait les egress vers le clusterIP de coredns pour les namespaces critiques. un oubli dans les règles. j'ai corrigé et tout est rentré dans l'ordre direct. merci beaucoup pour l'aide

01/11/2024 à 23:36

Laisser une réponse

Vous devez être connecté pour poster un message !

Rejoindre la communauté

Recevoir les derniers articles gratuitement en créant un compte !

S'inscrire