6 commentaires
check le nombre de requêtes dns sur coredns, ptete que les pods coredns sont sous-dimensionnés et saturés. regarde les metrics cpu/mem de coredns et le nombre de
DNS queries per second. des fois c'est juste ça, un manque de ressources
j'ai checké le cpu/mem de coredns c'est stable et bas. par contre on a des milliers de requêtes/seconde. on est en train de refactoriser des vieux services qui font du polling intensif sur d'autres services. ça pourrait être ça
si le cpu/mem est bas pour coredns même avec plein de requêtes, c'est pas ça le pb. par contre regarde si t'as pas des conntrack entries qui saturent sur tes nœuds. coredns utilise l'udp et des fois ça génère plein d'états dans conntrack si c'est pas purgé. ça peut bloquer les nouvelles connexions udp
et aussi vérifie le
/etc/resolv.conf de tes pods. t'es sûr qu'ils pointent bien vers coredns ? et t'as pas des timeouts dns trop courts dans les config des applications ? si coredns est lent, un timeout court peut faire croire que ça marche pas
je vais regarder conntrack merci pour la piste. c'est vrai qu'on a un flux dns énorme.
resolv.conf est ok et les timeouts sont assez longs normalement. je vais aussi regarder si une mise à jour d'un pod coredns n'aurait pas foiré. thx la team je vous dis
c'était bien la table conntrack saturée sur certains nœuds. j'ai augmenté
net.netfilter.nf_conntrack_max et ça a résolu le souci. merci pour l'aide précieuse !
Laisser une réponse
Vous devez être connecté pour poster un message !
yo la team j'ai un gros souci dns sur notre cluster k8s. par moments, les pods n'arrivent plus à résoudre les noms de services internes, genre
. ça dure qques minutes puis ça revient. on a en place. les logs de coredns sont cleans