etcd latency spikes cluster instable

Question

salut les devs ops, on a un souci bizarre sur un de nos clusters k8s. etcd a des latences qui spike genre regulierement ce qui rend le cluster instable. kubectl get pods rame de ouf des fois. ça dit quoi sur le quorum et la synchro entre membres

thomas-lebrun · Answer

check tes logs etcd d'abord. t'as des warnings genre 'apply took too long' ou des 'leader changed' frequents

tdelannoy · Answer

regarde aussi l'utilisation disque. io bound souvent etcd. ssd nvme c'est un must. t'es sur quel type de stockage

stephane-dubois · Answer

ouais on a du 'wal fsync took too long'. on est sur gp3 avec iops provisionnés mais ptete pas assez

bmoulin · Answer

gp3 c'est pas toujours la joie pour etcd. tu peux avoir des iops burst mais si t'es en continu ça peut butter. provisionne bien

thomas-lebrun · Answer

et ton reseau entre les etcd members. latence elevee aussi ça flingue le raft. ping les nodes entre elles tu vois quoi

stephane-dubois · Answer

reseau semble ok. par contre on a pas mal de deployments qui se lancent avec des milliers de pods en meme temps au demarrage. ça cree du churn sur l'api server et etcd non

josephine-moreno · Answer

ah oui ça c'est une piste. le rate limit de l'api server est ptete trop haut ou pas assez agressif pour etcd. trop de requetes d'un coup

thomas-lebrun · Answer

regarde tes metrics etcd_server_proposals_pending et etcd_network_peer_round_trip_time_seconds. si proposals_pending monte en fleche qd ça lag c'est que ça suit pas

stephane-dubois · Answer

les pending montent effectivement. on a aussi vu des 'mvcc: database space exceeded' dans les logs recemment apres un gros spike

tdelannoy · Answer

espace db exceeded c'est critique. etcd a une limite par defaut pour la db size. faut compact. et si ça arrive souvent faut augmenter le quota mais surtout trouver la cause du bloating

bmoulin · Answer

y'a ptete un operator qui spamme etcd avec des CRD enormes ou des events inutiles. faut monitorer les requetes api server par source

thomas-lebrun · Answer

exactement. audit logs de l'api server pour voir les top talkers. qui ecrit le plus dans etcd

stephane-dubois · Answer

on a trouvé un bug dans notre custom admission controller qui créait plein d'objets temporaires inutiles. une fois fix ça va mieux. merci les gars

etcd latency spikes cluster instable

13 commentaires

Laisser une réponse

Gérer et manipuler les Deployments Kubernetes

Les variables Input et Output

Les différentes stratégies pour migrer vers le Cloud (6 R)

Créer des Groupes sur GitLab pour organiser vos projets

Le Futur du Calcul : Maîtriser la Matière Programmable avec DevOps

Rejoindre la communauté