etcd latency spikes cluster instable

stephane-dubois 08/08/2025
RÉSOLU

salut les devs ops, on a un souci bizarre sur un de nos clusters k8s. etcd a des latences qui spike genre regulierement ce qui rend le cluster instable. kubectl get pods rame de ouf des fois. ça dit quoi sur le quorum et la synchro entre membres

08/08/2025 à 17:15

13 commentaires

check tes logs etcd d'abord. t'as des warnings genre 'apply took too long' ou des 'leader changed' frequents

09/08/2025 à 12:14
tdelannoy
Membre
Avatar de tdelannoy
tdelannoy
Membre

regarde aussi l'utilisation disque. io bound souvent etcd. ssd nvme c'est un must. t'es sur quel type de stockage

10/08/2025 à 08:29

ouais on a du 'wal fsync took too long'. on est sur gp3 avec iops provisionnés mais ptete pas assez

11/08/2025 à 04:57
bmoulin
Membre Actif
Avatar de bmoulin
bmoulin
Membre Actif

gp3 c'est pas toujours la joie pour etcd. tu peux avoir des iops burst mais si t'es en continu ça peut butter. provisionne bien

11/08/2025 à 23:07

et ton reseau entre les etcd members. latence elevee aussi ça flingue le raft. ping les nodes entre elles tu vois quoi

12/08/2025 à 20:53

reseau semble ok. par contre on a pas mal de deployments qui se lancent avec des milliers de pods en meme temps au demarrage. ça cree du churn sur l'api server et etcd non

13/08/2025 à 14:59

ah oui ça c'est une piste. le rate limit de l'api server est ptete trop haut ou pas assez agressif pour etcd. trop de requetes d'un coup

14/08/2025 à 11:03

regarde tes metrics etcd_server_proposals_pending et etcd_network_peer_round_trip_time_seconds. si proposals_pending monte en fleche qd ça lag c'est que ça suit pas

15/08/2025 à 07:07

les pending montent effectivement. on a aussi vu des 'mvcc: database space exceeded' dans les logs recemment apres un gros spike

16/08/2025 à 06:59
tdelannoy
Membre
Avatar de tdelannoy
tdelannoy
Membre

espace db exceeded c'est critique. etcd a une limite par defaut pour la db size. faut compact. et si ça arrive souvent faut augmenter le quota mais surtout trouver la cause du bloating

17/08/2025 à 02:43
bmoulin
Membre Actif
Avatar de bmoulin
bmoulin
Membre Actif

y'a ptete un operator qui spamme etcd avec des CRD enormes ou des events inutiles. faut monitorer les requetes api server par source

18/08/2025 à 00:05

exactement. audit logs de l'api server pour voir les top talkers. qui ecrit le plus dans etcd

18/08/2025 à 23:34

on a trouvé un bug dans notre custom admission controller qui créait plein d'objets temporaires inutiles. une fois fix ça va mieux. merci les gars

19/08/2025 à 23:19

Laisser une réponse

Vous devez être connecté pour poster un message !

Rejoindre la communauté

Recevoir les derniers articles gratuitement en créant un compte !

S'inscrire