etcd latency spikes cluster instable

Posté par stephane-dubois le 08/08/2025
RÉSOLU

stephane-dubois

Membre depuis le 17/05/2024

actif

salut les devs ops, on a un souci bizarre sur un de nos clusters k8s. etcd a des latences qui spike genre regulierement ce qui rend le cluster instable. kubectl get pods rame de ouf des fois. ça dit quoi sur le quorum et la synchro entre membres

Commentaires

thomas-lebrun

Membre depuis le 31/01/2025

actif

check tes logs etcd d'abord. t'as des warnings genre 'apply took too long' ou des 'leader changed' frequents

tdelannoy

Membre depuis le 11/09/2019

actif

regarde aussi l'utilisation disque. io bound souvent etcd. ssd nvme c'est un must. t'es sur quel type de stockage

stephane-dubois

Membre depuis le 17/05/2024

actif

ouais on a du 'wal fsync took too long'. on est sur gp3 avec iops provisionnés mais ptete pas assez

bmoulin

Membre depuis le 27/04/2024

actif

gp3 c'est pas toujours la joie pour etcd. tu peux avoir des iops burst mais si t'es en continu ça peut butter. provisionne bien

thomas-lebrun

Membre depuis le 31/01/2025

actif

et ton reseau entre les etcd members. latence elevee aussi ça flingue le raft. ping les nodes entre elles tu vois quoi

stephane-dubois

Membre depuis le 17/05/2024

actif

reseau semble ok. par contre on a pas mal de deployments qui se lancent avec des milliers de pods en meme temps au demarrage. ça cree du churn sur l'api server et etcd non

josephine-moreno

Membre depuis le 05/09/2019

actif

ah oui ça c'est une piste. le rate limit de l'api server est ptete trop haut ou pas assez agressif pour etcd. trop de requetes d'un coup

thomas-lebrun

Membre depuis le 31/01/2025

actif

regarde tes metrics etcd_server_proposals_pending et etcd_network_peer_round_trip_time_seconds. si proposals_pending monte en fleche qd ça lag c'est que ça suit pas

stephane-dubois

Membre depuis le 17/05/2024

actif

les pending montent effectivement. on a aussi vu des 'mvcc: database space exceeded' dans les logs recemment apres un gros spike

tdelannoy

Membre depuis le 11/09/2019

actif

espace db exceeded c'est critique. etcd a une limite par defaut pour la db size. faut compact. et si ça arrive souvent faut augmenter le quota mais surtout trouver la cause du bloating

bmoulin

Membre depuis le 27/04/2024

actif

y'a ptete un operator qui spamme etcd avec des CRD enormes ou des events inutiles. faut monitorer les requetes api server par source

thomas-lebrun

Membre depuis le 31/01/2025

actif

exactement. audit logs de l'api server pour voir les top talkers. qui ecrit le plus dans etcd

stephane-dubois

Membre depuis le 17/05/2024

actif

on a trouvé un bug dans notre custom admission controller qui créait plein d'objets temporaires inutiles. une fois fix ça va mieux. merci les gars

Laisser une réponse

Vous devez être connecté pour poster un message !

Rejoindre la communauté

Recevoir les derniers articles gratuitement en créant un compte !

S'inscrire