13 commentaires
check tes logs etcd d'abord. t'as des warnings genre 'apply took too long' ou des 'leader changed' frequents
ouais on a du 'wal fsync took too long'. on est sur gp3 avec iops provisionnés mais ptete pas assez
et ton reseau entre les etcd members. latence elevee aussi ça flingue le raft. ping les nodes entre elles tu vois quoi
reseau semble ok. par contre on a pas mal de deployments qui se lancent avec des milliers de pods en meme temps au demarrage. ça cree du churn sur l'api server et etcd non
ah oui ça c'est une piste. le rate limit de l'api server est ptete trop haut ou pas assez agressif pour etcd. trop de requetes d'un coup
regarde tes metrics etcd_server_proposals_pending et etcd_network_peer_round_trip_time_seconds. si proposals_pending monte en fleche qd ça lag c'est que ça suit pas
les pending montent effectivement. on a aussi vu des 'mvcc: database space exceeded' dans les logs recemment apres un gros spike
exactement. audit logs de l'api server pour voir les top talkers. qui ecrit le plus dans etcd
on a trouvé un bug dans notre custom admission controller qui créait plein d'objets temporaires inutiles. une fois fix ça va mieux. merci les gars
Laisser une réponse
Vous devez être connecté pour poster un message !
salut les devs ops, on a un souci bizarre sur un de nos clusters k8s. etcd a des latences qui spike genre regulierement ce qui rend le cluster instable. kubectl get pods rame de ouf des fois. ça dit quoi sur le quorum et la synchro entre membres