20 commentaires
etcd c'est le standard pour k8s faut tuner les disques ssd rapide io_uring ptete nvme et le réseau dedicated pas de shared infra
nan etcd c'est pas fait pour ça a ces échelles c'est un single point of failure a la base faut revoir l'architecture générale pas juste etcd
faut voir les compaction aussi et le history retention si c'est trop long ça explose la db size et les writes
un cluster de cette taille j'aurais regardé tidb ou autre truc distribué mais bon c'est pas drop-in pour k8s
et la latency entre les etcd members c'est critique si t'es sur du cross-az c'est mort
ouais mais la data consistency avec raft c'est lourd. pour de l'observability ou des logs tu peux te permettre moins de strictness
et le disk fsync si tu es sur du nfs ou san c'est mort de base
le tuning c'est bien mais quand l'architecture de base est poussée a ses limites faut pas s'étonner
y'a pas de solution miracle juste du hardening de config et de l'infra sous jacente
perso je reste sur l'idée que si t'es a cette échelle faut se poser la question d'un multi-cluster ou federated k8s
Laisser une réponse
Vous devez être connecté pour poster un message !
Yo ! on a un cluster k8s de fou genre 500+ nodes et etcd commence a ramer pour les écritures. genre les writes sont trop lents on a des timeouts sur l'API server. vous avez des tips ou une alternative genre un autre kv store pour la control plane