17 commentaires
Yo. slow_apply_total c'est pas bon du tout. t'as quelle version d'etcd et de k8s. t'as regardé les iops sur tes disques nvme ou les latences disk
hum intéressant. regarde ton wal fsync_duration_seconds et commit_duration_seconds dans les métriques etcd. c'est souvent le coupable. ptete aussi trop de mvcc revisions sur etcd
500ms pour un commit c'est n'importe quoi. tes snapshots et compactions ça se passe comment t'as des erreurs de ça dans les logs etcd
ok ça confirme. t'as pas un souci de network latency entre tes membres etcd. genre les vms sont sur des hôtes différents avec une interco pourrie ou un firewall qui fait du packet inspection
t'as le snapshot-count par défaut ou tu l'as modifié. des fois trop peu de snapshots ça veut dire des grosses compactions qui bloquent tout. et ta taille de base tu l'as check. etcdctl db size
4gb c'est pas si petit que ça non plus. auto-compaction-retention c'est pas bête. si tu gardes trop d'historique ça alourdit les compactions. essaie de le mettre à 1h au lieu du 24h par défaut si t'en as besoin
good start. regarde aussi tes métriques de cpu et memory sur les nodes etcd. si un node galère ça ralentit tout le quorum
ouais le leader est plus sollicité. t'as check si t'as pas des crd ou des webhooks qui spam etcd avec des updates inutiles. ça arrive souvent
Laisser une réponse
Vous devez être connecté pour poster un message !
Salut la team. Mon cluster k8s est à l'agonie. etcd est super lent les requêtes timeout j'ai l'impression qu'il galère avec le disque. c'est un 5-node cluster sur des nvme