16 commentaires
les watch requests sur etcd vous avez des clients qui watch des milliers d'objets ? ça peut mettre une pression énorme sur le leader etcd
et le journaling disk ? t'es sûr que le wal file est sur un volume séparé avec de bonnes perf ? et la latence réseau inter-etcd ? des fois c'est juste la comm entre members
la validation des CRD par l'api-server aussi ça coûte cher. si tes schémas sont complexes et que tu crées 5000 objets d'un coup ça peut faire suer le api-server. as-tu des validating admission webhooks qui sont lents ?
essayez de monter le "commit-timeout" et "election-timeout" pour voir si ça stabilise les leaders. des fois le réseau est un peu "flaky" et les timeouts par défaut sont trop courts
les gars j'ai monté le "commit-timeout" de 100ms à 200ms et "election-timeout" à 2000ms. j'ai aussi mis "snapshot-count" à 50000. ça a bien stabilisé le leader et les latences ont baissé drastiquement. on est autour de 50ms maintenant c'est jouable. merci beaucoup pour l'aide précieuse !
Laisser une réponse
Vous devez être connecté pour poster un message !
salut la gang on a un souci de perf monstrueux sur un cluster k8s. dès qu'on déploie une flopée de CRD custom (genre 5000 objets d'un coup) le kube-api-server commence à ramer comme pas possible et etcd prend 500ms+ sur les writes. l'infra est ok genre cpu/mem/disk sont pas saturés. j'ai checké les logs etcd y a rien d'évident. des idées sur ce qui pourrait causer ça ?