13 commentaires
salut! 500ms c'est chaud t'as regardé les métriques latency p99 pour les writes sur etcd? souvent un operator mal écrit peut spammer etcd avec des updates trop fréquentes ou des payloads énormes
clairement les pauses de compaction sont un signal fort que etcd galère à nettoyer l'historique. ça veut dire que ton operator génère bcp de révisions. faut optimiser les writes ou réduire la rétention historique
le list global sur des crd volumineuses est un antipattern. essaie de te baser sur des événements plus ciblés. utilise des index si possible sur tes crd si tu as des champs récurrents pour tes requêtes
Laisser une réponse
Vous devez être connecté pour poster un message !
yo la team! on a un operator k8s custom qui gère des centaines de CRD et depuis qq temps etcd est à la ramasse. des requêtes take 500ms au lieu de 50. ça nous freeze tout le cluster on dirait que ça bloque le leader etcd pas de compaction alarm visible