16 commentaires
les métriques sont ok pour l'iops et le network entre nodes. pas de spike. j'ai l'impression que c plus lié au volume d'écritures
j'ai ça dans les logs :
raft: leader election timed out le wal est sur 128MB par défaut
d'acc je vais essayer ça. et pour le wal j'augmente aussi ? genre 512MB ou 1GB
j'ai mis election à 1000ms et heartbeat à 100ms. ça a l'air un peu plus stable mais j'ai toujours quelques flaps par ci par là sur les heures de pointe
ext4 par défaut. les options de mount c'est juste defaults
ok je vais tenter le remount avec ces options. faut que je redéploie le pv/pvc pour ça je crois
j'ai refait les volumes avec noatime,data=writeback c'est le jour et la nuit. plus aucun flap depuis une heure et l'api server répond au quart de tour. merci c'était le disque finalement
clairement un truc à retenir. thx pour l'aide ça a sauvé ma semaine
Laisser une réponse
Vous devez être connecté pour poster un message !
yo la team on a un gros souci en prod sur notre cluster k8s l'api server est ultra lent et on voit des evictions aléatoires. les logs etcd montrent des leader elections à la chaine. la config par défaut semble plus tenir la charge. on est sur trois nœuds masters dedicated avec ssd NVMe pourtant