8 commentaires
j'ai plongé dans les logs rien d'évident. pas d'erreurs tls pas de soucis de connexion. les nœuds se voient bien. j'ai regardé les métriques aussi pas de pic de latence ou de bande passante saturée entre les clusters
regarde le vault operator raft list-peers sur le primary et le secondary. vault utilise raft en interne pour la synchro de l'état. si un nœud raft est pas en bonne santé même si vault semble ok ça peut bloquer la réplication
ha bien vu ! sur le secondary un des trois nœuds raft est unreachable depuis un moment. il est marqué comme non-voter mais il est là. ptete c'est ça le souci
oui c'est ça ton problème. la réplication vault s'appuie sur la synchronisation du backend storage qui est basée sur raft. si un peer est ko la synchro peut être bloquée ou ralentie car il attend l'ack du nœud défaillant
avant de le virer et le rajouter essaie aussi de voir si y'a pas un firewall entre le nœud défaillant et le reste du cluster qui s'est activé. genre les ports 8201 8200 doivent être ouverts entre tous les membres du cluster
merci beaucoup les gars ! j'ai redémarré le nœud qui était unreachable et la synchro a repris direct. c'était bien le souci de raft. top !
Laisser une réponse
Vous devez être connecté pour poster un message !
salut les pros de vault ! on a une réplication vault enterprise (performance replication) entre un primary et un secondary. le primary va bien mais le secondary est en retard sur la synchro. il est en mode standby et le health check est vert mais il ne reçoit plus les updates du primary. j'ai déjà redémarré le secondary mais ça change rien