Vault Enterprise Replication pas synchro entre primary et secondary

Question

salut les pros de vault ! on a une réplication vault enterprise (performance replication) entre un primary et un secondary. le primary va bien mais le secondary est en retard sur la synchro. il est en mode standby et le health check est vert mais il ne reçoit plus les updates du primary. j'ai déjà redémarré le secondary mais ça change rien

# Statut de la réplication sur le secondary
vault read sys/replication/dr/status
Key                 Value
---                 -----
cluster_id          
last_wal             # celui-ci est en retard
mode                secondary
primary_cluster_addr  
...

ylaurent · Answer

slt. t'as vérifié les logs du secondary ? des fois il y a des erreurs de connexion au primary genre problème de réseau ou de certificat TLS. même si le health est vert les logs peuvent donner plus de détails

camus-theophile · Answer

j'ai plongé dans les logs rien d'évident. pas d'erreurs tls pas de soucis de connexion. les nœuds se voient bien. j'ai regardé les métriques aussi pas de pic de latence ou de bande passante saturée entre les clusters

david-marine · Answer

regarde le vault operator raft list-peers sur le primary et le secondary. vault utilise raft en interne pour la synchro de l'état. si un nœud raft est pas en bonne santé même si vault semble ok ça peut bloquer la réplication

camus-theophile · Answer

ha bien vu ! sur le secondary un des trois nœuds raft est unreachable depuis un moment. il est marqué comme non-voter mais il est là. ptete c'est ça le souci

ahernandez · Answer

oui c'est ça ton problème. la réplication vault s'appuie sur la synchronisation du backend storage qui est basée sur raft. si un peer est ko la synchro peut être bloquée ou ralentie car il attend l'ack du nœud défaillant

ylaurent · Answer

tente de redémarrer juste ce nœud raft spécifique si c'est un serveur. ou si c'est un conteneur relance le pod. si ça marche pas il faudra ptete le supprimer du cluster raft et le rajouter mais c'est plus risqué

david-marine · Answer

avant de le virer et le rajouter essaie aussi de voir si y'a pas un firewall entre le nœud défaillant et le reste du cluster qui s'est activé. genre les ports 8201 8200 doivent être ouverts entre tous les membres du cluster

camus-theophile · Answer

merci beaucoup les gars ! j'ai redémarré le nœud qui était unreachable et la synchro a repris direct. c'était bien le souci de raft. top !

Vault Enterprise Replication pas synchro entre primary et secondary

8 commentaires

Laisser une réponse

Les Slices (tableaux dynamiques) dans le langage de programmation Go

Fonctionnement et manipulation des Volumes

Environnements et Déploiements GitLab pour la Mise en Production

L'Ère du Developer Productivity Engineering : Propulser l'Innovation DevOps

Déployer des pipelines CI/CD programmables avec Dagger et CUE

Rejoindre la communauté