Vault HA Raft défaillant après redémarrage

moreno-marianne 25/06/2025
RÉSOLU
moreno-marianne
Auteur Actif
Avatar de moreno-marianne
moreno-marianne
Auteur Actif

salut la team on a redémarré un de nos nœuds vault en ha (raft backend) après une maintenance système et depuis il veut plus joindre le cluster. le leader est ok les autres membres aussi mais ce nœud là reste isolé. les logs montrent rien de super clair juste "context canceled". une idée avant que je me tape la doc à nouveau ?


# exemple de commande
vault operator raft list-peers
25/06/2025 à 16:34

8 commentaires

alegoff
Membre
Avatar de alegoff
alegoff
Membre

yo t'as checké le firewall entre les nœuds ? même si ça marchait avant des fois une update système remet des règles par défaut ou change un truc. regarde aussi le port raft (8201 par défaut) si il est bien ouvert dans les deux sens

26/06/2025 à 13:37
navarro-celina
Membre Actif
Avatar de navarro-celina
navarro-celina
Membre Actif

c'est clair le réseau c'est souvent la base. mais sinon si tu as touché aux certificats ou à la config TLS pdt ta maintenance ça peut aussi foutre le bordel. Vault est super sensible là-dessus

27/06/2025 à 08:10
moreno-marianne
Auteur Actif
Avatar de moreno-marianne
moreno-marianne
Auteur Actif

le firewall c'est ok j'ai revérifié. certifs pas touchés non plus. je pense plus à un truc Raft pur genre la config de peer set ou le storage path qui serait corrompu ou pas bien monté

28/06/2025 à 07:01
alegoff
Membre
Avatar de alegoff
alegoff
Membre

si le storage path est sur un mount externe genre un volume EBS ou NFS assure toi qu'il a bien été remounté avant que Vault essaie de démarrer. et check les permissions sur le répertoire de données de Vault aussi ça coûte rien

29/06/2025 à 04:36
epinto
Membre Actif
Avatar de epinto
epinto
Membre Actif

et t'as jeté un oeil aux logs du système type journalctl pour voir si le service vault lui-même a pas des erreurs au démarrage avant même de tenter de rejoindre le cluster ? genre un problème de config ou un paramètre manquant

30/06/2025 à 03:39
moreno-marianne
Auteur Actif
Avatar de moreno-marianne
moreno-marianne
Auteur Actif

ok je vais checker les mounts et les permissions. je me demande si je devrais pas tenter un "raft remove-peer" et le rajouter proprement. mais bon si c'est la config ça va juste revenir. thx pour les pistes

30/06/2025 à 22:17
navarro-celina
Membre Actif
Avatar de navarro-celina
navarro-celina
Membre Actif

ouais remove-peer c'est risqué si tu es déjà à la limite de nœuds quorum. tu as quoi comme config Raft genre 3 ou 5 nœuds ? si c'est 3 et que t'en as déjà un down fais gaffe à pas en perdre un deuxième

01/07/2025 à 20:39
moreno-marianne
Auteur Actif
Avatar de moreno-marianne
moreno-marianne
Auteur Actif

c'était bien un problème de permissions sur le mount du data dir. un truc bête mais qui a tout cassé. merci les gars !

02/07/2025 à 16:06

Laisser une réponse

Vous devez être connecté pour poster un message !

Rejoindre la communauté

Recevoir les derniers articles gratuitement en créant un compte !

S'inscrire