Vault HA sur Kubernetes qui perd le quorum après un redeploy

margaud02 29/01/2026
RÉSOLU
margaud02
Auteur Actif
Avatar de margaud02
margaud02
Auteur Actif

Salut la commu. on a un Vault en mode HA sur EKS, backend Consul. quand on fait un simple redeploy de l'application Vault (genre un kubectl apply -f vault.yaml), il perd son quorum et reste sealed. il faut le relancer à la main. c'est ultra chiant. qqn a déjà eu ça ?

29/01/2026 à 18:34

9 commentaires

elisabeth13
Membre Actif Secouriste
Avatar de elisabeth13
elisabeth13
Membre Actif Secouriste

hello ! t'as vérifié que tes PVs pour Consul sont bien persistants ? si c'est du ephemeral stockage, normal que tu perdes l'état de Consul et donc le quorum de Vault après un redémarrage.

30/01/2026 à 13:14
margaud02
Auteur Actif
Avatar de margaud02
margaud02
Auteur Actif

oui les PVs sont bien persistants, c'est du EBS provisionné via le CSI driver. les données sont là. c'est vraiment le redeploy ou le redémarrage des pods qui casse le truc.

31/01/2026 à 09:42
marchal-franck
Membre Actif Secouriste
Avatar de marchal-franck
marchal-franck
Membre Actif Secouriste

ton pod anti-affinity pour Vault et Consul est bien configuré ? faut absolument éviter que tous les pods serveurs Consul redémarrent sur le même noeud en même temps. ça peut flinguer le quorum si plus de la moitié des serveurs sont down.

01/02/2026 à 07:00
elisabeth13
Membre Actif Secouriste
Avatar de elisabeth13
elisabeth13
Membre Actif Secouriste

et le readiness probe de Vault ? est-ce qu'il est pas trop rapide et déclare le pod ready avant que Vault soit vraiment prêt et qu'il ait rejoint le cluster ? ça peut créer des flaps.

02/02/2026 à 04:37

comment tu gères l'unseal ? il est auto via KMS ou manuel ? si c'est manuel, faut unseal après chaque restart si tu perds l'état. si auto, regarde les logs KMS ou Vault pendant le redémarrage.

03/02/2026 à 03:02
margaud02
Auteur Actif
Avatar de margaud02
margaud02
Auteur Actif

unseal auto via kms, pas de souci de ce côté-là. les probes sont assez généreuses. c'est surtout consul qui me paraît pas stable. j'ai l'impression que les ips des pods consul changent et que les membres galèrent à se retrouver et reformer le quorum.

04/02/2026 à 00:24
elisabeth13
Membre Actif Secouriste
Avatar de elisabeth13
elisabeth13
Membre Actif Secouriste

ah ips changeantes en k8s c la plaie pour des trucs comme consul. faut absolument utiliser le service discovery dns de kubernetes pour que consul retrouve ses pairs, pas les ips directes. dans la config de consul. tu dois avoir un truc genre retry_join: ["consul-server.default.svc.cluster.local"]

04/02/2026 à 20:49
marchal-franck
Membre Actif Secouriste
Avatar de marchal-franck
marchal-franck
Membre Actif Secouriste

exact, ou alors si c'est possible pour ton archie, passe les serveurs Consul en dehors de K8s. ça simplifie le HA et les IPs sont stables. et les clients Consul dans K8s se connectent à l'adresse fixe des serveurs.

05/02/2026 à 18:46
margaud02
Auteur Actif
Avatar de margaud02
margaud02
Auteur Actif

bon j'ai revu la config Consul pour utiliser les noms de service kubernetes au lieu des IPs directes pour le retry_join. après un bon gros test de redeploy, ça a l'air de tenir le quorum ! merci mille fois pour la piste du DNS discovery, c'était ça le hic !

06/02/2026 à 16:46

Laisser une réponse

Vous devez être connecté pour poster un message !

Rejoindre la communauté

Recevoir les derniers articles gratuitement en créant un compte !

S'inscrire