7 commentaires
hmm ça ressemble à un souci de split-brain ou de résolution de nom dans tes clusters k8s quand tu bascules. comment est gérée la découverte des peers raft entre les deux régions ? tu utilises des services k8s ou des ips directes ? parce que si c'est des ips directes et qu'elles changent ça va pas le faire.
ouais et même avec des services k8s si t'as des dns regionaux qui mettent du temps à se sync ou des caches dns trop agressifs ça peut poser souci. as-tu regardé les logs des noeuds raft après le failover ? surtout les erreurs de connexion ou de membre absent.
j'ai eu un truc similaire c'était lié à la persistance des données. les noeuds raft doivent bien voir leurs disques persistants même après redémarrage ou migration. t'es sûr que tes PVC sont bien attachés aux bons pods dans la région DR et que la data est cohérente ? des fois un noeud rejoint le cluster avec une ancienne config et ça fout le bazar.
les logs montrent des "no Raft leader" et des "failed to communicate with peer". pour la découverte j'utilise des services k8s avec des endpoints externes pour la région DR. mais peut-être que les IP derrière changent trop vite ou que les résolutions DNS sont chaotiques. les PVC sont okay je pense ils sont répliqués avec Velero.
si tes services k8s sont bien configurés pour pointer sur les bonnes IP des pods vault et que tes firewalls inter-régions sont ouverts sur les ports 8200/8201 c'est ptete un heartbeat timeout trop court. par defaut raft est à 1s. si ta latence inter-région dépasse ça régulièrement tu vas avoir des faux positifs de leader down.
okay je vais tenter d'augmenter les timeouts Raft c'est une piste intéressante ça colle avec l'inter-région. et je vais revérifier la config DNS des services k8s. merci pour les idées je vous tiens au jus !
Laisser une réponse
Vous devez être connecté pour poster un message !
Salut la team ! J'essaie de monter un setup Vault HA sur k8s avec un cluster Raft et un réplica DR sur une autre région. Le HA marche nickel mais quand je simule un failover sur le réplica DR, le cluster Raft de la région primaire part en vrac. Genre il ne trouve plus ses peers, il se splitte. J'ai l'impression qu'il y a un souci de résilience ou de découverte entre les régions.