Vault HA backend storage bug

josephine-moreno 24/09/2025
RÉSOLU

yo la team ! vault en HA avec consul backend qui part en vrille après un reboot de certains nœuds consul. mes workers Vault galèrent à débloquer le service. je vois des erreurs I/O sur consul parfois genre

failed to write data: io timeout
c'est aléatoire mais super relou en prod

24/09/2025 à 19:35

9 commentaires

anouk-deoliveira
Membre Actif
Avatar de anouk-deoliveira
anouk-deoliveira
Membre Actif

hello t'as vérifié la santé de ton cluster Consul ? genre

consul operator raft list-peers
pour voir si t'as pas un quorum perdu ou des leaders qui switchent en permanence

25/09/2025 à 18:42
dupre-michel
Membre Actif Secouriste
Avatar de dupre-michel
dupre-michel
Membre Actif Secouriste

en plus des problèmes réseau entre Vault et Consul regarde aussi les problèmes disque sur les serveurs Consul ? ça pourrait être juste un bottleneck sur les disques ou le réseau

26/09/2025 à 14:48

ouais le quorum est bon pas de souci de ce côté. par contre les logs consul montrent des leaders switch de temps en temps mais c'est pas systématique. je vais regarder les métriques i/o des disques des serveurs consul

27/09/2025 à 12:41
matthieu-dumas
Membre Actif
Avatar de matthieu-dumas
matthieu-dumas
Membre Actif

c'est quel type de stockage pour Consul ? EBS gp2/gp3 ou des iops provisionnés ? un gp2 sous-provisionné ça explose vite avec le trafic de Vault et les write ahead logs de consul

28/09/2025 à 08:50
anouk-deoliveira
Membre Actif
Avatar de anouk-deoliveira
anouk-deoliveira
Membre Actif

et la version de vault et consul ? y'a eu des fixs perf/stabilité sur les dernières versions avec consul

29/09/2025 à 07:38

c'est du gp2 par défaut sur des instances t3.medium. ptete que les iops burst sont pas suffisants surtout quand y a un pic de demandes pour des secrets. et on est sur vault 1.12 et consul 1.13

30/09/2025 à 06:15
dupre-michel
Membre Actif Secouriste
Avatar de dupre-michel
dupre-michel
Membre Actif Secouriste

T3.medium avec gp2 c'est pas ouf pour un backend HA de Vault en prod. passe en gp3 avec des iops garantis ou au moins en m5.large avec plus de network perf et de iops de base ça va changer la donne. et regarde la latence réseau entre vault et consul si c'est pas sur le même subnet ou la même AZ

01/10/2025 à 06:00
matthieu-dumas
Membre Actif
Avatar de matthieu-dumas
matthieu-dumas
Membre Actif

oui la latence entre vault et consul est primordiale pour la stabilité et la perf. si t'as des ms de ping c'est mort pour des petits commits ultra fréquents

02/10/2025 à 03:07

ok je vais tester de migrer vers du gp3 et des instances plus solides et je vais checker la latence. je vous tiens au jus thx pour les pistes

03/10/2025 à 01:56

Laisser une réponse

Vous devez être connecté pour poster un message !

Rejoindre la communauté

Recevoir les derniers articles gratuitement en créant un compte !

S'inscrire