Vault HA clusters qui rament un peu en charge

william94 11/04/2026
RÉSOLU
william94
Auteur Actif
Avatar de william94
william94
Auteur Actif

yo la team, on a notre cluster vault en HA qui commence à ramer pas mal quand on a un pic de requêtes. les clients timeoutent ou ont des latences de ouf. pourtant l'infra est pas petite (3 nodes, cluster raft). j'ai l'impression que le backend storage suis pas trop. des idées de diagnostic ?

# exemple de logs que je vois souvent
2023-10-27T10:30:15.123Z [ERROR] core.cluster: failed to write response: error="timeout"
2023-10-27T10:30:15.456Z [WARN] core: request timed out during lock acquisition
11/04/2026 à 21:18

7 commentaires

salut. quel est ton backend storage pour vault ? consul, psql, s3 ? et où il tourne ce backend ? si c'est consul il faut voir la latence réseau entre vault et consul aussi. on a eu des soucis avec des disques trop lents sur le consul.

12/04/2026 à 15:30
bernier-denis
Membre Actif Secouriste
Avatar de bernier-denis
bernier-denis
Membre Actif Secouriste

perso je checkerais les métriques CPU/RAM sur tes noeuds vault. des fois c juste le kernel qui swappe comme un porc ou vault qui est CPU bound sur le chiffrement/déchiffrement. regarde aussi les limites de fichiers ouverts et les num_cpus config sur vault.

13/04/2026 à 15:13

ouais et le réseau entre tes noeuds vault est clean ? surtout pour le raft. si tu as des drops ou de la latence entre eux, le leader election peut prendre du temps et ça bloque tout. raft.heartbeat_timeout et raft.election_timeout dans la config vault.

Modifié le 23/05/2026 à 16:20

côté client vous faites du connection pooling et du caching ? si chaque requete client ré-établit une connexion et refait un login ça peut mettre le feu à vault. l'API a des built-in pour le caching des tokens et secrets.

15/04/2026 à 05:34
bernier-denis
Membre Actif Secouriste
Avatar de bernier-denis
bernier-denis
Membre Actif Secouriste

si le backend est un SGBD genre psql ou mysql, faut regarder les IOPS du disque qui supporte la base. c souvent un goulot d'étranglement surprise. une petite instance RDS gp2 peut vite saturer sous vault.

16/04/2026 à 02:01

un truc con mais le TLS. si vos machines sont pas ouf en cpu et que vous avez des chiffrements trop complexes ou une tonne de connexions courtes, le handshake TLS peut bouffer pas mal de cycles. check les ciphers tls.

17/04/2026 à 00:25
william94
Auteur Actif
Avatar de william94
william94
Auteur Actif

merci à tous pour les pistes ! c'était bien le backend storage. on est sur psql sur une instance qui était sous-dimensionnée en IOPS. on a migré sur gp3 avec plus d'IOPS et une meilleure latence et c'est le jour et la nuit. thx !

17/04/2026 à 19:45

Laisser une réponse

Vous devez être connecté pour poster un message !

Rejoindre la communauté

Recevoir les derniers articles gratuitement en créant un compte !

S'inscrire