vault est lent comme pas permis en haute dispo

michel57 02/03/2026
RÉSOLU
michel57
Auteur Actif
Avatar de michel57
michel57
Auteur Actif

salut tout le monde, on a un vault cluster en HA (3 noeuds raft) sur des VMs avec disques SSD censés être rapides. le truc c'est que dès qu'on a un peu de charge dessus (genre 500 requêtes/sec) ça devient ultra lent. les clients commencent à timer out, les requêtes prennent des secondes au lieu de millisecondes. on gère des secrets pour des milliers de services. j'ai checké le cpu/mem des VMs c'est ok. la latence réseau entre les noeuds est basse.


vault status
Key             Value
---             -----
Seal Type       shamir
Sealed          false
HA Enabled      true
HA Cluster      n/a
HA Mode         active
Active Node     vault-0
02/03/2026 à 16:34

11 commentaires

matthieu-dumas
Membre Actif
Avatar de matthieu-dumas
matthieu-dumas
Membre Actif

hello, c'est quoi le backend de stockage de ton raft ? et les IOPS réels de tes disques SSD ? "censés être rapides" ça veut souvent dire pas mesuré. regarde la queue depth et les latences sur tes devices block. pour 500 req/s vault a besoin de iops sérieuses.

03/03/2026 à 11:47
michel57
Auteur Actif
Avatar de michel57
michel57
Auteur Actif

on est sur du ext4 sur un volume EBS io2 sur AWS. on a configuré 10k IOPS provisionnés. cloudwatch me donne des avg iops à 400-500 en pic. mais la latence disque monte parfois à 50ms sur des périodes courtes.

04/03/2026 à 11:38
qrey
Membre Actif
Avatar de qrey
qrey
Membre Actif

50ms de latence pour du raft c'est beaucoup. raft est très sensible à la latence i/o et network. t'as vérifié les métriques réseau entre tes noeuds vault ? y a du jitter ? est-ce que t'es sûr que tes vms ont assez de bande passante réseau ?

05/03/2026 à 10:36
robert23
Membre
Avatar de robert23
robert23
Membre

check le tuning kernel de tes VMs. limites de fichiers ouverts (ulimit -n) ? network buffer sizes ? des fois les defaults sont trop bas pour des applications qui gèrent autant de connexions ou de fichiers. pour vault c'est clé.

06/03/2026 à 10:11
michel57
Auteur Actif
Avatar de michel57
michel57
Auteur Actif

ulimit c'est par défaut sur 1024. ça peut être ça ouais. pour la bande passante c'est des c5.large ou medium j'ai un doute, j'ai pas les specs là mais c'est pas des gros modèles. on a d'autres trucs sur ces vms genre quelques agents. mais pas des trucs qui devraient saturer le réseau.

07/03/2026 à 09:04
matthieu-dumas
Membre Actif
Avatar de matthieu-dumas
matthieu-dumas
Membre Actif

c5.large c'est pas fou pour du réseau non plus. c'est surtout le storage iops sur ebs qui m'inquiète pour 500 req/s. t'as tenté d'augmenter les iops provisionnés ? ou de passer sur un type d'instance avec du nvme local si tu peux te le permettre niveau architecture ?

08/03/2026 à 06:11
qrey
Membre Actif
Avatar de qrey
qrey
Membre Actif

regarde aussi le nombre de sessions ouvertes par vault et les time_wait. si tu as trop de connexions en time_wait ça peut saturer les ports éphémères et ça peut créer de la latence réseau même si le réseau est pas saturé en bande passante. tcp_tw_reuse peut aider mais attention aux effets de bord.

09/03/2026 à 05:24
alice-pages
Membre Actif Secouriste
Avatar de alice-pages
alice-pages
Membre Actif Secouriste

un truc con mais tu as bien activé le cache en mémoire pour vault ? vault cache-size dans la config. et vérifie que tu n'as pas de clients qui spamment la même clé ou un chemin très "chaud" sans token caching côté client. la plupart des SDK vault ont des options de cache.

10/03/2026 à 02:19
michel57
Auteur Actif
Avatar de michel57
michel57
Auteur Actif

ok alors après investigation y'avait un mix de trucs. les IOPS de l'EBS étaient pas suffisants pour les bursts réels malgré ce que cloudwatch montrait en moyenne. j'ai monté à 20k IOPS et ça va mieux. et le ulimit -n était effectivement à 1024, je l'ai mis à 65536. depuis ça respire beaucoup plus.

10/03/2026 à 21:43
matthieu-dumas
Membre Actif
Avatar de matthieu-dumas
matthieu-dumas
Membre Actif

nickel c'est souvent un mix de petits réglages. les IOPS sur EBS sont un piège parfois la moyenne est trompeuse. et le ulimit c'est un classique. bien joué !

11/03/2026 à 16:15
michel57
Auteur Actif
Avatar de michel57
michel57
Auteur Actif

merci à tous pour les pistes. gros gain de perf et de stabilité c'est génial.

12/03/2026 à 12:19

Laisser une réponse

Vous devez être connecté pour poster un message !

Rejoindre la communauté

Recevoir les derniers articles gratuitement en créant un compte !

S'inscrire