vault est lent comme pas permis en haute dispo

Question

salut tout le monde, on a un vault cluster en HA (3 noeuds raft) sur des VMs avec disques SSD censés être rapides. le truc c'est que dès qu'on a un peu de charge dessus (genre 500 requêtes/sec) ça devient ultra lent. les clients commencent à timer out, les requêtes prennent des secondes au lieu de millisecondes. on gère des secrets pour des milliers de services. j'ai checké le cpu/mem des VMs c'est ok. la latence réseau entre les noeuds est basse.

vault status
Key             Value
---             -----
Seal Type       shamir
Sealed          false
HA Enabled      true
HA Cluster      n/a
HA Mode         active
Active Node     vault-0

matthieu-dumas · Answer

hello, c'est quoi le backend de stockage de ton raft ? et les IOPS réels de tes disques SSD ? "censés être rapides" ça veut souvent dire pas mesuré. regarde la queue depth et les latences sur tes devices block. pour 500 req/s vault a besoin de iops sérieuses.

michel57 · Answer

on est sur du ext4 sur un volume EBS io2 sur AWS. on a configuré 10k IOPS provisionnés. cloudwatch me donne des avg iops à 400-500 en pic. mais la latence disque monte parfois à 50ms sur des périodes courtes.

qrey · Answer

50ms de latence pour du raft c'est beaucoup. raft est très sensible à la latence i/o et network. t'as vérifié les métriques réseau entre tes noeuds vault ? y a du jitter ? est-ce que t'es sûr que tes vms ont assez de bande passante réseau ?

robert23 · Answer

check le tuning kernel de tes VMs. limites de fichiers ouverts (ulimit -n) ? network buffer sizes ? des fois les defaults sont trop bas pour des applications qui gèrent autant de connexions ou de fichiers. pour vault c'est clé.

michel57 · Answer

ulimit c'est par défaut sur 1024. ça peut être ça ouais. pour la bande passante c'est des c5.large ou medium j'ai un doute, j'ai pas les specs là mais c'est pas des gros modèles. on a d'autres trucs sur ces vms genre quelques agents. mais pas des trucs qui devraient saturer le réseau.

matthieu-dumas · Answer

c5.large c'est pas fou pour du réseau non plus. c'est surtout le storage iops sur ebs qui m'inquiète pour 500 req/s. t'as tenté d'augmenter les iops provisionnés ? ou de passer sur un type d'instance avec du nvme local si tu peux te le permettre niveau architecture ?

qrey · Answer

regarde aussi le nombre de sessions ouvertes par vault et les time_wait. si tu as trop de connexions en time_wait ça peut saturer les ports éphémères et ça peut créer de la latence réseau même si le réseau est pas saturé en bande passante. tcp_tw_reuse peut aider mais attention aux effets de bord.

alice-pages · Answer

un truc con mais tu as bien activé le cache en mémoire pour vault ? vault cache-size dans la config. et vérifie que tu n'as pas de clients qui spamment la même clé ou un chemin très "chaud" sans token caching côté client. la plupart des SDK vault ont des options de cache.

michel57 · Answer

ok alors après investigation y'avait un mix de trucs. les IOPS de l'EBS étaient pas suffisants pour les bursts réels malgré ce que cloudwatch montrait en moyenne. j'ai monté à 20k IOPS et ça va mieux. et le ulimit -n était effectivement à 1024, je l'ai mis à 65536. depuis ça respire beaucoup plus.

matthieu-dumas · Answer

nickel c'est souvent un mix de petits réglages. les IOPS sur EBS sont un piège parfois la moyenne est trompeuse. et le ulimit c'est un classique. bien joué !

michel57 · Answer

merci à tous pour les pistes. gros gain de perf et de stabilité c'est génial.

vault est lent comme pas permis en haute dispo

11 commentaires

Laisser une réponse

Comment se préparer à la certification CKA (Certified Kubernetes Administrator)

Configuration des clés SSH pour sécuriser vos accès GitLab

Configuration avancée des Runners GitLab via config.toml

L'Ère du Developer Productivity Engineering : Propulser l'Innovation DevOps

Les pratiques SRE sont-elles inadaptées à la complexité moderne ?

Rejoindre la communauté