11 commentaires
hello, c'est quoi le backend de stockage de ton raft ? et les IOPS réels de tes disques SSD ? "censés être rapides" ça veut souvent dire pas mesuré. regarde la queue depth et les latences sur tes devices block. pour 500 req/s vault a besoin de iops sérieuses.
ulimit c'est par défaut sur 1024. ça peut être ça ouais. pour la bande passante c'est des c5.large ou medium j'ai un doute, j'ai pas les specs là mais c'est pas des gros modèles. on a d'autres trucs sur ces vms genre quelques agents. mais pas des trucs qui devraient saturer le réseau.
c5.large c'est pas fou pour du réseau non plus. c'est surtout le storage iops sur ebs qui m'inquiète pour 500 req/s. t'as tenté d'augmenter les iops provisionnés ? ou de passer sur un type d'instance avec du nvme local si tu peux te le permettre niveau architecture ?
regarde aussi le nombre de sessions ouvertes par vault et les time_wait. si tu as trop de connexions en time_wait ça peut saturer les ports éphémères et ça peut créer de la latence réseau même si le réseau est pas saturé en bande passante. tcp_tw_reuse peut aider mais attention aux effets de bord.
un truc con mais tu as bien activé le cache en mémoire pour vault ? vault cache-size dans la config. et vérifie que tu n'as pas de clients qui spamment la même clé ou un chemin très "chaud" sans token caching côté client. la plupart des SDK vault ont des options de cache.
ok alors après investigation y'avait un mix de trucs. les IOPS de l'EBS étaient pas suffisants pour les bursts réels malgré ce que cloudwatch montrait en moyenne. j'ai monté à 20k IOPS et ça va mieux. et le ulimit -n était effectivement à 1024, je l'ai mis à 65536. depuis ça respire beaucoup plus.
nickel c'est souvent un mix de petits réglages. les IOPS sur EBS sont un piège parfois la moyenne est trompeuse. et le ulimit c'est un classique. bien joué !
Laisser une réponse
Vous devez être connecté pour poster un message !
salut tout le monde, on a un vault cluster en HA (3 noeuds raft) sur des VMs avec disques SSD censés être rapides. le truc c'est que dès qu'on a un peu de charge dessus (genre 500 requêtes/sec) ça devient ultra lent. les clients commencent à timer out, les requêtes prennent des secondes au lieu de millisecondes. on gère des secrets pour des milliers de services. j'ai checké le cpu/mem des VMs c'est ok. la latence réseau entre les noeuds est basse.