Membre depuis le 28/04/2019
salut. quel est ton backend storage pour vault ? consul, psql, s3 ? et où il tourne ce backend ? si c'est consul il faut voir la latence réseau entre vault et consul aussi. on a eu des soucis avec des disques trop lents sur le consul.
Membre depuis le 18/03/2019
perso je checkerais les métriques CPU/RAM sur tes noeuds vault. des fois c juste le kernel qui swappe comme un porc ou vault qui est CPU bound sur le chiffrement/déchiffrement. regarde aussi les limites de fichiers ouverts et les num_cpus config sur vault.
Membre depuis le 28/04/2019
ouais et le réseau entre tes noeuds vault est clean ? surtout pour le raft. si tu as des drops ou de la latence entre eux, le leader election peut prendre du temps et ça bloque tout. `raft.heartbeat_timeout` et `raft.election_timeout` dans la config vault.
Membre depuis le 03/09/2024
côté client vous faites du connection pooling et du caching ? si chaque requete client ré-établit une connexion et refait un login ça peut mettre le feu à vault. l'API a des built-in pour le caching des tokens et secrets.
Membre depuis le 18/03/2019
si le backend est un SGBD genre psql ou mysql, faut regarder les IOPS du disque qui supporte la base. c souvent un goulot d'étranglement surprise. une petite instance RDS gp2 peut vite saturer sous vault.
Membre depuis le 28/04/2019
un truc con mais le TLS. si vos machines sont pas ouf en cpu et que vous avez des chiffrements trop complexes ou une tonne de connexions courtes, le handshake TLS peut bouffer pas mal de cycles. check les ciphers tls.
Membre depuis le 16/03/2019
merci à tous pour les pistes ! c'était bien le backend storage. on est sur psql sur une instance qui était sous-dimensionnée en IOPS. on a migré sur gp3 avec plus d'IOPS et une meilleure latence et c'est le jour et la nuit. thx !
Vous devez être connecté pour poster un message !
Recevoir les derniers articles gratuitement en créant un compte !
S'inscrire
william94
Membre depuis le 16/03/2019
yo la team, on a notre cluster vault en HA qui commence à ramer pas mal quand on a un pic de requêtes. les clients timeoutent ou ont des latences de ouf. pourtant l'infra est pas petite (3 nodes, cluster raft). j'ai l'impression que le backend storage suis pas trop. des idées de diagnostic ?