7 commentaires
salut. quel est ton backend storage pour vault ? consul, psql, s3 ? et où il tourne ce backend ? si c'est consul il faut voir la latence réseau entre vault et consul aussi. on a eu des soucis avec des disques trop lents sur le consul.
perso je checkerais les métriques CPU/RAM sur tes noeuds vault. des fois c juste le kernel qui swappe comme un porc ou vault qui est CPU bound sur le chiffrement/déchiffrement. regarde aussi les limites de fichiers ouverts et les num_cpus config sur vault.
ouais et le réseau entre tes noeuds vault est clean ? surtout pour le raft. si tu as des drops ou de la latence entre eux, le leader election peut prendre du temps et ça bloque tout. raft.heartbeat_timeout et raft.election_timeout dans la config vault.
côté client vous faites du connection pooling et du caching ? si chaque requete client ré-établit une connexion et refait un login ça peut mettre le feu à vault. l'API a des built-in pour le caching des tokens et secrets.
si le backend est un SGBD genre psql ou mysql, faut regarder les IOPS du disque qui supporte la base. c souvent un goulot d'étranglement surprise. une petite instance RDS gp2 peut vite saturer sous vault.
un truc con mais le TLS. si vos machines sont pas ouf en cpu et que vous avez des chiffrements trop complexes ou une tonne de connexions courtes, le handshake TLS peut bouffer pas mal de cycles. check les ciphers tls.
Laisser une réponse
Vous devez être connecté pour poster un message !
yo la team, on a notre cluster vault en HA qui commence à ramer pas mal quand on a un pic de requêtes. les clients timeoutent ou ont des latences de ouf. pourtant l'infra est pas petite (3 nodes, cluster raft). j'ai l'impression que le backend storage suis pas trop. des idées de diagnostic ?