Vault HA clusters qui rament un peu en charge

Question

yo la team, on a notre cluster vault en HA qui commence à ramer pas mal quand on a un pic de requêtes. les clients timeoutent ou ont des latences de ouf. pourtant l'infra est pas petite (3 nodes, cluster raft). j'ai l'impression que le backend storage suis pas trop. des idées de diagnostic ?
# exemple de logs que je vois souvent
2023-10-27T10:30:15.123Z [ERROR] core.cluster: failed to write response: error="timeout"
2023-10-27T10:30:15.456Z [WARN] core: request timed out during lock acquisition

aime-boucher · Answer

salut. quel est ton backend storage pour vault ? consul, psql, s3 ? et où il tourne ce backend ? si c'est consul il faut voir la latence réseau entre vault et consul aussi. on a eu des soucis avec des disques trop lents sur le consul.

bernier-denis · Answer

perso je checkerais les métriques CPU/RAM sur tes noeuds vault. des fois c juste le kernel qui swappe comme un porc ou vault qui est CPU bound sur le chiffrement/déchiffrement. regarde aussi les limites de fichiers ouverts et les num_cpus config sur vault.

aime-boucher · Answer

ouais et le réseau entre tes noeuds vault est clean ? surtout pour le raft. si tu as des drops ou de la latence entre eux, le leader election peut prendre du temps et ça bloque tout. raft.heartbeat_timeout et raft.election_timeout dans la config vault.

deschamps-isabelle · Answer

côté client vous faites du connection pooling et du caching ? si chaque requete client ré-établit une connexion et refait un login ça peut mettre le feu à vault. l'API a des built-in pour le caching des tokens et secrets.

bernier-denis · Answer

si le backend est un SGBD genre psql ou mysql, faut regarder les IOPS du disque qui supporte la base. c souvent un goulot d'étranglement surprise. une petite instance RDS gp2 peut vite saturer sous vault.

aime-boucher · Answer

un truc con mais le TLS. si vos machines sont pas ouf en cpu et que vous avez des chiffrements trop complexes ou une tonne de connexions courtes, le handshake TLS peut bouffer pas mal de cycles. check les ciphers tls.

william94 · Answer

merci à tous pour les pistes ! c'était bien le backend storage. on est sur psql sur une instance qui était sous-dimensionnée en IOPS. on a migré sur gp3 avec plus d'IOPS et une meilleure latence et c'est le jour et la nuit. thx !

Vault HA clusters qui rament un peu en charge

7 commentaires

Laisser une réponse

Guide pour configurer de votre environnement GoLang

Les packages dans le langage de programmation Go

NetworkPolicy (Firewall interne des pods kubernetes)

Les Datas Source sur Terraform

Maximiser la productivité du DevOps grâce à ChatGpt

Rejoindre la communauté