vault qui galère sous la charge rotation de secrets

gaillard-bernadette 11/06/2024
RÉSOLU
gaillard-bernadette
Auteur Actif
Avatar de gaillard-bernadette
gaillard-bernadette
Auteur Actif

on a vault pour la gestion des secrets et ça commence à cracher des erreurs de timeout et de performance dès qu'on a un pic de rotation ou d'accès. on utilise le kv engine v2 et l'auth method kubernetes. le backend est sur un rds postgresql bien dimensionné. des idées pour débugger ça ?

11/06/2024 à 21:19

6 commentaires

penelope-aubry
Membre Actif
Avatar de penelope-aubry
penelope-aubry
Membre Actif

vérifie les logs de vault tu vas voir des erreurs sur les requêtes db ou des slow queries. et regarde les métriques de vault même si le rds est gros il peut y avoir des goulots d'étranglement côté app vault

12/06/2024 à 21:09

t'as un cluster vault ou un standalone ? si c'est un standalone en prod c'est pas fou ça. et si c'est un cluster combien de noeuds ? t'as activé le caching local de vault ?

13/06/2024 à 17:07
gaillard-bernadette
Auteur Actif
Avatar de gaillard-bernadette
gaillard-bernadette
Auteur Actif

c'est un cluster de 3 noeuds. le caching local est activé. les logs montrent surtout des timeout au niveau de l'API de vault quand on demande des secrets ou quand on les renouvelle

14/06/2024 à 16:54
penelope-aubry
Membre Actif
Avatar de penelope-aubry
penelope-aubry
Membre Actif

la latence réseau entre tes noeuds vault et le rds est bonne ? si tu es sur des az différentes ça peut créer des soucis. et check les connexions max sur ton postgresql peut-être que vault ouvre trop de connexions

15/06/2024 à 12:16
luce26
Membre Actif
Avatar de luce26
luce26
Membre Actif

pour les pics de rotation t'as pas des policies trop complexes ou des ttl super courts qui forcent des refreshs trop fréquents ? ça peut mettre une pression énorme sur le backend. regarde aussi les métriques du process vault lui-même cpu/mem

16/06/2024 à 07:40
gaillard-bernadette
Auteur Actif
Avatar de gaillard-bernadette
gaillard-bernadette
Auteur Actif

bon j'ai checké la latence db elle est bonne. par contre le nombre de connexions postgresql était trop bas et les ttl de certains secrets étaient vraiment très courts. on a augmenté les max_connections et étendu les ttl des secrets moins sensibles. ça a l'air de mieux respirer. thx pour l'aide !

17/06/2024 à 05:45

Laisser une réponse

Vous devez être connecté pour poster un message !

Rejoindre la communauté

Recevoir les derniers articles gratuitement en créant un compte !

S'inscrire