vérifie les logs de vault tu vas voir des erreurs sur les requêtes db ou des slow queries. et regarde les métriques de vault même si le rds est gros il peut y avoir des goulots d'étranglement côté app vault
t'as un cluster vault ou un standalone ? si c'est un standalone en prod c'est pas fou ça. et si c'est un cluster combien de noeuds ? t'as activé le caching local de vault ?
c'est un cluster de 3 noeuds. le caching local est activé. les logs montrent surtout des timeout au niveau de l'API de vault quand on demande des secrets ou quand on les renouvelle
la latence réseau entre tes noeuds vault et le rds est bonne ? si tu es sur des az différentes ça peut créer des soucis. et check les connexions max sur ton postgresql peut-être que vault ouvre trop de connexions
pour les pics de rotation t'as pas des policies trop complexes ou des ttl super courts qui forcent des refreshs trop fréquents ? ça peut mettre une pression énorme sur le backend. regarde aussi les métriques du process vault lui-même cpu/mem
bon j'ai checké la latence db elle est bonne. par contre le nombre de connexions postgresql était trop bas et les ttl de certains secrets étaient vraiment très courts. on a augmenté les max_connections et étendu les ttl des secrets moins sensibles. ça a l'air de mieux respirer. thx pour l'aide !
Vous devez être connecté pour poster un message !
Recevoir les derniers articles gratuitement en créant un compte !
S'inscrire
gaillard-bernadette
Membre depuis le 27/03/2019actif secouriste
on a vault pour la gestion des secrets et ça commence à cracher des erreurs de timeout et de performance dès qu'on a un pic de rotation ou d'accès. on utilise le kv engine v2 et l'auth method kubernetes. le backend est sur un rds postgresql bien dimensionné. des idées pour débugger ça ?