9 commentaires
yo. 10k req/s c'est pas rien. t'as checké le réseau entre tes pods vault et tes serveurs consul ? un p'tit iperf histoire de voir la latence brute et le débit max.
salut. regarde aussi les metrics consul côté serveur. cpu, mem et surtout disk iops. si consul galère à stocker/récupérer les données sur le disque ça va impacter vault direct.
ouais et vault est-ce que t'as activé le caching local ? des fois ça aide énormément sur les reads si les secrets sont souvent les mêmes. et la réplication raft est bien syncro partout ?
côté consul les journaux d'audit et les snapshots peuvent aussi foutre le bordel en iops si mal configurés. c'est quoi le type d'instance ec2 pour consul ? du gp2/gp3 ? provisioned iops ?
ah gp2 par défaut sur de la forte charge consul c'est un classique. t'as ptete des bursts capacity qui s'épuisent. passe en gp3 avec des iops provisionnés ou de l'io1/io2. ça coute mais ça scale.
ouais +1 pour le gp3/io1. et n'oublie pas de monitorer les latences de consul lui-même, pas juste les iops brutes. il a ses propres métriques de performance.
Laisser une réponse
Vous devez être connecté pour poster un message !
Salut la team j'ai un souci avec vault j'ai l'impression qu'il galère grave dès qu'on monte en charge sur les reads de secrets. Au dela de 10k req/s le p99 monte à 500ms voire plus c'est injouable.
L'infra c'est du k8s avec un backend consul sur ec2. Les instances sont pas saturées en cpu/mem.
Des idées sur ce qui pourrait ralentir les reads à ce point ?