Vault HA pas réactif aux fails, des idées ?

Question

salut la team
on a vault en ha sur k8s avec consul comme backend et le truc c'est que quand on tue un pod vault leader le failover prend une plombe genre 30-45s c'est trop long pour nos app qui pètent des timeout
on est sur vault 1.14 et consul 1.15
# partie de notre config vault (simplifiée)
storage "consul" {
  address = "consul-server.consul:8500"
  path    = "vault/"
}
ha_storage "consul" {
  address = "consul-server.consul:8500"
  path    = "vault_ha/"
}
listener "tcp" {
  address     = "0.0.0.0:8200"
  tls_disable = true
}

des pistes pour réduire ce délai ?

alexandre29 · Answer

yo
vous avez checké le timeout du lease consul pour vault
si le lease est long vault mettra du temps à relâcher le lock leader
regarde dans la conf consul côté serveur et aussi le client vault

tbarthelemy · Answer

oui et aussi la latence réseau entre tes pods vault et les serveurs consul
si t'as des micro-coupures ou du lag ça peut allonger le temps pour que consul détecte que le leader est down
regarde les logs consul et vault pour voir si y a des messages de connectivité

patrick88 · Answer

un truc con mais tu uses bien le HEALTH endpoint de vault dans tes liveness probes k8s
si ta probe est trop laxiste ou utilise le STANDBY endpoint le kubelet va mettre du temps à relancer le pod leader
# exemple de probe
livenessProbe:
  httpGet:
    path: /v1/sys/health?standbyok=true&sealedok=false
    port: 8200
  initialDelaySeconds: 10
  periodSeconds: 5
  timeoutSeconds: 5
  failureThreshold: 3

attention le standbyok=true doit pas être là pour le leader sinon ça dit ok même si c'est pas le leader

wlelievre · Answer

ah merde le standbyok=true c'est exactement ce qu'on a sur la liveness probe
je vais tester de l'enlever pour la liveness et le laisser juste pour la readiness
pour le lease consul je dois vérifier quoi comme paramètre exactement

alexandre29 · Answer

le paramètre c'est le ttl des sessions consul pour vault
il est souvent défini implicitement mais tu peux le forcer côté vault
session_ttl = "10s" # exemple

fais gaffe à pas le mettre trop bas non plus sinon t'as des faux positifs si le réseau tousse un peu

tbarthelemy · Answer

et n'oublie pas le paramètre raft.leader_election_timeout si tu étais passé de consul à raft avant
mais là t'es en consul donc moins pertinent mais on sait jamais
sinon pour la latence réseau entre pods vault et consul dans k8s un iperf3 entre eux peut donner des indices si c'est vraiment réseau

wlelievre · Answer

ok les gars j'ai enlevé le standbyok=true de la liveness probe et j'ai forcé le ttl à 15s sur consul et vault
on est passé de 45s à genre 8-10s c'est beaucoup mieux
merci pour les tips c'était la liveness probe qui déconnait à plein tube

Vault HA pas réactif aux fails, des idées ?

7 commentaires

Laisser une réponse

Apprendre à déboguer vos conteneurs et vos images Docker

Notre première infrastructure AWS depuis Terraform

Faciliter le déploiements k8s avec Kustomize

Ingénierie Logicielle Durable : Construire un DevOps Vert Natif

Guide : Étendre votre Service Mesh avec des filtres Wasm et Rust

Rejoindre la communauté