Debuguer les latences de lock contention sur Go en production

Question

Salut à tous, j'ai une problématique assez spécifique sur un microservice écrit en Go. On observe des pics de latence P99 assez violents corrélés avec des phases de forte contention sur les mutex. J'ai utilisé go tool pprof et le graphe de blocage montre que nos goroutines passent un temps fou à attendre sur un sync.Mutex global dans notre couche de cache.

Avez-vous des retours sur l'utilisation de sync.Map ou du sharding de mutex pour limiter ce phénomène ? Ne pas verrouiller trop large semble être la règle, mais je cherche une approche plus fine pour diagnostiquer ce bottleneck sans impacter le débit.

laurent36 · Answer

La contention sur un mutex global est un classique. As-tu déjà vérifié si ton CPU est sous-exploité pendant ces phases ? Si oui, c'est clairement un problème de sérialisation.

tmarty · Answer

Oui, le CPU est stable, c'est vraiment l'attente sur le lock qui plombe tout. Le pprof indique runtime.semacquireMutex en tête de liste.

dcarpentier · Answer

Si ton cache est en lecture seule majoritaire, sync.RWMutex est préférable, mais si tu as beaucoup d'écritures, le sharding de ton cache est la seule solution viable. Voici un pattern classique pour découper ça :type ShardedCache struct { shards []*Shard }

giraud-michel · Answer

Attention aussi au nombre de goroutines. Si tu as 10k goroutines qui se battent pour un seul lock, le scheduler Go va passer son temps à faire du context switching.

tmarty · Answer

Effectivement, le nombre de goroutines explose lors des pics. Je vais tester le sharding par hash de clé pour réduire la contention sur chaque shard.

laurent36 · Answer

N'oublie pas d'utiliser GODEBUG=schedtrace=1000 pour monitorer les états des threads pendant que ça bloque.

tmarty · Answer

Bonne idée, je vais lancer ça en staging pour voir si je détecte des threads en mode syscall ou waiting prolongé.

dcarpentier · Answer

Et si tu peux, essaie d'utiliser des canaux pour gérer le flux au lieu des locks si la logique le permet.

tmarty · Answer

Les channels sur des structures de données complexes ça devient vite spaghetti. Je reste sur le sharding de mutex.

giraud-michel · Answer

C'est plus propre en effet. Tiens-nous au courant du delta de performance.

tmarty · Answer

Le sharding a réduit la P99 de 40%. La contention est répartie et les goroutines ne s'empilent plus. Problème résolu.

Debuguer les latences de lock contention sur Go en production

11 commentaires

Laisser une réponse

Gérer et manipuler les namespaces et les ResourceQuotas

Les provisioners et taints

Construire une infrastructure AWS hautement disponible

Introduction au cours ELK

Tuto : Configurer l'Auto-scaling GPU pour vos LLM avec Karpenter

Rejoindre la communauté

Oops! An Error Occurred

The server returned a "500 Internal Server Error".