PostgreSQL sur K8S: Latence aléatoire et 'idle in transaction'

Question

Salut à tous.
On a une instance PostgreSQL 14 qui tourne sur un StatefulSet Kubernetes (EKS, gp3 volumes) gérée par un opérateur maison. On voit des pics de latence aléatoires sur certaines transactions, ça peut aller jusqu'à 5 secondes. En même temps, on voit des tas de sessions idle in transaction dans pg_stat_activity. Parfois ça finit par un reset de connexion. Ça n'arrive pas en pleine charge mais de manière sporadique, même avec une charge modérée.
Le monitoring classique (CPU, RAM, IOPS) ne montre rien d'anormal. Des pistes ?

philippe-dufour · Answer

Idle in transaction avec des resets c'est toujours chiant. Ça peut être la base de données, l'opérateur, Kubernetes ou même l'appli cliente.
Comme les metrics classiques sont ok, on va creuser le stockage. Tes gp3 sont provisionnés comment ? C'est quoi les IOPS/MBps max ? Et côté noeud Kubernetes, iostat -x 1 sur les devices de tes PVs pendant un pic ? Regarde avgqu-sz et await.

alex-potier · Answer

On est provisionné pour 16k IOPS et 250 MB/s. On est très loin d'atteindre ça, même pendant les pics de latence. iostat sur le node montre un await de 2-3ms max, avgqu-sz sous les 5, et %util sous les 20%. Zéro iowait apparent sur htop ou vmstat.
Donc le stockage brut n'est pas le problème.

thibault38 · Answer

Ok storage check. idle in transaction peut être un symptôme d'un problème plus large si l'opérateur ou Patroni a du mal avec les locks distribués. Ton opérateur s'appuie sur etcd pour l'HA de Patroni non ?
Quelle est la latence de etcd depuis tes pods ? etcdctl endpoint health --cluster ou des métriques Prometheus sur etcd si tu en as.

alex-potier · Answer

Oui l'opérateur utilise Patroni qui s'appuie sur etcd pour le leader election. On a un monitoring etcd dédié, la latence est très basse, sous les 5ms p99. Pas d'erreurs ni de soucis de quorum.
Donc pas de problème etcd.

philippe-dufour · Answer

Bon. Donc etcd clean, storage clean. Reviens à PostgreSQL pur. C'est quoi tes réglages de wal_sync_method et fsync ?
Un fsync qui bloque sur un filesystem lent peut causer ces pics. Même sur du gp3, si le kernel est super chargé ailleurs ou si un bug dans le driver ou le CSI se déclenche.

alex-potier · Answer

Alors :
SHOW wal_sync_method;
 fdatasync
SHOW fsync;
 on
Ce sont les valeurs par défaut pour une bonne raison. On ne veut pas désactiver fsync en prod. On a aussi checkpoint_timeout à 5min et max_wal_size à 1GB.
Ces réglages sont standards et n'ont jamais posé problème avant.

thibault38 · Answer

Ok fsync est on c'est normal. Mais le comportement idle in transaction est le plus gros indice ici. C'est pas un blocage interne à PG pour fsync. Si c'était ça tu verrais des waiting on wal writer ou waiting on checkpointer.
idle in transaction ça veut dire qu'une connexion cliente a commencé une transaction mais n'a pas encore fait de COMMIT ou ROLLBACK. Elle attend juste.
Utilises-tu un pooler de connexions entre tes applications et PostgreSQL ? Style pgbouncer ou un truc custom ?

alex-potier · Answer

Oui on utilise pgbouncer en mode transaction pooling. On a configuré des timeouts assez standard :
server_lifetime = 3600
server_idle_timeout = 60
client_idle_timeout = 30
Nos applications ont aussi des timeouts client de 30 secondes pour les requêtes.

philippe-dufour · Answer

Ah. pgbouncer en transaction pooling. C'est l'explication probable.
En mode transaction, pgbouncer va dédier une connexion serveur à un client pour la durée d'une transaction. Si le client ouvre une transaction (BEGIN), puis fait des opérations, puis ne fait rien pendant un long moment, la connexion serveur va rester en idle in transaction côté PostgreSQL.

thibault38 · Answer

Exactement. Et si ce client ne COMMIT ou ROLLBACK pas, et qu'il dépasse son propre timeout applicatif de 30 secondes, l'application va fermer la connexion côté client.
Ça force pgbouncer à réinitialiser cette connexion backend qui est en idle in transaction, ce qui peut générer un reset TCP ou une annulation de requête. Et pendant ce temps, cette connexion backend est bloquée, d'où les pics de latence si pgbouncer n'a plus de connexions disponibles dans son pool.

alex-potier · Answer

Ok je suis le raisonnement. Donc ce n'est pas un problème de performance du tout. C'est l'application qui ouvre une transaction et la laisse active beaucoup trop longtemps sans faire de COMMIT ou ROLLBACK. Et le pgbouncer en mode transaction pooling expose ce comportement.
Les pics de latence c'est quand un client prend une connexion du pool, commence une transaction, et qu'il est lent à la conclure, bloquant cette connexion. Quand il y a plusieurs de ces cas, ça crée des goulots d'étranglement sur le pool de pgbouncer.

philippe-dufour · Answer

Exact. La solution n'est pas dans PostgreSQL ou Kubernetes, mais dans le code applicatif. Il faut s'assurer que les transactions sont aussi courtes que possible et qu'elles sont toujours explicitement terminées (COMMIT ou ROLLBACK).
Tu peux ajouter un statement_timeout sur pgbouncer aussi si tu veux tuer les transactions trop longues plus agressivement, mais ça ne résout pas la cause racine.

alex-potier · Answer

Je vois clair maintenant. Le idle in transaction était le symptôme clair d'un problème applicatif mal géré sur les transactions.
On va se pencher sur l'audit du code applicatif pour identifier les transactions zombie et les corriger. C'est une interaction classique entre appli et base de données mais le pooling pgbouncer a rendu ça plus visible.
Merci pour l'aide précieuse à débugger ça les gars !

PostgreSQL sur K8S: Latence aléatoire et 'idle in transaction'

13 commentaires

Laisser une réponse

Notre première infrastructure AWS depuis Terraform

Introduction au cours ELK

Comment copier et contribuer à un projet GitLab via le Fork

Fluid Computing : L'Ère des Architectures Adaptatives DevOps

Kubernetes est-il devenu trop complexe pour l'ère de l'IA ?

Rejoindre la communauté