Debuguer les latences d'écriture disque sur un node EKS

Question

J'ai un nœud EKS qui subit des pics de latence disque énormes sur des volumes EBS GP3. Mes logs iostat montrent un await qui monte au-delà de 200ms par moment.

Comment puis-je isoler si c'est le volume qui sature ses IOPS ou si c'est le kernel qui bloque sur le filesystem ?

anais-pereira · Answer

As-tu vérifié les métriques CloudWatch pour le volume ? Si tu as atteint la limite de débit ou d'IOPS, EBS throttle tes requêtes en mode silencieux.

suzanne-alexandre · Answer

Oui, les métriques montrent une utilisation à 90% du quota alloué. Mais ça n'explique pas pourquoi le système semble figé.

bernadette66 · Answer

Regarde du côté de dmesg pour voir s'il n'y a pas des erreurs blk_update_request. Si le kernel attend trop longtemps, il finit par marquer le filesystem en lecture seule parfois.

anais-pereira · Answer

Utilise iotop -o pour identifier le processus coupable. Ça pourrait être un backup ou un process logrotate qui sature la bande passante.

suzanne-alexandre · Answer

Bonne idée, je n'avais pas pensé à iotop en mode batch. Je vais le laisser tourner quelques minutes.

bernadette66 · Answer

Si tu es sur une instance Nitro, tu peux aussi monitorer les EBSBandwidth via la console EC2 pour corréler les pics.

anais-pereira · Answer

Si le throughput est le problème, bascule sur du io2 ou augmente simplement la taille du volume GP3 pour obtenir plus d'IOPS par défaut.

suzanne-alexandre · Answer

Je viens d'identifier le processus : c'est un agent de log qui écrit des fichiers énormes en mode synchrone. Je vais passer en asynchrone pour voir si ça calme le jeu.

bernadette66 · Answer

Excellente approche. Évite toujours les écritures synchrones sur des disques réseaux si tu n'en as pas strictement besoin pour la cohérence des données.

suzanne-alexandre · Answer

Problème résolu. Merci pour l'aide précieuse sur l'investigation système.

Debuguer les latences d'écriture disque sur un node EKS

10 commentaires

Laisser une réponse

Guide pour configurer de votre environnement GoLang

Les tableaux dans le langage de programmation Go

Création d'un playbook multi distributions

Ajouter des utilisateurs sur GitLab et gérer la collaboration

Fluid Computing : L'Ère des Architectures Adaptatives DevOps

Rejoindre la communauté