Résoudre les blocages de I/O sur des disques EBS avec fio

Question

Hello, j'ai des latences disque inexplicables sur un node EKS. Mes pods ont des IOPS qui chutent brutalement par moments. Je veux valider si c'est un problème de quota EBS ou de saturation du bus.

Quelqu'un a un profil fio fiable pour simuler une charge réelle et tester les limites de mon volume ?

alphonse-mercier · Answer

Utilise un job fio avec un mix de lecture/écriture aléatoire pour reproduire la prod. Voici une base :[global]
size=10G
runtime=60s
iodepth=32
[random-rw]
rw=randrw
blocksize=4k

nmichaud · Answer

Attention, si c'est du gp3, vérifie bien tes IOPS provisionnés via l'API AWS. Parfois, c'est juste le burst balance qui est épuisé.

arnaud-jean · Answer

Le burst balance est à 100%. Je suspecte plutôt une contention sur le réseau vu que c'est du EBS.

margot-ferreira · Answer

Regarde les métriques EBSByteBalance% et EBSIOBalance% dans CloudWatch. Si elles tombent à zéro, tu es bridé par AWS.

alphonse-mercier · Answer

Tu peux aussi monitorer le iowait avec iostat -x 1 pour voir si tes processus attendent vraiment le disque.

nmichaud · Answer

Si tu es sur une instance Nitro, le débit est lié à la taille de l'instance. Vérifie si tu n'as pas atteint la limite de débit de l'instance elle-même (Network/EBS bandwidth).

arnaud-jean · Answer

Je viens de vérifier, je suis sur une m5.large, le débit EBS est limité à 4750 Mbps. C'est peut-être là le bottleneck.

margot-ferreira · Answer

Effectivement, avec 4750 Mbps, tu satures très vite si tu fais du logging intensif sur le même volume.

alphonse-mercier · Answer

Je te conseille de séparer tes logs des données de ton application sur un volume différent pour isoler les IOPS.

nmichaud · Answer

Tu peux tester l'isolation avec un fio ciblant uniquement le répertoire de logs pour voir l'impact réel.

arnaud-jean · Answer

Bonne idée, je vais isoler les logs sur un emptyDir en mémoire pour tester si la latence applicative disparaît.

margot-ferreira · Answer

Si ça marche, migre tes logs vers un sidecar ou un logging driver plus léger comme fluentbit.

arnaud-jean · Answer

Le passage en mémoire a réduit la latence de 60%. C'était bien une saturation du débit EBS lié aux logs. Merci pour l'aide !

Résoudre les blocages de I/O sur des disques EBS avec fio

13 commentaires

Laisser une réponse

Fonctionnement et manipulation des Volumes

Utilisation de la stack ELK sur les logs Apache

Comment fusionner vos commits avec le Squash sur GitLab

Les Jalons Milestones sur GitLab pour planifier vos délais

Le DevOps Déclaratif Unifié : Maîtrise Totale du Système par le Code

Rejoindre la communauté