Debuguer la latence d'écriture disque avec iowait élevé

Question

Depuis la migration de certains workloads sur des disques NVMe, j'observe des pics de iowait inexpliqués alors que le débit (IOPS) est bien en dessous des limites théoriques du matériel.

J'ai utilisé iostat -xz 1 et je vois que le await grimpe parfois à 50ms. Le filesystem est en ext4. Est-ce un problème de journaling ou de queue depth au niveau du scheduler blk-mq ?

christophe67 · Answer

C'est probablement lié au scheduler par défaut. Sur NVMe, tu devrais basculer en none ou kyber. Le scheduler mq-deadline n'est pas toujours optimal pour les SSD modernes.

thomas-marianne · Answer

Je suis actuellement en none, c'est ce qui est recommandé pour le NVMe normalement, non ?

antoinette06 · Answer

Regarde si tu as des conflits au niveau de writeback. Si ton application écrit massivement, le kernel peut saturer le buffer de page cache.

giraud-theodore · Answer

Utilise blktrace pour analyser la latence par requête. Ça te permettra de voir si le temps est passé dans le driver ou dans le matériel lui-même.

thomas-marianne · Answer

Bonne idée, je vais lancer blktrace pendant le prochain pic. Est-ce qu'il y a un risque de performance en laissant tourner blktrace en production ?

christophe67 · Answer

Oui, ça impacte un peu le CPU. Utilise blkparse en mode différé sur un autre disque pour éviter de polluer les résultats.

antoinette06 · Answer

As-tu vérifié si ton firmware NVMe est à jour ? J'ai déjà vu des problèmes de thermal throttling qui causaient exactement ce genre de latences irrégulières.

thomas-marianne · Answer

Le firmware est à jour. Je suspecte effectivement un problème de writeback. J'ai réduit dirty_ratio et dirty_background_ratio pour voir si ça lisse les pics.

giraud-theodore · Answer

Bonne approche. Si tu as trop de dirty pages, le kernel bloque les threads d'écriture une fois que le seuil critique est atteint.

thomas-marianne · Answer

Le changement des ratios de dirty pages a stabilisé l'await. Plus de pics à 50ms pour l'instant. Merci pour vos retours.

Debuguer la latence d'écriture disque avec iowait élevé

10 commentaires

Laisser une réponse

Les fonctions dans le langage de programmation Go

Création d'un playbook multi distributions

Au-delà du Code : L'IA Transforme la Productivité de l'Ingénieur DevOps

Le Futur du Calcul : Maîtriser la Matière Programmable avec DevOps

DevOps & Open Source : La fin d'une lune de miel ?

Rejoindre la communauté