Disque qui thrash même avec peu d'activité

Posté par thibault-philippe le 13/06/2025
RÉSOLU

thibault-philippe

Membre depuis le 19/05/2019

Salut les admins ! J'ai un souci bizarre sur un serveur Linux (Ubuntu 20.04) on a un disque qui thrash à fond même quand y'a quasi rien qui tourne dessus. Le %util de iostat est à 100% mais les r/s et w/s sont super faibles. Je comprends pas ce qui se passe.


# iostat -x 1 5
avg-cpu:  %user   %nice %system %iowait  %steal   %idle
           0.50    0.00    1.20   98.00    0.00    0.30

Device            r/s     w/s     rkB/s     wkB/s   rrqm/s   wrqm/s  %rrqm  %wrqm  r_await  w_await  aqu-sz  rareq-sz  wareq-sz  svctm  %util
sda             0.00    0.00      0.00      0.00     0.00     0.00   0.00   0.00     0.00     0.00     0.00      0.00      0.00   0.00   0.00
sdb             2.00   10.00      8.00     40.00     0.00     0.00   0.00   0.00   300.00    150.00    15.00      4.00      4.00  83.33  99.90

Commentaires

torres-benoit

Membre depuis le 10/04/2019

98% iowait et 99.9% util sur sdb avec des r/s w/s aussi bas c'est pas normal. Ça sent les toutes petites écritures/lectures aléatoires ou un problème de latence intrinsèque au disque ou à l'hyperviseur si c'est une VM. C'est quel type de disque ? SSD ? HDD ? NVMe ?

anne-poulain

Membre depuis le 12/07/2021

Regarde quel scheduler I/O est actif pour sdb : cat /sys/block/sdb/queue/scheduler. Et quel est le filesystem dessus ? XFS, Ext4 ?

thibault-philippe

Membre depuis le 19/05/2019

C'est un SSD attaché en iSCSI sur une VM VMWare. Scheduler c'est [mq-deadline] none. Filesystem c'est ext4.

boutin-thomas

Membre depuis le 13/01/2025

OK mq-deadline c bien pour les SSD en général. Le iSCSI + VMWare ça peut ajouter des couches de latence. T'as checké les métriques I/O côté VMWare pour voir si le problème vient du guest ou de l'hôte/datastore ?

torres-benoit

Membre depuis le 10/04/2019

Et surtout, quel process fait ça ? iotop -oPa pour voir les IO par processus. Ou sudo lsof /dev/sdb1 pour voir qui a des fichiers ouverts dessus.

anne-poulain

Membre depuis le 12/07/2021

Ext4 avec de petites écritures aléatoires peut générer pas mal d'activité journal. C'est ptete jbd2 qui spamme. Regarde ps aux | grep jbd2.

thibault-philippe

Membre depuis le 19/05/2019

iotop montre un peu de jbd2 mais genre quelques ko/s. Pas de quoi justifier 100% util. VMWare côté hôte la latence est super faible. Et lsof ne révèle rien de particulier, juste les process système basiques.

boutin-thomas

Membre depuis le 13/01/2025

C'est bizarre que iotop ne montre rien et que %util soit si haut avec des r/s w/s aussi faibles. Ça indique des requêtes I/O très petites mais très nombreuses, ou des requêtes qui prennent un temps fou. C'est pas un système de monitoring/antivirus qui scanne en boucle un gros répertoire avec plein de petits fichiers ?

torres-benoit

Membre depuis le 10/04/2019

Oui j'ai vu ça avec des agents de sécu qui font des scans de fichiers en temps réel. Ça peut ruiner les perfs I/O. Ou un script de backup qui fait un find récursif sans fin sur des millions de fichiers.

thibault-philippe

Membre depuis le 19/05/2019

On a un agent antivirus oui ! il fait des scans en temps réel. il y a un répertoire de logs applicatifs sur ce disque qui contient des dizaines de milliers de petits fichiers générés à la seconde. je vais essayer d'exclure ce répertoire du scan pour voir.

Laisser une réponse

Vous devez être connecté pour poster un message !

Rejoindre la communauté

Recevoir les derniers articles gratuitement en créant un compte !

S'inscrire