perf i/o disk qui chute après quelques heures sur vm linux

rbarre 24/04/2024
RÉSOLU
rbarre
Auteur Actif
Avatar de rbarre
rbarre
Auteur Actif

salut la compagnie j'ai un truc chelou sur une vm linux (ubuntu 20.04) dans le cloud. elle fait du traitement de données en continu et au bout de 4-5h les perf i/o sur le disque principal s'écroulent. genre au début on est à 500-600 mo/s puis ça descend à 20-30 mo/s. la vm est pas saturée niveau cpu/ram. juste le disque qui rame. un truc dans le kernel qui se passe


# avant la chute
iostat -x 1 5
avg-cpu:  %user   %nice %system %iowait  %steal   %idle
           5.00    0.00   20.00    0.00    0.00   75.00
Device            r/s     w/s     rkB/s     wkB/s   rrqm/s   wrqm/s  %rrqm  %wrqm r_await w_await aqu-sz rareq-sz wareq-sz  svctm  %util
nvme0n1         10.00  400.00   1000.00  500000.00    0.00    0.00   0.00   0.00    0.00    0.00     0.00    0.00     0.00   0.00  100.00

# après la chute
# ... beaucoup plus lent
24/04/2024 à 21:47

7 commentaires

virginie-morvan
Membre Rédacteur
Avatar de virginie-morvan
virginie-morvan
Membre Rédacteur

t'as check quel scheduler i/o est actif sur ton disque. souvent cfq est par défaut mais sur les vm ou nvme noop ou deadline peuvent donner de meilleures perfs. cat /sys/block/nvme0n1/queue/scheduler pour voir

25/04/2024 à 16:16
carpentier-alain
Membre Actif
Avatar de carpentier-alain
carpentier-alain
Membre Actif

c'est du cloud t'es sur que tu consommes pas tes burst credits d'iops. sur aws par ex avec ebs si tu dépasses tes iops de base tu tappes dans le crédit et quand y'en a plus ça rame grave

26/04/2024 à 13:15
tmartineau
Membre
Avatar de tmartineau
tmartineau
Membre

regarde aussi l'utilisation de ton swap. si ta ram se sature et que tu swappes beaucoup ça peut défoncer les i/o même si ta ram n'est pas "pleine" en apparence

27/04/2024 à 08:59
virginie-morvan
Membre Rédacteur
Avatar de virginie-morvan
virginie-morvan
Membre Rédacteur

et la config de vm.dirty_ratio ou vm.dirty_background_ratio. si tu fais beaucoup de write le kernel garde en cache et flush d'un coup. si ces valeurs sont trop hautes pour ta ram ça peut causer des latences quand le flush se déclenche

28/04/2024 à 08:00
william80
Membre Actif
Avatar de william80
william80
Membre Actif

y'a pas un process en tâche de fond qui se lance et qui fait du gros balayage disque. un truc d'indexation ou de backup qui démarre après quelques heures

29/04/2024 à 06:17
emilie01
Membre Actif
Avatar de emilie01
emilie01
Membre Actif

t'as vérifié les métriques du disque au niveau de ton fournisseur cloud. pas seulement dans la vm. des fois t'as des surprises avec les limites physiques ou des problèmes d'infra côté host

30/04/2024 à 03:02
rbarre
Auteur Actif
Avatar de rbarre
rbarre
Auteur Actif

ok les gars merci beaucoup c'était un mix de trucs. j'étais bien en cfq sur le scheduler et en plus oui j'épuisais mes burst credits sur aws. j'ai switché en noop et augmenté la taille du volume ebs pour avoir plus d'iops de base. ça roule impec maintenant

30/04/2024 à 21:23

Laisser une réponse

Vous devez être connecté pour poster un message !

Rejoindre la communauté

Recevoir les derniers articles gratuitement en créant un compte !

S'inscrire