perf i/o disk qui chute après quelques heures sur vm linux

Posté par rbarre le 24/04/2024
RÉSOLU

rbarre

Membre depuis le 29/11/2022

salut la compagnie j'ai un truc chelou sur une vm linux (ubuntu 20.04) dans le cloud. elle fait du traitement de données en continu et au bout de 4-5h les perf i/o sur le disque principal s'écroulent. genre au début on est à 500-600 mo/s puis ça descend à 20-30 mo/s. la vm est pas saturée niveau cpu/ram. juste le disque qui rame. un truc dans le kernel qui se passe


# avant la chute
iostat -x 1 5
avg-cpu:  %user   %nice %system %iowait  %steal   %idle
           5.00    0.00   20.00    0.00    0.00   75.00
Device            r/s     w/s     rkB/s     wkB/s   rrqm/s   wrqm/s  %rrqm  %wrqm r_await w_await aqu-sz rareq-sz wareq-sz  svctm  %util
nvme0n1         10.00  400.00   1000.00  500000.00    0.00    0.00   0.00   0.00    0.00    0.00     0.00    0.00     0.00   0.00  100.00

# après la chute
# ... beaucoup plus lent

Commentaires

virginie-morvan

Membre depuis le 26/03/2024

t'as check quel scheduler i/o est actif sur ton disque. souvent cfq est par défaut mais sur les vm ou nvme noop ou deadline peuvent donner de meilleures perfs. cat /sys/block/nvme0n1/queue/scheduler pour voir

carpentier-alain

Membre depuis le 04/04/2024

c'est du cloud t'es sur que tu consommes pas tes burst credits d'iops. sur aws par ex avec ebs si tu dépasses tes iops de base tu tappes dans le crédit et quand y'en a plus ça rame grave

tmartineau

Membre depuis le 02/04/2024

regarde aussi l'utilisation de ton swap. si ta ram se sature et que tu swappes beaucoup ça peut défoncer les i/o même si ta ram n'est pas "pleine" en apparence

virginie-morvan

Membre depuis le 26/03/2024

et la config de vm.dirty_ratio ou vm.dirty_background_ratio. si tu fais beaucoup de write le kernel garde en cache et flush d'un coup. si ces valeurs sont trop hautes pour ta ram ça peut causer des latences quand le flush se déclenche

william80

Membre depuis le 03/04/2024

y'a pas un process en tâche de fond qui se lance et qui fait du gros balayage disque. un truc d'indexation ou de backup qui démarre après quelques heures

emilie01

Membre depuis le 16/04/2024

t'as vérifié les métriques du disque au niveau de ton fournisseur cloud. pas seulement dans la vm. des fois t'as des surprises avec les limites physiques ou des problèmes d'infra côté host

rbarre

Membre depuis le 29/11/2022

ok les gars merci beaucoup c'était un mix de trucs. j'étais bien en cfq sur le scheduler et en plus oui j'épuisais mes burst credits sur aws. j'ai switché en noop et augmenté la taille du volume ebs pour avoir plus d'iops de base. ça roule impec maintenant

Laisser une réponse

Vous devez être connecté pour poster un message !

Rejoindre la communauté

Recevoir les derniers articles gratuitement en créant un compte !

S'inscrire