perf i/o disk qui chute après quelques heures sur vm linux

Question

salut la compagnie j'ai un truc chelou sur une vm linux (ubuntu 20.04) dans le cloud. elle fait du traitement de données en continu et au bout de 4-5h les perf i/o sur le disque principal s'écroulent. genre au début on est à 500-600 mo/s puis ça descend à 20-30 mo/s. la vm est pas saturée niveau cpu/ram. juste le disque qui rame. un truc dans le kernel qui se passe

# avant la chute
iostat -x 1 5
avg-cpu:  %user   %nice %system %iowait  %steal   %idle
           5.00    0.00   20.00    0.00    0.00   75.00
Device            r/s     w/s     rkB/s     wkB/s   rrqm/s   wrqm/s  %rrqm  %wrqm r_await w_await aqu-sz rareq-sz wareq-sz  svctm  %util
nvme0n1         10.00  400.00   1000.00  500000.00    0.00    0.00   0.00   0.00    0.00    0.00     0.00    0.00     0.00   0.00  100.00

# après la chute
# ... beaucoup plus lent

virginie-morvan · Answer

t'as check quel scheduler i/o est actif sur ton disque. souvent cfq est par défaut mais sur les vm ou nvme noop ou deadline peuvent donner de meilleures perfs. cat /sys/block/nvme0n1/queue/scheduler pour voir

carpentier-alain · Answer

c'est du cloud t'es sur que tu consommes pas tes burst credits d'iops. sur aws par ex avec ebs si tu dépasses tes iops de base tu tappes dans le crédit et quand y'en a plus ça rame grave

tmartineau · Answer

regarde aussi l'utilisation de ton swap. si ta ram se sature et que tu swappes beaucoup ça peut défoncer les i/o même si ta ram n'est pas "pleine" en apparence

virginie-morvan · Answer

et la config de vm.dirty_ratio ou vm.dirty_background_ratio. si tu fais beaucoup de write le kernel garde en cache et flush d'un coup. si ces valeurs sont trop hautes pour ta ram ça peut causer des latences quand le flush se déclenche

william80 · Answer

y'a pas un process en tâche de fond qui se lance et qui fait du gros balayage disque. un truc d'indexation ou de backup qui démarre après quelques heures

emilie01 · Answer

t'as vérifié les métriques du disque au niveau de ton fournisseur cloud. pas seulement dans la vm. des fois t'as des surprises avec les limites physiques ou des problèmes d'infra côté host

rbarre · Answer

ok les gars merci beaucoup c'était un mix de trucs. j'étais bien en cfq sur le scheduler et en plus oui j'épuisais mes burst credits sur aws. j'ai switché en noop et augmenté la taille du volume ebs pour avoir plus d'iops de base. ça roule impec maintenant

perf i/o disk qui chute après quelques heures sur vm linux

7 commentaires

Laisser une réponse

Découverte de mon extension VsCode

Créer des Groupes sur GitLab pour organiser vos projets

Ambient Mesh : Simplifiez vos microservices, réinventez l'orchestration et la sécurité

Le DevOps Déclaratif Unifié : Maîtrise Totale du Système par le Code

SRE vs DevOps : Le clash des cultures qui paralyse vos déploiements

Rejoindre la communauté

Oops! An Error Occurred

The server returned a "500 Internal Server Error".