10 commentaires
hmm kernel 5.15 c'est ptete un truc sur le scheduler réseau ou le cache inode. t'as regardé les changelogs de NFS dans ce kernel ? des fois ils tweakent des trucs qui ont des effets de bord avec certains serveurs NFS
ouais et des fois c'est la gestion de la mémoire. si t'as beaucoup d'inodes ou de dentry cache ça peut faire des pauses pour flush le cache. t'as essayé de jouer avec les sysctl genre vm.vfs_cache_pressure ou vm.dirty_ratio ?
t'as pas une option actimeo dans ton mount NFS ? par défaut c'est 600s des fois ça peut générer des refresh metadata qui coûtent. essaie avec actimeo=1 ou noac (mais gaffe ça surcharge le serveur)
autre piste t'as regardé les Dentry Lookups ou Inode Lookups dans les stats NFS client sur le kernel ? cat /proc/net/rpc/nfs pour voir si t'as des spikes au moment des latences. un excès de lookups peut plomber
le NetApp il est bien tuné pour NFS v3 ou v4 ? des fois les options de mount v4 comme rsize wsize peuvent jouer. genre si tu forces rsize=32768,wsize=32768 au lieu des defaults ça peut aider
t'as pensé à la fragmentation des buffers kernel ? surtout si c'est pour des logs, ça écrit beaucoup. le kernel 5.15 a eu des changements sur la gestion des pages mémoire et des caches I/O. un echo 3 > /proc/sys/vm/drop_caches après un pic pour voir si ça soulage ? juste pour le test hein
ok je vais faire les tests avec les rsize/wsize et le drop_caches. j'ai le sentiment que c'est une combinaison de l'activité du serveur nfs (même s'il est pas saturé) et de la nouvelle gestion de cache côté client kernel 5.15. merci pour les pistes je vous tiens au jus !
Laisser une réponse
Vous devez être connecté pour poster un message !
salut la commu ! on a des vms qui ont des montages nfs pour le stockage de logs et depuis la maj kernel 5.15 sur nos clients on a des pics de latence genre toutes les 5-10min. ça dure qques secondes et ça retombe. on-prem avec un nas netapp en backend
iostat -x 1montre des grosawaitetavgqu-szsur les mounts nfs pendant ces périodes. j'ai checké le réseau, le nas, pas de souci apparent. c'est vraiment lié à la maj kernel