Membre depuis le 11/03/2019
hmm kernel 5.15 c'est ptete un truc sur le scheduler réseau ou le cache inode. t'as regardé les changelogs de NFS dans ce kernel ? des fois ils tweakent des trucs qui ont des effets de bord avec certains serveurs NFS
Membre depuis le 22/07/2019
ouais et des fois c'est la gestion de la mémoire. si t'as beaucoup d'inodes ou de dentry cache ça peut faire des pauses pour flush le cache. t'as essayé de jouer avec les `sysctl` genre `vm.vfs_cache_pressure` ou `vm.dirty_ratio` ?
Membre depuis le 06/04/2020
j'ai rien trouvé de flagrant dans les changelogs. pour les sysctls j'ai pas touché. `vfs_cache_pressure` est à 100 et `dirty_ratio` à 20
Membre depuis le 11/03/2019
t'as pas une option `actimeo` dans ton mount NFS ? par défaut c'est 600s des fois ça peut générer des refresh metadata qui coûtent. essaie avec `actimeo=1` ou `noac` (mais gaffe ça surcharge le serveur)
Membre depuis le 22/07/2019
autre piste t'as regardé les Dentry Lookups ou Inode Lookups dans les stats NFS client sur le kernel ? `cat /proc/net/rpc/nfs` pour voir si t'as des spikes au moment des latences. un excès de lookups peut plomber
Membre depuis le 06/04/2020
ok j'ai essayé `actimeo=1` sur un des clients de test. les spikes semblent moins violents ou moins fréquents. et j'ai regardé les stats rpc nfs y'a bien des pics sur les lookups mais pas systématiquement au moment du lag. bizarre
Membre depuis le 11/03/2019
le NetApp il est bien tuné pour NFS v3 ou v4 ? des fois les options de mount v4 comme `rsize` `wsize` peuvent jouer. genre si tu forces `rsize=32768,wsize=32768` au lieu des defaults ça peut aider
Membre depuis le 22/07/2019
t'as pensé à la fragmentation des buffers kernel ? surtout si c'est pour des logs, ça écrit beaucoup. le kernel 5.15 a eu des changements sur la gestion des pages mémoire et des caches I/O. un `echo 3 > /proc/sys/vm/drop_caches` après un pic pour voir si ça soulage ? juste pour le test hein
Membre depuis le 06/04/2020
ok je vais faire les tests avec les rsize/wsize et le drop_caches. j'ai le sentiment que c'est une combinaison de l'activité du serveur nfs (même s'il est pas saturé) et de la nouvelle gestion de cache côté client kernel 5.15. merci pour les pistes je vous tiens au jus !
Membre depuis le 06/04/2020
update : `rsize=32768,wsize=32768` combiné avec `actimeo=1` a résolu le problème. le vfs_cache_pressure aide aussi mais c'est surtout les options de mount qui ont eu l'impact. merci à tous pour l'aide !
Vous devez être connecté pour poster un message !
Recevoir les derniers articles gratuitement en créant un compte !
S'inscrire
tbouvier
Membre depuis le 06/04/2020
salut la commu ! on a des vms qui ont des montages nfs pour le stockage de logs et depuis la maj kernel 5.15 sur nos clients on a des pics de latence genre toutes les 5-10min. ça dure qques secondes et ça retombe. on-prem avec un nas netapp en backend
`iostat -x 1` montre des gros `await` et `avgqu-sz` sur les mounts nfs pendant ces périodes. j'ai checké le réseau, le nas, pas de souci apparent. c'est vraiment lié à la maj kernel