Sujet :
RÉSOLU
Liste des sujets Répondre Créer un sujet
Membre depuis le 21/07/2024
salut la team
j'ai une alerte prometheus qui pète "NodeFilesystemUsage" pour mes serveurs prometheus, ça me dit disk usage > 90% sur /var/lib/prometheus. mais quand je me connecte en ssh, un bon vieux df -h me montre qu'il reste 70% de libre sur la partition. je comprends pas ce qui se passe. c'est quoi le bordel ? c'est un fs xfs
# prometheus alert rule
- alert: NodeFilesystemUsage
expr: 100 - (node_filesystem_avail_bytes{mountpoint="/var/lib/prometheus",fstype!="rootfs"} * 100) / node_filesystem_size_bytes{mountpoint="/var/lib/prometheus",fstype!="rootfs"} > 90
for: 5m
labels:
severity: critical
annotations:
summary: "Filesystem usage on {{ $labels.instance }} is > 90%"
vous devez être connecté pour poster un message !
Recevoir les derniers articles gratuitement en créant un compte !
S'inscrire
lpetit
Membre depuis le 26/09/2024
yo c'est souvent un problème d'inodes. prometheus stocke plein de petits fichiers. df -h ne regarde que l'espace disque. fais un df -i pour voir l'utilisation des inodes. si c'est près de 100%, ton disque est "full" même s'il reste de la place en gigas.
julien-paul
Membre depuis le 29/11/2024
bien vu les inodes. et la rétention de prometheus t'as checké ? si tu gardes trop de data trop longtemps ça peut créer des millions de petits chunks. regarde ta config storage.tsdb.retention.time. par défaut c'est 15j je crois mais si t'as override, ça peut être la cause.
nmace
Membre depuis le 27/04/2024
si c'est bien les inodes, un find /var/lib/prometheus -xdev -printf '%h\n' | sort | uniq -c | sort -rh peut te donner une idée de quels répertoires contiennent le plus de fichiers. souvent c'est dans les wal ou les blocks récents.
lpetit
Membre depuis le 26/09/2024
et une fois que t'as identifié le problème, soit tu ajustes ta rétention, soit tu passes sur un fs plus adapté aux petits fichiers si xfs te pose problème (même si xfs est bon de base), soit tu prévois plus de place avec un inode ratio plus favorable lors du formatage si tu peux refaire le disque.
julien-paul
Membre depuis le 29/11/2024
sinon pour debugger en live un du -sh * dans /var/lib/prometheus/chunks peut t'aider à voir les gros dossiers. et si c'est la rétention, même si les fichiers sont petits, leur nombre fini par bouffer les inodes. attention aux labels très dynamiques aussi, ça explose le nombre de séries et de fichiers.
marcel-thibault
Membre depuis le 21/07/2024
vous êtes des cracks ! c'était bien un problème d'inodes. mon df -i était à 98% d'utilisation. j'avais une rétention de 90j au lieu de 30j et un service un peu trop "verbose" en labels dynamiques. j'ai réduit la rétention, nettoyé les anciens blocs et ça a résolu le souci. merci beaucoup, j'aurais tourné en rond longtemps sans vous !