Prometheus alerte 'disk full' mais df dit 70% libre

marcel-thibault 20/12/2024
RÉSOLU
marcel-thibault
Auteur Actif
Avatar de marcel-thibault
marcel-thibault
Auteur Actif

salut la team

j'ai une alerte prometheus qui pète "NodeFilesystemUsage" pour mes serveurs prometheus, ça me dit disk usage > 90% sur /var/lib/prometheus. mais quand je me connecte en ssh, un bon vieux df -h me montre qu'il reste 70% de libre sur la partition. je comprends pas ce qui se passe. c'est quoi le bordel ? c'est un fs xfs

# prometheus alert rule
- alert: NodeFilesystemUsage
  expr: 100 - (node_filesystem_avail_bytes{mountpoint="/var/lib/prometheus",fstype!="rootfs"} * 100) / node_filesystem_size_bytes{mountpoint="/var/lib/prometheus",fstype!="rootfs"} > 90
  for: 5m
  labels:
    severity: critical
  annotations:
    summary: "Filesystem usage on {{ $labels.instance }} is > 90%"
20/12/2024 à 04:10

6 commentaires

lpetit
Membre Actif
Avatar de lpetit
lpetit
Membre Actif

yo c'est souvent un problème d'inodes. prometheus stocke plein de petits fichiers. df -h ne regarde que l'espace disque. fais un df -i pour voir l'utilisation des inodes. si c'est près de 100%, ton disque est "full" même s'il reste de la place en gigas.

21/12/2024 à 03:39
julien-paul
Membre
Avatar de julien-paul
julien-paul
Membre

bien vu les inodes. et la rétention de prometheus t'as checké ? si tu gardes trop de data trop longtemps ça peut créer des millions de petits chunks. regarde ta config storage.tsdb.retention.time. par défaut c'est 15j je crois mais si t'as override, ça peut être la cause.

21/12/2024 à 21:45
nmace
Membre
Avatar de nmace
nmace
Membre

si c'est bien les inodes, un find /var/lib/prometheus -xdev -printf '%h\n' | sort | uniq -c | sort -rh peut te donner une idée de quels répertoires contiennent le plus de fichiers. souvent c'est dans les wal ou les blocks récents.

22/12/2024 à 18:24
lpetit
Membre Actif
Avatar de lpetit
lpetit
Membre Actif

et une fois que t'as identifié le problème, soit tu ajustes ta rétention, soit tu passes sur un fs plus adapté aux petits fichiers si xfs te pose problème (même si xfs est bon de base), soit tu prévois plus de place avec un inode ratio plus favorable lors du formatage si tu peux refaire le disque.

23/12/2024 à 15:13
julien-paul
Membre
Avatar de julien-paul
julien-paul
Membre

sinon pour debugger en live un du -sh * dans /var/lib/prometheus/chunks peut t'aider à voir les gros dossiers. et si c'est la rétention, même si les fichiers sont petits, leur nombre fini par bouffer les inodes. attention aux labels très dynamiques aussi, ça explose le nombre de séries et de fichiers.

24/12/2024 à 09:27
marcel-thibault
Auteur Actif
Avatar de marcel-thibault
marcel-thibault
Auteur Actif

vous êtes des cracks ! c'était bien un problème d'inodes. mon df -i était à 98% d'utilisation. j'avais une rétention de 90j au lieu de 30j et un service un peu trop "verbose" en labels dynamiques. j'ai réduit la rétention, nettoyé les anciens blocs et ça a résolu le souci. merci beaucoup, j'aurais tourné en rond longtemps sans vous !

25/12/2024 à 04:33

Laisser une réponse

Vous devez être connecté pour poster un message !

Rejoindre la communauté

Recevoir les derniers articles gratuitement en créant un compte !

S'inscrire