Prometheus OOMKilled sur la prod le TSDB est en vrac

coulon-aimee 07/10/2024
RÉSOLU
coulon-aimee
Auteur Actif
Avatar de coulon-aimee
coulon-aimee
Auteur Actif

yo des pros de prometheus ici j'ai un gros souci. ma stack prometheus sur la prod se fait OOMKilled régulièrement et le TSDB finit en état bizarre. des fois ça redémarre mais la plupart du temps j'ai des gaps de métriques. on collecte pas mal de trucs mais l'instance a 8 coeurs et 32go de ram ça devrait le faire non


# prometheus.yml (extrait)
global:
  scrape_interval: 15s
  evaluation_interval: 15s
storage:
  tsdb:
    retention: 30d
07/10/2024 à 19:47

4 commentaires

OOMKilled souvent c'est le retention size qui est trop grand pour la ram dispo ou le nombre de séries actives qui explose. regarde la métrique prometheus_tsdb_head_series ou prometheus_tsdb_compaction_chunk_pool_size_bytes pour voir si le head block est trop gros

08/10/2024 à 16:09
lrichard
Membre
Avatar de lrichard
lrichard
Membre

t'as des logs de compaction dans prometheus. regarde s'il y a des erreurs ou des avertissements sur les compactions. si les compactions galèrent ça peut surcharger la ram

09/10/2024 à 15:05
robert90
Membre
Avatar de robert90
robert90
Membre

réduis ton retention_time à genre 7 ou 14 jours pour voir si ça tient mieux. et t'as check si tu collectes pas trop de labels ou des labels avec une cardinalité trop élevée. ça peut faire exploser la mémoire

10/10/2024 à 11:45
coulon-aimee
Auteur Actif
Avatar de coulon-aimee
coulon-aimee
Auteur Actif

c'était bien ça en fait. on avait un exporter qui générait une cardinalité de ouf avec des labels dynamiques. j'ai réduit ça et baissé le retention_time à 14j. l'instance tient enfin la charge et plus d'OOM. thx pour les tips les gars

11/10/2024 à 10:39

Laisser une réponse

Vous devez être connecté pour poster un message !

Rejoindre la communauté

Recevoir les derniers articles gratuitement en créant un compte !

S'inscrire