Prometheus OOMKilled sur la prod le TSDB est en vrac

Posté par coulon-aimee le 07/10/2024
RÉSOLU

coulon-aimee

Membre depuis le 21/07/2024

yo des pros de prometheus ici j'ai un gros souci. ma stack prometheus sur la prod se fait OOMKilled régulièrement et le TSDB finit en état bizarre. des fois ça redémarre mais la plupart du temps j'ai des gaps de métriques. on collecte pas mal de trucs mais l'instance a 8 coeurs et 32go de ram ça devrait le faire non


# prometheus.yml (extrait)
global:
  scrape_interval: 15s
  evaluation_interval: 15s
storage:
  tsdb:
    retention: 30d

Commentaires

dubois-olivie

Membre depuis le 27/07/2024

OOMKilled souvent c'est le retention size qui est trop grand pour la ram dispo ou le nombre de séries actives qui explose. regarde la métrique prometheus_tsdb_head_series ou prometheus_tsdb_compaction_chunk_pool_size_bytes pour voir si le head block est trop gros

lrichard

Membre depuis le 14/05/2024

t'as des logs de compaction dans prometheus. regarde s'il y a des erreurs ou des avertissements sur les compactions. si les compactions galèrent ça peut surcharger la ram

robert90

Membre depuis le 25/09/2024

réduis ton retention_time à genre 7 ou 14 jours pour voir si ça tient mieux. et t'as check si tu collectes pas trop de labels ou des labels avec une cardinalité trop élevée. ça peut faire exploser la mémoire

coulon-aimee

Membre depuis le 21/07/2024

c'était bien ça en fait. on avait un exporter qui générait une cardinalité de ouf avec des labels dynamiques. j'ai réduit ça et baissé le retention_time à 14j. l'instance tient enfin la charge et plus d'OOM. thx pour les tips les gars

Laisser une réponse

Vous devez être connecté pour poster un message !

Rejoindre la communauté

Recevoir les derniers articles gratuitement en créant un compte !

S'inscrire