4 commentaires
OOMKilled souvent c'est le retention size qui est trop grand pour la ram dispo ou le nombre de séries actives qui explose. regarde la métrique prometheus_tsdb_head_series ou prometheus_tsdb_compaction_chunk_pool_size_bytes pour voir si le head block est trop gros
c'était bien ça en fait. on avait un exporter qui générait une cardinalité de ouf avec des labels dynamiques. j'ai réduit ça et baissé le retention_time à 14j. l'instance tient enfin la charge et plus d'OOM. thx pour les tips les gars
Laisser une réponse
Vous devez être connecté pour poster un message !
yo des pros de prometheus ici j'ai un gros souci. ma stack prometheus sur la prod se fait OOMKilled régulièrement et le TSDB finit en état bizarre. des fois ça redémarre mais la plupart du temps j'ai des gaps de métriques. on collecte pas mal de trucs mais l'instance a 8 coeurs et 32go de ram ça devrait le faire non