Prometheus OOMKilled sur gros volumes de métriques

claude-paul 09/09/2025
RÉSOLU
claude-paul
Auteur Actif
Avatar de claude-paul
claude-paul
Auteur Actif

slt la team

mon prometheus il fait des OOMKilled tous les jours c'est l'enfer. on a plein de services qui balancent des métriques et j'ai l'impression qu'il arrive pas à suivre. j'ai déjà mis pas mal de ram mais ça change rien. j'ai genre 10k séries par pod sur certains trucs et on a 50 pods

09/09/2025 à 13:10

2 commentaires

dubois-claude
Membre Actif
Avatar de dubois-claude
dubois-claude
Membre Actif

hello. 10k séries par pod c'est énorme. c'est quoi le scrape interval ? et la rétention ? tu devrais regarder l'endpoint /tsdb sur prometheus pour voir la cardinalité de tes métriques. y'a sûrement un label qui explose tout. faut faire du relabeling pour drop les labels inutiles ou renommés. ça aide bcp

10/09/2025 à 10:43
claude-paul
Auteur Actif
Avatar de claude-paul
claude-paul
Auteur Actif

ok je viens de checker et effectivement y'a un label "trace_id" qui se balade sur un exporter et qui génère des millions de séries uniques. j'ai mis en place un relabel_config pour le drop et là ça respire un peu mieux. je monitor les OOMKilled mais ça a l'air bcp plus stable. merci pour l'aide !

11/09/2025 à 09:17

Laisser une réponse

Vous devez être connecté pour poster un message !

Rejoindre la communauté

Recevoir les derniers articles gratuitement en créant un compte !

S'inscrire