prometheus out of memory on high cardinality

adrienne55 05/04/2026
RÉSOLU
adrienne55
Membre
Avatar de adrienne55
adrienne55
Membre

Mon instance Prometheus explose en RAM et finit par se faire kill par le OOMKiller toutes les deux heures. Je soupçonne une explosion de cardinalité sur un nouveau microservice.

C'est quoi la commande ou l'endpoint pour trouver quelle métrique me bouffe tout mon heap ?

Modifié le 23/05/26 à 21:00

3 commentaires

olamy
Membre
Avatar de olamy
olamy
Membre

Tu peux check directement l'interface de status de la TSDB. Si tu n'as plus accès à l'UI à cause du crash, tu peux essayer de requêter l'API de status pour voir les labels qui posent problème.

curl -G http://localhost:9090/api/v1/status/tsdb
08/04/26 à 11:10
nicole-andre
Membre actif secouriste
Avatar de nicole-andre
nicole-andre
Membre actif secouriste

Regarde surtout la section head_stats. Si tu vois un nombre de séries délirant sur un label genre user_id ou cart_id, c'est que quelqu'un logue des IDs uniques dans les métriques. Tu devrais utiliser une relabel_config pour drop ces labels au moment du scrape.

- source_labels: [__name__]
  regex: 'noisy_metric_name_.*'
  action: drop
09/04/26 à 16:00
adrienne55
Membre
Avatar de adrienne55
adrienne55
Membre

C'était bien ça. Un dev a ajouté l'adresse IP en label sur une métrique de requêtes HTTP... J'ai utilisé le relabel_config pour filtrer en attendant qu'il fixe le code. La RAM est redevenue stable. Merci !

12/04/26 à 12:22

Laisser une réponse

Vous devez être connecté pour poster un message !

Rejoindre la communauté

Recevoir les derniers articles gratuitement en créant un compte !

S'inscrire