prometheus out of memory on high cardinality

Question

Mon instance Prometheus explose en RAM et finit par se faire kill par le OOMKiller toutes les deux heures. Je soupçonne une explosion de cardinalité sur un nouveau microservice.

C'est quoi la commande ou l'endpoint pour trouver quelle métrique me bouffe tout mon heap ?

olamy · Answer

Tu peux check directement l'interface de status de la TSDB. Si tu n'as plus accès à l'UI à cause du crash, tu peux essayer de requêter l'API de status pour voir les labels qui posent problème.
curl -G http://localhost:9090/api/v1/status/tsdb

nicole-andre · Answer

Regarde surtout la section head_stats. Si tu vois un nombre de séries délirant sur un label genre user_id ou cart_id, c'est que quelqu'un logue des IDs uniques dans les métriques. Tu devrais utiliser une relabel_config pour drop ces labels au moment du scrape.
- source_labels: [__name__]
  regex: 'noisy_metric_name_.*'
  action: drop

adrienne55 · Answer

C'était bien ça. Un dev a ajouté l'adresse IP en label sur une métrique de requêtes HTTP... J'ai utilisé le relabel_config pour filtrer en attendant qu'il fixe le code. La RAM est redevenue stable. Merci !

prometheus out of memory on high cardinality

3 commentaires

Laisser une réponse

Documentation technique sur la mise en place d'un serveur IPBX Issabel

Les backends et les workspaces

Ma participation au DevFest Nantes

L'IA Explicable au Cœur du DevOps : Construire la Confiance et la Transparence

L'illusion de la performance : Les pièges du context switching

Rejoindre la communauté