3 commentaires
Regarde surtout la section head_stats. Si tu vois un nombre de séries délirant sur un label genre user_id ou cart_id, c'est que quelqu'un logue des IDs uniques dans les métriques. Tu devrais utiliser une relabel_config pour drop ces labels au moment du scrape.
- source_labels: [__name__]
regex: 'noisy_metric_name_.*'
action: drop
C'était bien ça. Un dev a ajouté l'adresse IP en label sur une métrique de requêtes HTTP... J'ai utilisé le relabel_config pour filtrer en attendant qu'il fixe le code. La RAM est redevenue stable. Merci !
Laisser une réponse
Vous devez être connecté pour poster un message !
Mon instance Prometheus explose en RAM et finit par se faire kill par le OOMKiller toutes les deux heures. Je soupçonne une explosion de cardinalité sur un nouveau microservice.
C'est quoi la commande ou l'endpoint pour trouver quelle métrique me bouffe tout mon heap ?