Prometheus - Trop de cardinalité sur les métriques - besoin de débugger

Posté par nblanc le 02/10/2024
RÉSOLU

nblanc

Membre depuis le 16/03/2019

yo la team ! notre instance Prometheus explose en ram et cpu depuis quelques jours. après analyse rapide on a des métriques avec une cardinalité de ouf mais j'arrive pas à spotter lesquelles. j'ai déjà viré quelques labels inutiles mais ça suffit pas. comment je peux débugger ça plus finement ?

Commentaires

dubois-emilie

Membre depuis le 02/10/2024

salut ! utilise les outils intégrés à Prometheus. va sur /tsdb-status/ dans l'UI. tu peux y voir les métriques qui ont le plus de series et les labels qui contribuent le plus à la cardinalité. ça te donnera des pistes directes

nblanc

Membre depuis le 16/03/2019

ah cool j'avais pas vu cette page ! je regarde ça. merci !

odette-guillet

Membre depuis le 09/09/2024

attention aussi aux relabel_configs. une erreur là-dedans peut générer une cardinalité monstrueuse si tu transformes des valeurs uniques en labels sans y faire gaffe. pense à faire des tests avec promtool debug metrics avant de pousser en prod

nblanc

Membre depuis le 16/03/2019

bon j'ai trouvé le coupable : une métrique custom de notre app qui exporte un label genre user_id_session pour chaque requête. évidemment y'a des millions de valeurs uniques. je dois refaire la métrique sans ce label. c'est bon je gère. thx encore

Laisser une réponse

Vous devez être connecté pour poster un message !

Rejoindre la communauté

Recevoir les derniers articles gratuitement en créant un compte !

S'inscrire