Membre depuis le 02/10/2024
salut ! utilise les outils intégrés à Prometheus. va sur /tsdb-status/ dans l'UI. tu peux y voir les métriques qui ont le plus de series et les labels qui contribuent le plus à la cardinalité. ça te donnera des pistes directes
Membre depuis le 16/03/2019
ah cool j'avais pas vu cette page ! je regarde ça. merci !
Membre depuis le 09/09/2024
attention aussi aux relabel_configs. une erreur là-dedans peut générer une cardinalité monstrueuse si tu transformes des valeurs uniques en labels sans y faire gaffe. pense à faire des tests avec promtool debug metrics avant de pousser en prod
Membre depuis le 16/03/2019
bon j'ai trouvé le coupable : une métrique custom de notre app qui exporte un label genre user_id_session pour chaque requête. évidemment y'a des millions de valeurs uniques. je dois refaire la métrique sans ce label. c'est bon je gère. thx encore
Vous devez être connecté pour poster un message !
Recevoir les derniers articles gratuitement en créant un compte !
S'inscrire
nblanc
Membre depuis le 16/03/2019
yo la team ! notre instance Prometheus explose en ram et cpu depuis quelques jours. après analyse rapide on a des métriques avec une cardinalité de ouf mais j'arrive pas à spotter lesquelles. j'ai déjà viré quelques labels inutiles mais ça suffit pas. comment je peux débugger ça plus finement ?