Prometheus - Trop de cardinalité sur les métriques - besoin de débugger

nblanc 02/10/2024
RÉSOLU
nblanc
Auteur Actif
Avatar de nblanc
nblanc
Auteur Actif

yo la team ! notre instance Prometheus explose en ram et cpu depuis quelques jours. après analyse rapide on a des métriques avec une cardinalité de ouf mais j'arrive pas à spotter lesquelles. j'ai déjà viré quelques labels inutiles mais ça suffit pas. comment je peux débugger ça plus finement ?

02/10/2024 à 09:10

4 commentaires

dubois-emilie
Membre Actif
Avatar de dubois-emilie
dubois-emilie
Membre Actif

salut ! utilise les outils intégrés à Prometheus. va sur /tsdb-status/ dans l'UI. tu peux y voir les métriques qui ont le plus de series et les labels qui contribuent le plus à la cardinalité. ça te donnera des pistes directes

03/10/2024 à 06:35
nblanc
Auteur Actif
Avatar de nblanc
nblanc
Auteur Actif

ah cool j'avais pas vu cette page ! je regarde ça. merci !

04/10/2024 à 02:18
odette-guillet
Membre Secouriste
Avatar de odette-guillet
odette-guillet
Membre Secouriste

attention aussi aux relabel_configs. une erreur là-dedans peut générer une cardinalité monstrueuse si tu transformes des valeurs uniques en labels sans y faire gaffe. pense à faire des tests avec promtool debug metrics avant de pousser en prod

05/10/2024 à 01:58
nblanc
Auteur Actif
Avatar de nblanc
nblanc
Auteur Actif

bon j'ai trouvé le coupable : une métrique custom de notre app qui exporte un label genre user_id_session pour chaque requête. évidemment y'a des millions de valeurs uniques. je dois refaire la métrique sans ce label. c'est bon je gère. thx encore

05/10/2024 à 21:23

Laisser une réponse

Vous devez être connecté pour poster un message !

Rejoindre la communauté

Recevoir les derniers articles gratuitement en créant un compte !

S'inscrire