ouais la high cardinality c le cancer de prometheus. commence par le endpoint /tsdb_status de ton prometheus. ça va te donner les stats sur les séries actives et le nombre de chunks. cherche les labels qui ont le plus de valeurs uniques
souvent c'est des labels genre request_id ou session_id qui n'ont rien à faire dans des métriques. faut utiliser relabel_configs dans ta config prometheus.yml pour les virer ou les normaliser avant ingestion
exact relabel_configs c'est ton ami. tu peux utiliser un regex pour virer les labels indésirables ou les remplacer par une valeur générique. assure-toi de tester ça dans un env de staging avant. une erreur de regex peut couper toutes tes métriques
ah ok je vois le truc. j'ai check /tsdb_status et en effet y a un label user_session_id qui explose tout. on l'a rajouté pour débugger un truc et on l'a oublié. je vais tenter de le virer avec un relabel_config. merci !
bon c bon j'ai viré ce label de merde. l'ingestion est revenue à la normale. merci la team vous avez sauvé mon week-end
Vous devez être connecté pour poster un message !
Recevoir les derniers articles gratuitement en créant un compte !
S'inscrire
dupont-charles
Membre depuis le 03/05/2024actif
salut les sres on galère avec prometheus depuis quelques jours. l'ingestion est super lente et on a des trous dans les métriques. on pense que c'est de la high cardinality parce qu'on a plein de nouveaux labels dynamiques. y a une façon de débugger ça proprement sans tout casser ?