thanos query slowness high cardinality metrics

omarechal 23/10/2025
RÉSOLU
omarechal
Auteur Actif
Avatar de omarechal
omarechal
Auteur Actif

hello tout le monde. notre thanos query frontend galere un peu depuis qu'on a plein de nouveaux services. les dashboards prometheus sont super lents surtout ceux avec des metrics high cardinality. on a pourtant 4 replicas du query-frontend et pas mal de ressources.

23/10/2025 à 19:15

14 commentaires

stephane-guilbert
Membre Actif
Avatar de stephane-guilbert
stephane-guilbert
Membre Actif

c'est classique avec thanos si t'as pas optimisé tes compactions ou tes retentions. t'as configuré le downsampling sur les store gateway

24/10/2025 à 14:47
merle-diane
Membre Actif
Avatar de merle-diane
merle-diane
Membre Actif

et tes index. si ton index store est lent ou pas assez dimensionné c'est la cata pour thanos query

25/10/2025 à 12:59
omarechal
Auteur Actif
Avatar de omarechal
omarechal
Auteur Actif

on a du downsampling 5m/1h et les compactions marchent. les store gateway sont ok. c'est surtout quand on fait des requetes sur des labels avec beaucoup de valeurs genre instance_id ou pod_name

26/10/2025 à 08:48
victor04
Membre Actif Secouriste
Avatar de victor04
victor04
Membre Actif Secouriste

les high cardinality labels c'est le cancer. thanos doit charger trop de series. t'as essayé de faire du relabeling au scrape pour virer les labels inutiles

27/10/2025 à 04:52
stephane-guilbert
Membre Actif
Avatar de stephane-guilbert
stephane-guilbert
Membre Actif

ouais relabeling c'est la premiere defense. virer les pod_name container_id etc si pas necessaire pour les dashboards globaux. tu gardes juste app, namespace

28/10/2025 à 00:53
ncharrier
Membre
Avatar de ncharrier
ncharrier
Membre

et regarde la taille de tes blocs sur s3. trop de petits blocs ou trop de gros peuvent impacter les store gateway. t'es sur s3 pour le bucket

28/10/2025 à 22:54
omarechal
Auteur Actif
Avatar de omarechal
omarechal
Auteur Actif

oui s3. les blocs sont plutot de taille correcte entre 2h et 6h de données. on voit que les queries qui tapent sur des longues periodes avec des range selectors sont les pires

29/10/2025 à 17:58
merle-diane
Membre Actif
Avatar de merle-diane
merle-diane
Membre Actif

longues periodes + high card c'est le pire combo. thanos query va devoir merge des milliers de series de plein de blocs differents. t'as activé le query-frontend cache pour les responses

30/10/2025 à 15:22
stephane-guilbert
Membre Actif
Avatar de stephane-guilbert
stephane-guilbert
Membre Actif

et regarde les logs du query-frontend. t'as des query evaluation took too long ou exceeded max series limit

31/10/2025 à 10:47
omarechal
Auteur Actif
Avatar de omarechal
omarechal
Auteur Actif

on a bien le cache activé. pas de max series limit mais des query evaluation took too long partout. ptete un souci de parallelisation des requetes vers les store/compactors

01/11/2025 à 08:32
victor04
Membre Actif Secouriste
Avatar de victor04
victor04
Membre Actif Secouriste

le query-frontend peut split les requetes sur le temps ou par store pour paralleliser mais si les backends sont eux-memes lents ça aide pas. t'as des metrics de latence sur tes store gateways

02/11/2025 à 07:20
stephane-guilbert
Membre Actif
Avatar de stephane-guilbert
stephane-guilbert
Membre Actif

essaie de profiler une requete lente avec la thanos UI. tu verras ou le temps est passé. ça te donnera des indices. et check tes ressources cpu/mem sur query-frontend et store-gateways pendant les slow queries

03/11/2025 à 06:00

pense aussi au Thanos Ruler si t'as des alertes ou des recordings rules qui tournent. si elles sont mal gaulées ça peut aussi creer du churn inutile et impacter les queries

04/11/2025 à 02:56
omarechal
Auteur Actif
Avatar de omarechal
omarechal
Auteur Actif

ok j'ai profilé une requete c'est bien la phase "fetch series" qui est le goulot d'etranglement. on va revoir le relabeling plus aggressivement et aussi les options de parallelisation du query-frontend. thx pour les pistes

05/11/2025 à 00:17

Laisser une réponse

Vous devez être connecté pour poster un message !

Rejoindre la communauté

Recevoir les derniers articles gratuitement en créant un compte !

S'inscrire