14 commentaires
c'est classique avec thanos si t'as pas optimisé tes compactions ou tes retentions. t'as configuré le downsampling sur les store gateway
et tes index. si ton index store est lent ou pas assez dimensionné c'est la cata pour thanos query
ouais relabeling c'est la premiere defense. virer les pod_name container_id etc si pas necessaire pour les dashboards globaux. tu gardes juste app, namespace
longues periodes + high card c'est le pire combo. thanos query va devoir merge des milliers de series de plein de blocs differents. t'as activé le query-frontend cache pour les responses
et regarde les logs du query-frontend. t'as des query evaluation took too long ou exceeded max series limit
essaie de profiler une requete lente avec la thanos UI. tu verras ou le temps est passé. ça te donnera des indices. et check tes ressources cpu/mem sur query-frontend et store-gateways pendant les slow queries
pense aussi au Thanos Ruler si t'as des alertes ou des recordings rules qui tournent. si elles sont mal gaulées ça peut aussi creer du churn inutile et impacter les queries
Laisser une réponse
Vous devez être connecté pour poster un message !
hello tout le monde. notre thanos query frontend galere un peu depuis qu'on a plein de nouveaux services. les dashboards prometheus sont super lents surtout ceux avec des metrics high cardinality. on a pourtant 4 replicas du query-frontend et pas mal de ressources.