Thanos compact qui explose le CPU et la RAM

Question

Hello les cost killers ! on a un Thanos compact qui tourne et franchement il est en train de tuer nos serveurs de compactions. dès qu'il commence à bosser sur des vieux blocs (plusieurs mois) le cpu monte à 100% et la ram prend tout. on est sur la 0.29.0 de thanos. des idées pour optimiser ça ?

gautier-olivier · Answer

Salut ! C'est classique ça. C'est quoi la taille moyenne de tes blocs au niveau raw data ? Et tu as combien de séries par block ?

david-camus · Answer

T'as regardé tes options de compaction comme compaction.concurrency et compaction.retention.resolution-raw ? Des fois baisser la concu aide un peu.

jean25 · Answer

Les blocs raw sont énormes, genre 2-3Go par bloc pour des périodes d'une journée. Beaucoup de séries actives. compaction.concurrency est à 2. retention.resolution-raw est à 2 ans.

timothee05 · Answer

question bête mais compaction.consistency-delay est à combien ? si c'est trop bas ça peut tenter de compacter des blocs encore en écriture ou pas complètement uploadés.

gautier-olivier · Answer

Pour 2-3Go par bloc et autant de séries, 2 de concurrency c'est ptete déjà trop pour des machines modestes. Tu pourrais essayer de le mettre à 1, ou de passer sur des instances plus grosses avec plus de CPU et RAM.

david-camus · Answer

La downsampling est activée ? Si oui, à quelles résolutions ? Et est-ce que les problèmes sont plus sur le raw ou sur les résolutions downsamplées ?

jean25 · Answer

Oui downsampling activée pour 5m et 1h. Le problème est clairement sur le raw, quand il aggrège des blocs d'une journée en blocs d'une semaine/mois. consistency-delay est à 30m, la valeur par défaut.

luce76 · Answer

vérifie si tu n'as pas des blocs corrompus dans ton bucket s3. thanos tools bucket verify peut te donner des indices. un bloc corrompu peut faire planter le compacteur ou le faire ramer indéfiniment.

jean25 · Answer

J'ai lancé un bucket verify hier, rien trouvé. Tout est clean côté S3. Les logs du compacteur montrent juste qu'il bosse dur mais il met des heures pour un seul bloc.

timothee05 · Answer

C'est ptete le nombre de fichiers qu'il doit manipuler. Essaye d'ajuster compaction.block-sync-concurrency. Ça gère le nombre de blocs qui sont téléchargés/uploadés simultanément de S3.

gautier-olivier · Answer

Autre approche : as-tu pensé à séparer les compacteurs ? Un pour le raw, qui tourne sur une grosse machine dédiée, et un ou plusieurs pour les résolutions downsamplées. Ça isole le problème.

david-camus · Answer

Est-ce que ton S3 bucket n'est pas throttlé ? Regarde les métriques S3 Request Metrics pour voir si tu as des erreurs ou des latences élevées sur les GET/PUT.

jean25 · Answer

S3 est niquel on a pas de throttling. La latence est bonne. Je vais essayer de baisser block-sync-concurrency et compaction.concurrency à 1 pour voir.

luce76 · Answer

Si tu as beaucoup de séries, ça peut aussi venir de la cardinalité élevée de certaines métriques. Le compacteur doit manipuler beaucoup plus de données. Une purge de métriques inutiles ou avec trop de labels pourrait aider.

jean25 · Answer

On a déjà fait le ménage sur la cardinalité en amont. En baissant la concu et en donnant plus de RAM/CPU au compacteur ça aide un peu mais c'est pas encore l'idéal. Il reste quand même très gourmand.

gautier-olivier · Answer

Pour les très vieux blocs tu pourrais même avoir une job de compacteur qui tourne moins souvent, genre une fois par mois, sur une instance éphémère super beefy juste pour ça. C'est du FinOps mais ça aide.

jean25 · Answer

L'idée du job éphémère est pas mal pour les vieux trucs. Avec la baisse de concu et une plus grosse machine ça stabilise les choses. Le coût est plus élevé mais au moins ça finit la compaction. Thx à tous pour les idées !

Thanos compact qui explose le CPU et la RAM

17 commentaires

Laisser une réponse

Les packages dans le langage de programmation Go

Créer un cluster Kubernetes Multi-nœud avec Vagrant et Ansible

Comment créer et initialiser votre premier projet GitLab

Introduction Maîtriser l'automatisation avec le guide complet GitLab CI/CD

DevOps Cognitif : L'IA Co-Pilote de Vos Opérations Complexes

Rejoindre la communauté

Oops! An Error Occurred

The server returned a "500 Internal Server Error".