18 commentaires
hello! ouais c'est un classique. la plupart du temps c'est lié à ton block-duration dans la config du thanos ruler ou thanos sidecar. il est à combien chez toi?
exact. moins de blocks = moins de requêtes S3, moins de coûts. et ça réduit aussi la charge CPU/RAM du compactor.
vérifie aussi tes politiques de rétention. si tu gardes trop longtemps les données raw (haute résolution), ça va vite. t'as quoi pour retention.resolution-raw et retention.resolution-5m?
et t'as pas downsampling.disable activé dans ta config par hasard? ça empêche le compactor de créer les agrégats et ça peut aussi influer sur le volume des blocs.
BOUM! Trouvé! request_id en label c'est un tueur absolu de perf et de coûts. Chaque valeur unique de ce label crée une nouvelle timeseries. Ça génère une explosion de blocks et de métadonnées. C'est la priorité numéro 1 à virer. utilise metric_relabel_configs dans Prometheus pour supprimer ce label avant l'ingestion.
oui le request_id en label c'est la pire chose que tu puisses faire pour Thanos et Prometheus. c'est le truc le plus impactant pour le FinOps.
parfait. une fois les changements appliqués, le compactor va faire son boulot. ça peut prendre plusieurs jours avant de voir un impact significatif sur tes coûts S3 car il doit traiter tout l'historique.
et si t'es sur AWS, pense aux Lifecycle Policies S3 pour transitionner les blocks les plus anciens vers des tiers de stockage moins chers comme Standard-IA ou Glacier Deep Archive après quelques mois. ça peut aider sur la rétention long terme.
Laisser une réponse
Vous devez être connecté pour poster un message !
salut tout le monde. on est sur Thanos pour l'observabilité et la facture S3 explose littéralement ce mois-ci. j'ai l'impression que le
thanos compactorfait n'importe quoi et stocke une tonne de petits objets ou fait trop d'opérations. vous avez déjà eu ce genre de blague?