Explosion des coûts S3 après un refactor de notre pipeline de données

Question

yo la team finops ! on a refactoré notre pipeline de données et depuis les coûts S3 ont explosé genre +300% en un mois. on stocke des logs et des données brutes. on utilise S3 Standard. j'ai jeté un oeil aux buckets mais j'ai pas vu de volume anormal. c'est quoi les pistes pour un tel coût sur S3 ?
# Vue des coûts (simplifié)
Service         | Octobre | Novembre
----------------|---------|---------
Amazon S3       | $1000   | $4000
EC2             | $500    | $550
RDS             | $300    | $320

margaux45 · Answer

salut. si le volume de stockage n'a pas explosé regarde les requêtes s3 et le data transfer. souvent les refactorings changent la façon dont on accède aux objets. GET requests, LIST requests peuvent coûter cher si t'en fais des millions

elisabeth-mahe · Answer

et le data transfer OUT. si ton nouveau pipeline déplace des données hors d'aws ou entre régions s3 ça peut coûter un bras. ou si des services s'y connectent depuis l'extérieur

diallo-bertrand · Answer

vérifie aussi la versioning sur tes buckets. si elle est activée et que le pipeline modifie beaucoup d'objets ça peut créer des tonnes de versions inutiles qui restent stockées en s3 standard sans policy de lifecycle pour les nettoyer

nath-allard · Answer

data transfer out ça me semble peu probable on reste dans la même région. les requêtes par contre c'est une bonne piste. j'ai activé s3 access logs pour un bucket on va voir ce que ça donne

margaux45 · Answer

bien vu pour les access logs. et pour le versioning c'est une bombe à retardement si t'as beaucoup de updates sur les mêmes fichiers. mets en place une lifecycle policy pour faire passer les vieilles versions en s3 ia ou glacier et les supprimer après un certain temps

elisabeth-mahe · Answer

une autre idée. t'as des réplications de buckets ? ou des cross-region replication activées ? ça multiplie le stockage et le data transfer

diallo-bertrand · Answer

et les erreurs 4xx et 5xx sur S3 peuvent aussi être facturées si tu en as un volume énorme. si ton pipeline retente des milliers de fois des accès à des objets qui n'existent pas ou des erreurs d'auth ça monte vite la facture de requêtes

nath-allard · Answer

bon j'ai les access logs et le coupable c'est notre nouveau service de monitoring qui fait un LIST recursive sur le bucket de logs toutes les minutes. des millions de requêtes LIST S3 Standard. et la versioning était activée sans lifecycle. je vais désactiver le versioning pour ce bucket et revoir le service de monitoring pour qu'il ne liste pas tout. merci à tous pour les pistes

Explosion des coûts S3 après un refactor de notre pipeline de données

8 commentaires

Laisser une réponse

Étude et mise en place d’une solution de monitoring open source(Centreon)

TP Le jeu du morpions dans le langage de programmation Go

Conclusion du cours complet sur la technologie Docker

NetworkPolicy (Firewall interne des pods kubernetes)

sched_ext : Réécrire l'Ordonnanceur Linux via eBPF

Rejoindre la communauté