optimisation cout s3 un peu sauvage

Question

hello la commu. on a des couts s3 qui explosent un peu ces derniers temps. j'ai regardé les métriques, c'est principalement les requêtes PUT et GET qui coûtent un bras. on a beaucoup d'objets, genre des dizaines de millions de petites images et fichiers. vous avez des techniques un peu agressives pour réduire ça ?
aws s3api list-buckets --query "Buckets[].Name" # pour lister
# puis analyser les metrics cloudwatch pour S3 PutRequests, GetRequests, BytesDownloaded, BytesUploaded

ebenoit · Answer

salut. si les PUT/GET sont le problème, faut identifier qui fait quoi. des logs d'accès s3 peuvent t'aider, ou cloudtrail si c des actions d'apis. est-ce que c des users qui upload/download ou des services internes qui font du gros volume ?

ofernandez · Answer

pour les GET, si c'est du contenu public ou semi-public, t'as un CDN type cloudfront devant ? ca réduit drastiquement les requêtes directes à s3 et les transferts de données. le caching est ton ami

josephine58 · Answer

les GET c'est surtout nos utilisateurs qui downloadent des assets. les PUT c'est le cdn qu'on utilise pour uploader les images créées par les users. on a déjà un cdn mais pas cloudfront

ebenoit · Answer

si c'est des downloads users, cloudfront c'est un must-have. cache les objets en edge locations, réduit les requêtes et la latence. pour les PUTs, c'est le cdn qui les fait directement vers S3 ou via un reverse proxy ?

ofernandez · Answer

pour les puts du cdn, assure-toi que ton cdn ne fait pas des puts inutiles ou multiples. sinon pour les objets qui sont accédés souvent au début et peu après, regarde s3 intelligent-tiering. ça bouge les objets entre les classes de stockage pour toi en fonction du pattern d'accès

josephine58 · Answer

le cdn fait les puts directement. intelligent-tiering ca a l'air pas mal, on a pas mal de données qui sont chaudes au début puis deviennent froides très vite. on les laisse en standard IA pour l'instant

ebenoit · Answer

intelligent-tiering est parfait pour ce genre de pattern. ça t'évite de gérer les lifecycle policies toi-même et ça optimise les coûts de stockage et de récupération. par contre ça ne réduit pas les coûts de PUT/GET initiaux, juste le coût de stockage sur le long terme

ofernandez · Answer

aussi revois la taille de tes objets. si tu as des millions de tout petits fichiers, chaque PUT/GET a un coût fixe par requête. des fois regrouper des petits fichiers en archives ou objets plus grands peut réduire le nombre total de requêtes

josephine58 · Answer

ok donc cloudfront pour les GETs utilisateurs ça c'est prioritaire. intelligent-tiering pour gérer le cycle de vie des données. je vais regarder les logs détaillés pour les PUTs du CDN. merci pour toutes les pistes les gars !

optimisation cout s3 un peu sauvage

9 commentaires

Laisser une réponse

Installer et configurer votre environnement Terraform

Découverte et utilisation d'Elasticsearch

Les Pages Wiki sur GitLab pour centraliser votre documentation

DevOps Composable : L'Ère des Architectures à Capacités Dynamiques

Hugepages : L'optimisation mémoire cachée des systèmes haute performance

Rejoindre la communauté