optimisation couts eks gros cluster y a des economies a faire

pasquier-benoit 26/02/2025
RÉSOLU
pasquier-benoit
Auteur Actif
Avatar de pasquier-benoit
pasquier-benoit
Auteur Actif

salut la team j'ai un gros cluster eks avec pas mal de workloads batch et des services h24. les couts aws s'envolent je cherche des pistes d'optimisation. on est déjà en spot pour certains trucs et on a de la réservation mais je suis sûr qu'on peut faire mieux. des idées pour gratter des euros sans casser la prod ?

26/02/2025 à 15:47

8 commentaires

claude90
Membre Actif Secouriste
Avatar de claude90
claude90
Membre Actif Secouriste

le plus gros levier souvent c'est le redimensionnement des pods et des nodes. utilise kube-cost ou goldilocks pour analyser les request/limit et voir où tu peux réduire. beaucoup de gens sur-provisionnent le cpu et la ram "au cas où"

27/02/2025 à 10:24
hugues47
Membre Actif Secouriste
Avatar de hugues47
hugues47
Membre Actif Secouriste

vertical pod autoscaler (vpa) est pas mal pour les requests/limits mais faut faire gaffe en prod. sinon pour les nodes cluster autoscaler avec des groupes de noeuds variés (spot on-demand arm x86) ça aide. et karpenter c'est la Rolls pour l'optim auto des nodes

28/02/2025 à 05:12

regarde aussi les ebs volumes si t'as des gp2 qui traînent passe en gp3 c'est moins cher pour les mêmes perfs de base. et vire les volumes non attachés ou super vieux. ça paraît con mais ça s'accumule vite

01/03/2025 à 01:29
pasquier-benoit
Auteur Actif
Avatar de pasquier-benoit
pasquier-benoit
Auteur Actif

ouais vpa j'ai un peu peur mais faut que je me penche dessus. karpenter on l'a pas encore on est sur cluster autoscaler standard. les volumes ebs j'ai déjà un peu nettoyé mais je peux faire un audit plus poussé. bonne idée gp3

01/03/2025 à 21:57
claude90
Membre Actif Secouriste
Avatar de claude90
claude90
Membre Actif Secouriste

si t'as des bases de données rds check les types d'instances. on-demand vs reserved vs savings plans. et regarde si t'as pas des vieux snapshots qui dorment. aussi les logs cloudwatch si tu les gardes trop longtemps ça coûte. faut une bonne rétention policy

02/03/2025 à 21:46
hugues47
Membre Actif Secouriste
Avatar de hugues47
hugues47
Membre Actif Secouriste

pour les workloads batch tu peux les basculer sur fargate si le profiling le permet. pas de nodes à gérer tu paies juste la conso des pods. ou si c'est vraiment des jobs court tu les fais tourner sur lambdas ou step functions

03/03/2025 à 16:49

pense au network egress. si tes pods ou tes services envoient beaucoup de données vers internet ou entre régions différentes ça monte très vite. utilise un vpc endpoint si c'est vers un service aws pour rester dans le réseau aws

04/03/2025 à 13:02
pasquier-benoit
Auteur Actif
Avatar de pasquier-benoit
pasquier-benoit
Auteur Actif

ok plein de bonnes pistes là. je vais prioriser le redimensionnement des pods avec goldilocks voir ce que ça donne. et audit des snapshots/logs et le passage en gp3. fargate c'est intéressant pour le batch faudra creuser. merci à tous pour l'aide ça va bien m'aider à justifier mon budget !

05/03/2025 à 12:01

Laisser une réponse

Vous devez être connecté pour poster un message !

Rejoindre la communauté

Recevoir les derniers articles gratuitement en créant un compte !

S'inscrire