AWS Glue : Error 'Container killed by YARN for exceeding memory limits'

Posté par lrichard le 29/09/2024
RÉSOLU

lrichard

Membre depuis le 14/07/2019

yo j'ai un job Glue (Spark) qui traite un gros CSV sur S3 et ça crash systématiquement après 10 min. le log d'erreur est pas hyper clair sur quel worker explose

Command failed with exit code 1. Details: Container killed by YARN for exceeding memory limits. 5.5 GB of 5.5 GB physical memory used.

j'ai déjà mis des G.2X mais ça repousse juste le problème de quelques minutes...

Commentaires

olivier-lucie

Membre depuis le 28/08/2023

t'as essayé de passer ton format de fichier en Parquet ? le CSV c'est l'enfer pour la mémoire car Spark doit tout inférer

gregoire-vincent

Membre depuis le 19/09/2024

le souci vient souvent du 'skewness' de tes données ou de fichiers trop gros non splittables (genre un gros .csv.gz). si t'utilises des `dynamicframes`, essaie de forcer un `repartition` ou utilise le paramètre `groupfiles` dans la source s3 pour équilibrer la charge sur les workers

# dans ton create_dynamic_frame.from_options
"groupFiles": "inPartition"

lrichard

Membre depuis le 14/07/2019

le groupFiles avec un repartition a sauvé le job. les workers sont bien équilibrés mtn. thx !

Laisser une réponse

Vous devez être connecté pour poster un message !

Rejoindre la communauté

Recevoir les derniers articles gratuitement en créant un compte !

S'inscrire