devopssec
n'est en aucun cas responsable du contenu généré par l'utilisateur. Le contenu posté
exprime les opinions de leur auteur seulement.
Les textes et messages publiés sont la propriété de ceux qui les postent.
je fais de mon mieux pour modérer les propos inappropriés qui pourraient être postés ici,
mais je me dégage de toute responsabilité sur ce que vous postez.
Vous demeurez le seul responsable de vos actes et de vos messages au regard de la loi.
Vous acceptez de ne pas utiliser le service pour poster ou lier vers un contenu qui est
diffamatoire, injurieux, haineux, menaçant, spams ou pourriels, étant de nature à offenser,
ayant un contenu réservé aux adultes ou répréhensible, contenant des renseignements
personnels des autres, risquant de violer les droits d'auteurs, encourageant une activité
illégale ou contraire à toutes les lois.
Le respect est la principale qualité de notre communauté. En conséquence, veillez à l'être envers
vos camarades ici présents, en particulier les nouveaux membres qui comme vous, cherchent
à découvrir l'univers DEVOPS, et n'ont pas toutes vos connaissances.
Tout manque de respect à l'encontre d'un membre, néophyte ou non, entraînera également des sanctions,
à savoir avertissements, bannissements voire poursuites selon la gravité de la situation.
devopssec
décline toute responsabilité concernant les rencontres réelles.
olivier-lucie
Membre depuis le 24/05/2024
t'as essayé de passer ton format de fichier en Parquet ? le CSV c'est l'enfer pour la mémoire car Spark doit tout inférer
gregoire-vincent
Membre depuis le 19/09/2024
le souci vient souvent du 'skewness' de tes données ou de fichiers trop gros non splittables (genre un gros .csv.gz). si t'utilises des `dynamicframes`, essaie de forcer un `repartition` ou utilise le paramètre `groupfiles` dans la source s3 pour équilibrer la charge sur les workers
lrichard
Membre depuis le 14/05/2024
le groupFiles avec un repartition a sauvé le job. les workers sont bien équilibrés mtn. thx !