Projet de big data
L'objectif est d’étudier l'impact du niveau d'étude, de l'expérience, de la mobilité géographique et de l'influence familiale sur la satisfaction au travail et les opportunités professionnelles, en identifiant les leviers d'action prioritaires.
Le projet est organisé en trois scripts principaux :
bronze_to_silver.py: Transforme les données de l'étape Bronze vers l'étape Silver. Ce script nettoie les données et les enregistre en format Delta.silver_to_gold.py: Effectue des transformations supplémentaires sur les données de l'étape Silver pour les enrichir, puis les sauvegarde au format Delta dans l'étape Gold.
Les fichiers CSV sont traités dans les répertoires suivants :
- Bronze Path :
../ds-bronze/ - Silver Path :
../ds-silver/ - Gold Path :
../ds-gold/
pip install deltalakecd scriptsLancer le script qui convertit les données bronze en silver :
python .\bronze_to_silver.pyLancer le script qui convertit les données silver en gold :
python .\silver_to_gold.py Après ces 2 scripts lancés les données du dataset sont maintenant raffinées.