Melakukan proses ETL kepada data Social-Economic Countries yang merupakan kumpulan data dari tahun 1960 hingga saat ini yang mencakup informasi ekonomi dan sosial dari berbagai negara di seluruh dunia.
Daftar tools dan framework yang digunakan dalam project ini:
- Python
- Library python (pandas etc)
- Vscode
- Github
- Jupyter Notebook
- Firebase
- MySQL
- API World Bank
- XML
- JSON
- CSV
- DB
- others
Pastikan Anda telah menginstal Tools dan Library yang diperlukan:
- Install python dan library sesuai kebutuhan.
- Config Jupyter Notebook.
- Config Firebase Admin.
- Unduh file data dari Link Berikut.
- Kumpulkan data berupa csv, xml, api, db, xml dll dalam satu folder.
- Buka Jupyter Notebook.
- Import Library python yang diperlukan.
- Buat code Python menggunakan pandas, agar dataset yang di extract menjadi dataframe.
-
Cleaning Data
- Mengatasi Missing Values
- Menghapus Duplikasi Data
- Replace and Regex
-
Penyesuaian Tipe data
-
Drop Kolom yang tidak Diperlukan
-
Imputasi pada gdp_data menggunakan teknik simpleimputer
-
Menghapus Outliers
-
Scaling fitur
-
Buat dummy variabel jika ada dalam dataset
-
Feature Engineering
-
Menggabungkan dataset agar menjadi dataset final.
- Google Firebase Admin
- Buat Script python untuk menyimpan data final kedalam firebase admin ketika muatan data sangat besar.
- WorkbenchMySQl
- Buat Script python untuk menyimpan data final kedalam database workbenchMySQl (local file) ketika muatan data kecil.
- Buat script prompt Implementasi AI untuk analisis visualisasi data (optional).
- Menggunakan Matplotlib, Seaborn dan plotly express agar tampilan visualisasi menarik.
- Install Apache airflow di WSL ubuntu.
- Buat Folder Dags dan masukan file yang diperlukan.
- Jalankan Airflow with command 'airflow standalone'
- Liat hasilnya dags di localhost:8080.
Jangan patah semangat!!!.