0% found this document useful (0 votes)

66 views3 pages

Lab 2 - Data Preparation

The document discusses preparing data in Apache Spark. It covers steps to install Spark, load a CSV data file, examine the data schema and types, select columns, filter rows, handle null values, and describe statistics of the data. The goal is to clean and prepare the telecom usage data for further analysis and modeling.

Uploaded by

Muhammad Rafli

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

66 views3 pages

Lab 2 - Data Preparation

Uploaded by

Muhammad Rafli

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 3

1/18/2021 Lab 2 - Data Preparation 1.

ipynb - Colaboratory

Lab 2 - Data Preparation 1

#1. Install Apache Spark

!apt-get install openjdk-8-jdk-headless -qq > /dev/null
!wget -q https://downloads.apache.org/spark/spark-2.4.7/spark-2.4.7-bin-hadoop2.6.tgz
!tar xf spark-2.4.7-bin-hadoop2.6.tgz
!pip install -q findspark

#2. Setting environment variable

import os
os.environ["JAVA_HOME"] = "/usr/lib/jvm/java-8-openjdk-amd64"
os.environ["SPARK_HOME"] = "/content/spark-2.4.7-bin-hadoop2.6"

#3. Inisiasi spark

import findspark
findspark.init()
from pyspark.sql import SparkSession
spark = SparkSession.builder.master("local[*]").getOrCreate()

#4. Upload file

from google.colab import files
!rm data_telepon_seluler.csv
files.upload()

#5. Load data

from pyspark.ml.feature import VectorAssembler
from pyspark.ml.regression import LinearRegression
dataset = spark.read.csv('data_telepon_seluler.csv',inferSchema=True, header =True, sep=",
dataset.printSchema()

#6. Menampilkan data

dataset.show() #20 data pertama
#dataset.head() #5 data pertama
#dataset.first()#1 data pertama
#dataset.head(10) # 10 data pertama

#7. Cek tipe data

type(dataset)

#8. Menampilkan data

#collect data + metadata
dataset.select('*').collect()
dataset.select('provinsi', '2012').collect()
#show data saja
https://colab.research.google.com/drive/1fJ3YNoDYuQvEV8bcdd5xTkacPysJvFXb#scrollTo=TLrIqNPgcz4B&printMode=true 1/3
1/18/2021 Lab 2 - Data Preparation 1.ipynb - Colaboratory

#collect data + metadata

dataset.select('*').collect()
dataset.select('provinsi', '2012').collect()
#show data saja
dataset.select('*').show()
dataset.select('provinsi', '2012').show()
#take data + metadata sebagian data
dataset.select('*').take(5)
dataset.select('provinsi', '2012').take(5)

#9. Cek tipe data kolom

dataset.select('provinsi')

#10. Distinct
dataset.select('provinsi', '2012').distinct().show()

#11. Menampilkan daftar kolom

dataset.columns

#12. Menampilkan data

dataset.select(dataset.columns[0:3]).show()

#13. Menampilkan data

dataset.show(2,truncate= True)
X = dataset.collect()[0]['2014']
X = dataset.collect()[0][3]

#14. Menampilkan sebagian data

selected_columns = ["provinsi", "kode_wilayah", "2012"]
subset_df_2 = dataset.select(selected_columns[0],selected_columns[1],selected_columns[2])
subset_df_2.head()

#15. Filtering
dataset.filter("provinsi = 'DI YOGYAKARTA'")
dataset.filter("provinsi in ('DI YOGYAKARTA')")

#16. Menampilkan data null

dataset.where(dataset["2012"].isNull()).show()
dataset.where(dataset["2012"].isNotNull()).show(999)

#17. Menampilkan struktur data

https://colab.research.google.com/drive/1fJ3YNoDYuQvEV8bcdd5xTkacPysJvFXb#scrollTo=TLrIqNPgcz4B&printMode=true 2/3
1/18/2021 Lab 2 - Data Preparation 1.ipynb - Colaboratory
p
print((dataset.count(), len(dataset.columns)))

#18. Menampilkan rangkuman data

dataset.describe().show()
dataset.describe("2012").show()

#19. Mengganti tipe kolom

dataset.createOrReplaceTempView("tmpprov")
df4 = spark.sql("SELECT provinsi, int('2012'),int('2013'),int('2014') from tmpprov")
dataset.printSchema()
df4.printSchema()

Copy protected with Online-PDF-No-Copy.com

https://colab.research.google.com/drive/1fJ3YNoDYuQvEV8bcdd5xTkacPysJvFXb#scrollTo=TLrIqNPgcz4B&printMode=true 3/3

ML Algorithms for Data Scientists
100% (1)
ML Algorithms for Data Scientists
148 pages
Operation Strategy
100% (1)
Operation Strategy
22 pages
Colab Spark Initialize Step
No ratings yet
Colab Spark Initialize Step
1 page
EXP 08 (ML) Sarthak
No ratings yet
EXP 08 (ML) Sarthak
2 pages
Machine Learning Analysis Project
No ratings yet
Machine Learning Analysis Project
2 pages
Tugas Project 02 Perancangan Eksperimen Dan Analisa Data SEMESTER GANJIL 2024/2025
No ratings yet
Tugas Project 02 Perancangan Eksperimen Dan Analisa Data SEMESTER GANJIL 2024/2025
19 pages
Python Data Processing & Linear Regression
No ratings yet
Python Data Processing & Linear Regression
4 pages
Lab Task 2
No ratings yet
Lab Task 2
10 pages
EXP 08 (ML) - Shri
No ratings yet
EXP 08 (ML) - Shri
2 pages
Kelompok 2 Deeplearning
No ratings yet
Kelompok 2 Deeplearning
6 pages
DMA Flask
No ratings yet
DMA Flask
14 pages
Zahra Ratu Audia - (17821107) - Praktikum 6
100% (2)
Zahra Ratu Audia - (17821107) - Praktikum 6
10 pages
DataGrokr Technical Assignment - Data Engineering - Internshala
No ratings yet
DataGrokr Technical Assignment - Data Engineering - Internshala
5 pages
LaPrak AlgoritmaKNN 11422020 Sarah
No ratings yet
LaPrak AlgoritmaKNN 11422020 Sarah
10 pages
PA Lab2
No ratings yet
PA Lab2
11 pages
Google Collab
No ratings yet
Google Collab
5 pages
REG NO. 18MIS7099 Machine Learning - Lab - 10 Name: Dana Vamsi Krishna
No ratings yet
REG NO. 18MIS7099 Machine Learning - Lab - 10 Name: Dana Vamsi Krishna
5 pages
Assignment2 Problem
No ratings yet
Assignment2 Problem
4 pages
SPA Group 13 - Assignment 2 Problem Statement
No ratings yet
SPA Group 13 - Assignment 2 Problem Statement
2 pages
Practical Assignment. Applying Methods of Machine Learning With Example
No ratings yet
Practical Assignment. Applying Methods of Machine Learning With Example
2 pages
Import Library Python
No ratings yet
Import Library Python
10 pages
Lab7 Hameed 211086
No ratings yet
Lab7 Hameed 211086
4 pages
ITERATORS
No ratings yet
ITERATORS
8 pages
Capstone Project - Jaro-Prof. Babji
No ratings yet
Capstone Project - Jaro-Prof. Babji
5 pages
Python Syntax and Functions For Data Mining
No ratings yet
Python Syntax and Functions For Data Mining
6 pages
Automatic Port
No ratings yet
Automatic Port
12 pages
Analytics Quefile Without Answer
No ratings yet
Analytics Quefile Without Answer
3 pages
DATA SCIENCE Indeks Standar Pencemaran Udara (ISPU) PROVINSI DKI JAKARTA Tahun 2020
No ratings yet
DATA SCIENCE Indeks Standar Pencemaran Udara (ISPU) PROVINSI DKI JAKARTA Tahun 2020
21 pages
Linier Regresion ML
No ratings yet
Linier Regresion ML
8 pages
Script Unit2
No ratings yet
Script Unit2
6 pages
Intro Spark
No ratings yet
Intro Spark
2 pages
Tasks B.2 - Data Processing 1
No ratings yet
Tasks B.2 - Data Processing 1
1 page
ML Assignment
No ratings yet
ML Assignment
10 pages
Kelompok - 9 - Data Mining
No ratings yet
Kelompok - 9 - Data Mining
15 pages
Spark Lab
No ratings yet
Spark Lab
6 pages
Big Data Analysis Certification
No ratings yet
Big Data Analysis Certification
23 pages
PembelajaranMesin - Ipynb - Colaboratory
No ratings yet
PembelajaranMesin - Ipynb - Colaboratory
6 pages
PySpark Logistic Regression Guide
No ratings yet
PySpark Logistic Regression Guide
3 pages
Customer Pipeline Template
No ratings yet
Customer Pipeline Template
5 pages
Lab Assessment 2 - Question
No ratings yet
Lab Assessment 2 - Question
2 pages
ML Complete Notes Hridoy
No ratings yet
ML Complete Notes Hridoy
5 pages
Extracted Notebook Content
No ratings yet
Extracted Notebook Content
17 pages
Praktikum 1 - Komputasi Big Data - Nada Andini Rahmah - 20320246 - 2TB03
No ratings yet
Praktikum 1 - Komputasi Big Data - Nada Andini Rahmah - 20320246 - 2TB03
6 pages
Spark Main
No ratings yet
Spark Main
75 pages
Data Preparation Basics#
No ratings yet
Data Preparation Basics#
2 pages
FAIR PINN Clean
No ratings yet
FAIR PINN Clean
1 page
Thesis Model
No ratings yet
Thesis Model
11 pages
Car Mock - ML Ans
No ratings yet
Car Mock - ML Ans
6 pages
20bcs5484 - Avinash ML Lab MST
No ratings yet
20bcs5484 - Avinash ML Lab MST
10 pages
Colab Update: New Features & Bug Fixes
No ratings yet
Colab Update: New Features & Bug Fixes
20 pages
Data Science in Marketing Customer Segmentation With Python
No ratings yet
Data Science in Marketing Customer Segmentation With Python
3 pages
Capstone Project-Naan Mudlvan
No ratings yet
Capstone Project-Naan Mudlvan
2 pages
2324 BigData Lab3
No ratings yet
2324 BigData Lab3
6 pages
Lab Assignment 1
No ratings yet
Lab Assignment 1
2 pages
Advance Python
No ratings yet
Advance Python
5 pages
Student Data Analysis in Python
No ratings yet
Student Data Analysis in Python
3 pages
Q2.ipynb - Colaboratory
No ratings yet
Q2.ipynb - Colaboratory
3 pages
COMP-377 Lab2
No ratings yet
COMP-377 Lab2
3 pages
Anterior Uveitis
No ratings yet
Anterior Uveitis
65 pages
Existentialist Feminism and Simone de Beauvoir PDF
No ratings yet
Existentialist Feminism and Simone de Beauvoir PDF
2 pages
Design and Analysis of A High Gain Rail To Rail Operational Amplifier
No ratings yet
Design and Analysis of A High Gain Rail To Rail Operational Amplifier
5 pages
TECH-5 - Rahul Dhall CV
No ratings yet
TECH-5 - Rahul Dhall CV
3 pages
Three-Dimensional Printing (3D Printing) : by Dr. Vineet Srivastava
No ratings yet
Three-Dimensional Printing (3D Printing) : by Dr. Vineet Srivastava
9 pages
AAN 2023 Day 1-2 Mind Next Original
No ratings yet
AAN 2023 Day 1-2 Mind Next Original
21 pages
Assignment MHDD 160
No ratings yet
Assignment MHDD 160
2 pages
Blockchain's Impact On Marketing by Slidesgo
No ratings yet
Blockchain's Impact On Marketing by Slidesgo
8 pages
Automobile Technology Ceylon German Technical Training Institute Moratuwa
No ratings yet
Automobile Technology Ceylon German Technical Training Institute Moratuwa
28 pages
Latin American Veggie Meal Plan
No ratings yet
Latin American Veggie Meal Plan
2 pages
Screening and Assessment LD
No ratings yet
Screening and Assessment LD
63 pages
MITinformation Brochure 2 June 2023
No ratings yet
MITinformation Brochure 2 June 2023
18 pages
Cornerstones of Financial Accounting 3rd Canadian Edition Rich Unlocked Test Bank
No ratings yet
Cornerstones of Financial Accounting 3rd Canadian Edition Rich Unlocked Test Bank
311 pages
Percentage Prelims - I: 1 Exclusively Prepared For IACE Students Toll Free: 1800-270-9975, PH: 9533200400
No ratings yet
Percentage Prelims - I: 1 Exclusively Prepared For IACE Students Toll Free: 1800-270-9975, PH: 9533200400
3 pages
Jurnal 1 Febuxostat
No ratings yet
Jurnal 1 Febuxostat
10 pages
True or False Items
No ratings yet
True or False Items
17 pages
Turbo Machinery Exam Results 2019
No ratings yet
Turbo Machinery Exam Results 2019
3 pages
Genetics Practicum Insights
No ratings yet
Genetics Practicum Insights
53 pages
Plus One Notes - Eng
No ratings yet
Plus One Notes - Eng
11 pages
B1 Booster v1
No ratings yet
B1 Booster v1
32 pages
Electromagnetic Warp Drive Theory
No ratings yet
Electromagnetic Warp Drive Theory
16 pages
Runge-Kutta Method: Consider First Single First-Order Equation: Classic High-Order Scheme Error (4th Order)
No ratings yet
Runge-Kutta Method: Consider First Single First-Order Equation: Classic High-Order Scheme Error (4th Order)
17 pages
The Life and Death of Planet Earth How The New Science of Astrobiology Charts The Ultimate Fate of Our World 1st Edition Peter Ward Download
No ratings yet
The Life and Death of Planet Earth How The New Science of Astrobiology Charts The Ultimate Fate of Our World 1st Edition Peter Ward Download
51 pages
Qkhttiepdiendeso 01
No ratings yet
Qkhttiepdiendeso 01
2 pages
CRT Controller
No ratings yet
CRT Controller
42 pages
Super Memory British English Student A2 B1
No ratings yet
Super Memory British English Student A2 B1
6 pages
Mrcs Part B Osce Anatomy
No ratings yet
Mrcs Part B Osce Anatomy
287 pages
Role of Family in Consumer Behaviour
0% (1)
Role of Family in Consumer Behaviour
10 pages

Lab 2 - Data Preparation

Uploaded by

Lab 2 - Data Preparation

Uploaded by

1/18/2021 Lab 2 - Data Preparation 1.

Lab 2 - Data Preparation 1

#1. Install Apache Spark

#2. Setting environment variable

#3. Inisiasi spark

#4. Upload file

#5. Load data

#6. Menampilkan data

#7. Cek tipe data

#8. Menampilkan data

#collect data + metadata

#9. Cek tipe data kolom

#11. Menampilkan daftar kolom

#12. Menampilkan data

#13. Menampilkan data

#14. Menampilkan sebagian data

#16. Menampilkan data null

#17. Menampilkan struktur data

#18. Menampilkan rangkuman data

#19. Mengganti tipe kolom

Copy protected with Online-PDF-No-Copy.com

You might also like