100% found this document useful (1 vote)

205 views26 pages

Machine Learning in Spark

This document provides an overview of machine learning in Spark using R. It discusses Spark MLlib and Spark ML pipelines for building machine learning models. It also demonstrates using dplyr verbs to manipulate data frames and perform simple linear regression on the iris dataset to predict petal length using petal width. Finally, it shows how to create a machine learning pipeline in R that includes data transformations and a logistic regression model.

Uploaded by

brockthebone

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

100% found this document useful (1 vote)

205 views26 pages

Machine Learning in Spark

Uploaded by

brockthebone

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 26

Machine Learning in Spark

By:
Muhammad Imran
About Me
Current Position:
• Head of Big Data Project & Advanced
Analytics at Artha Solution
• Head of Big Data technology at Informatica
• Partner at Evotek-S
• Founder of Data Driven Asia
• Data mentor at IDX Startup Incubator
Past Position:
• Big Data Expert Team at Coordinating Ministry
of Economics Affair for Indonesia eCommerce
Roadmap (2018)
• Senior Data Analyst at MCA- Indonesia (2016)
• Data Analyst at UNICEF Innovation Lab
( 2015)
• Data Analyst at World Bank Indonesia ( 2013)
• And so on...
1. Big Data Architecture Stack
2. Apache Spark Architecture
3. RDD, Dataframe & DAG ( Demo - Local )
4. Spark Mlib
Our Discussion 5. Spark ML-Pipelines ( Demo – Local )
Today 6. Spark Structured Streaming ( Demo –
Cloud )
7. Spark Stream-Stream Joins ( Demo -
Cloud )
Next Big Data Architecture
Apache
Spark Stack
Spark Vs Hadoop
MapReduce
Hadoop Map Reduce
Process
Spark Execution
Process Master -
Worker
Simple Scala code in Spark:
import org.apache.spark.sql.functions._
import org.apache.spark.sql.SparkSession

val spark = SparkSession
.builder
.appName("StructuredNetworkWordCount")
.getOrCreate()

import spark.implicits._
RDD Dataframe Dataset
Why used RDD’s ? a DataFrame is an : • Starting in Spark 2.0
• Your data is • immutable distributed • Dataset takes on two
unstructured, such as collection of data. distinct APIs
media streams or • Unlike an RDD, data is characteristics:
streams of text organized into named a strongly-typed API
• you want to manipulate columns, like a table in a and an untyped API
your data with functional relational database.
programming constructs • Designed to make large
than domain specific data sets processing
expressions even easier

RDD Vs Dataframe Vs
Dataset
(Directed Acyclic Graph)
DAG in Apache Spark
DAG main component:
•Timeline view of Spark events
•Execution DAG
•Visualization of Spark Streaming statistics
spark.mllib contains the original API built on top of RDDs.
spark.ml provides higher-level API built on top of DataFrames for
constructing ML pipelines.

Spark Mlib
• ML Workflow
• ML Algorithms
• More features

The key concepts of Pipeline API (aka spark.ml Components):

Spark Mlib & ML Pipeline • Pipeline
• PipelineStage
• Transformers
• Models
• Estimators
• Evaluator
• Params (and ParamMaps)
Konsep Spark Stream

• Apache Spark streaming adalah system

proses data streaming yang scalable
fault-tolerant. Spark stream adalah
bagian dari Apache Spark yang juga
terintegrasi dengan Mlib, DataFrames &
GraphX.
Ada 4 fungsi utama dari Spark Streaming
yang paling umum digunakan. Yaitu:
- Streaming ETL: Data secara
b e rke la n j u t a n d i b e r s i h k a n d a n d i
aggregate sebelumn di push ke
Databased
- Event Driver/Trigger: Pendeteksian
anomaly data secara real-time dan
action downstream data. Biasa di pakai
untuk system berbasis IOT
- Data enrichment: Data live di perkaya
dengan informasi tambahan dari static
dataset dari DWH untuk menciptakan
complete real-time analysis
- Complex Session & Continous
Learning: Event triggred data yang
terkait dengan live data di groupkan jadi
satu untuk Analisa lebih mendalam.
Biasa dipakai dalam mesin
rekomendasi produk
- Secara garis besar, Spark Streaming
seperti gambar bawah.
Proses Spark Streaming
Spark Structured
Stream – Basic
Concept
Stream Operator
• dropDuplicates
• Explain
• groupBy
• groupByKey
• withWatermark

dropDuplicates code example:

dropDuplicates(): Dataset[T]
dropDuplicates(colNames: Seq[String]): Dataset[T]
dropDuplicates(col1: String, cols: String*): Dataset[T]

groupBy code example:

groupBy(cols: Column*): RelationalGroupedDataset
groupBy(col1: String, cols: String*):
RelationalGroupedDataset
Spark Structured
Stream – Basic
Concept
import org.apache.spark.sql.functions._
import org.apache.spark.sql.SparkSession

val spark = SparkSession
.builder
.appName("StructuredNetworkWordCount")
.getOrCreate()

import spark.implicits._

val wordCounts = words.groupBy("value").count()

Spark Stream-Stream
Joins
impressions = (
spark
.readStream
.format("kafka")
.option("subscribe", "impressions")
…
.load()
)
clicks = (

spark
.readStream
.format("kafka")
.option("subscribe", "clicks")
…
.load()
)
impressions.join(clicks, "adId")
Spark in RStudio
• Cara memulai Spark dalam bahan R, bisa dalam
console Hortons atau Cloudera, namun juga dari
Rstudio.
• Langkahnya:
1. Install Paket R dari CRAN
2. Install Rstudio
3. Ketik:
install.packages("sparklyr")
library(sparklyr) spark_install(version = "2.3.0")
install.packages(“devtools")
devtools::install_github("rstudio/sparklyr")
Lalu kita koneksikan Rstudio dengan Spark:
library(sparklyr) sc <- spark_connect(master =
"local")
Spark in RStudio
Menggunakan dplyr
dplyr adalah tata bahasa manipulasi data,
menyediakan seperangkat kata kerja yang
konsisten yang membantu Anda memecahkan
tantangan manipulasi data yang paling umum:
• bermutasi () menambahkan variabel baru yang
merupakan fungsi dari variabel yang ada
• pilih () mengambil variabel berdasarkan nama
mereka.
• filter () mengambil kasus berdasarkan nilai-
nilainya.
• meringkas () mengurangi beberapa nilai ke
satu ringkasan.
• mengatur () mengubah urutan baris.
Spark in RStudio
Menggunakan dplyr
Di Rstudio, ketik:
install.packages(c("nycflights13", "Lahman"))

library(dplyr)
iris_tbl <- copy_to(sc, iris)
flights_tbl <- copy_to(sc, nycflights13::flights,
"flights")
batting_tbl <- copy_to(sc, Lahman::Batting,
"batting")
src_tbls(sc)
Untuk melakukan memfilteran data, coba kita
ketik:
flights_tbl %>% filter(dep_delay == 5)
Spark in Rstudio -
Lanjutan
Mari kita memetakan distribusi delayed dengan
plot.
Di Rstudio, ketik:
library(ggplot2)
ggplot(delay, aes(dist, delay)) +
geom_point(aes(size = count), alpha = 1/2) +
geom_smooth() +
scale_size_area(max_size = 2)
Simple Machine
Learning
Kita akan menggunakan regresi liner pada Spark
R:
Function Description
ml_kmeans K-Means Clustering
ml_linear_regression Linear Regression
ml_logistic_regression Logistic Regression
ml_survival_regression Survival Regression
ml_generalized_linear_ Generalized Linear
regression Regression
ml_decision_tree Decision Trees
ml_random_forest Random Forests
ml_gradient_boosted_tr Gradient-Boosted
ees Trees
ml_pca Principal Components
Analysis
ml_naive_bayes Naive-Bayes
Spark in Rstudio -
Lanjutan
Di Rstudio, ketik:
lm_model <- iris_tbl %>% select(Petal_Width,
Petal_Length) %>%
ml_linear_regression(Petal_Length ~
Petal_Width)

iris_tbl %>% select(Petal_Width, Petal_Length)

%>% collect %>% ggplot(aes(Petal_Length,
Petal_Width)) + geom_point(aes(Petal_Width,
Petal_Length), size = 2, alpha = 0.5) +
geom_abline(aes(slope =
coef(lm_model)[["Petal_Width"]], intercept =
coef(lm_model)[["(Intercept)"]]), color = "red") +
labs( x = "Petal Width", y = "Petal Length", title =
"Linear Regression: Petal Length ~ Petal Width",
subtitle = "Use Spark.ML linear regression to
predict petal length as a function of petal width." )
ML Pipeline- Lanjutan
Kita akan membuat ML Pipeline pada Rstudio.
ML Pipeline memungkina data scientist
menciptakan multiple data transformation dalam
sebuah data pipeline
Di Rstudio, ketik:
library(nycflights13)
library(sparklyr)
library(dplyr)
sc <- spark_connect(master = "local“)

spark_flights <- sdf_copy_to(sc, flights)

Memasukan fitur2 transformasi data
df <- spark_flights %>%
filter(!is.na(dep_delay)) %>% mutate( month
= paste0("m", month), day = paste0("d",
day) ) %>% select(dep_delay,
sched_dep_time, month, day, distance)

ft_dplyr_transformer(sc, df)
ML Pipeline- Lanjutan
Lanjutan
Di Rstudio, ketik:
ft_dplyr_transformer(sc, df) %>%
ml_param("statement")
Menciptakan 5 jenis transformasi data dalam 1
pipeline:
SQL transformer - Hasil dari transformasi
ft_dplyr_transformer ()
Binarizer - Untuk menentukan apakah
penerbangan harus dianggap penundaan.
Variabel hasil akhirnya.
Bucketizer - Untuk membagi hari menjadi
kelompok jam tertentu
R Formula - Untuk menentukan formula model
Model Logistik
ML Pipeline- Lanjutan
Di Rstudio, ketik:
flights_pipeline <- ml_pipeline(sc) %>%
ft_dplyr_transformer( tbl = df ) %>%
ft_binarizer( input.col = "dep_delay", output.col
= "delayed", threshold = 15 ) %>%
ft_bucketizer( input.col = "sched_dep_time",
output.col = "hours", splits = c(400, 800, 1200,
1600, 2000, 2400) ) %>%
ft_r_formula(delayed ~ month + day + hours +
distance) %>% ml_logistic_regression()

Untuk menampilkan pipeline yg sudah kita

bangun. Ketik di Rstudio:
flights_pipeline

Oreilly Tech Guide Principles and Patterns For Distributed Application Architecture
No ratings yet
Oreilly Tech Guide Principles and Patterns For Distributed Application Architecture
125 pages
Noting and Drafting Skills
100% (2)
Noting and Drafting Skills
33 pages
MobiSTOP Ultima 02242 R8 EN PDF
No ratings yet
MobiSTOP Ultima 02242 R8 EN PDF
1 page
Apache Spark Detailed Guide
50% (2)
Apache Spark Detailed Guide
1,352 pages
BDH Admin Ebook
No ratings yet
BDH Admin Ebook
807 pages
Bahrick Et Al. (1993) Spacing Effect
No ratings yet
Bahrick Et Al. (1993) Spacing Effect
7 pages
ECommerce Virtual Assistant Course
100% (1)
ECommerce Virtual Assistant Course
18 pages
Cloudera Administration
No ratings yet
Cloudera Administration
694 pages
Pyspark Interview 1738079940
No ratings yet
Pyspark Interview 1738079940
6 pages
Talend Open Studio For Data Integration: User Guide
No ratings yet
Talend Open Studio For Data Integration: User Guide
452 pages
Public - Crash Course - Apache Spark - Berlin - 2018 PDF
No ratings yet
Public - Crash Course - Apache Spark - Berlin - 2018 PDF
76 pages
(Mycology Series 16) D.H. Howard-Pathogenic Fungi in Humans and Animals-Marcel Dekker (2003)
100% (1)
(Mycology Series 16) D.H. Howard-Pathogenic Fungi in Humans and Animals-Marcel Dekker (2003)
804 pages
13 Council of Student Organizations: Minutes of The Meeting
No ratings yet
13 Council of Student Organizations: Minutes of The Meeting
4 pages
Cloudera Spark Developer Training
No ratings yet
Cloudera Spark Developer Training
491 pages
Mastering Advanced Analytics With Apache Spark
No ratings yet
Mastering Advanced Analytics With Apache Spark
75 pages
Design & Implement Trash Rack Cleaning System
No ratings yet
Design & Implement Trash Rack Cleaning System
23 pages
Cloudera Administration
No ratings yet
Cloudera Administration
399 pages
Course Presentation GoogleCloudDigitalLeader
No ratings yet
Course Presentation GoogleCloudDigitalLeader
182 pages
07 Spark Dataframes
100% (1)
07 Spark Dataframes
45 pages
Use Case Points for Objectory Projects
No ratings yet
Use Case Points for Objectory Projects
9 pages
Nursing Theory Foundations
No ratings yet
Nursing Theory Foundations
60 pages
Cloudera Administrator Training PDF
No ratings yet
Cloudera Administrator Training PDF
639 pages
AWS Data Lake Lab: Athena & QuickSight
No ratings yet
AWS Data Lake Lab: Athena & QuickSight
22 pages
TalendOpenStudio BigData UG 5.2.1 en
No ratings yet
TalendOpenStudio BigData UG 5.2.1 en
266 pages
Unit 4 Spark Cassendra
No ratings yet
Unit 4 Spark Cassendra
41 pages
Spark in Production
No ratings yet
Spark in Production
34 pages
One Minute Manager Notes
No ratings yet
One Minute Manager Notes
8 pages
Aws Three Practical Use Cases With Databricks Ebook v5 101221
No ratings yet
Aws Three Practical Use Cases With Databricks Ebook v5 101221
34 pages
Akshatha Paper
No ratings yet
Akshatha Paper
7 pages
Deploy Rac BP
100% (1)
Deploy Rac BP
39 pages
PySpark SQL Cheat Sheet Guide
No ratings yet
PySpark SQL Cheat Sheet Guide
1 page
The Incredible Hulk
No ratings yet
The Incredible Hulk
14 pages
Machine Learning Spark ML
No ratings yet
Machine Learning Spark ML
11 pages
Carnot and Rankine Cycle
No ratings yet
Carnot and Rankine Cycle
22 pages
AWS Athena Knowledgebase
No ratings yet
AWS Athena Knowledgebase
4 pages
Apache Hadoop Developer Training PDF
100% (1)
Apache Hadoop Developer Training PDF
397 pages
Kopi
No ratings yet
Kopi
5 pages
Tuning Linux For MongoDB
No ratings yet
Tuning Linux For MongoDB
26 pages
MySql High Availability and Scalability
No ratings yet
MySql High Availability and Scalability
36 pages
Cloudera Spark
No ratings yet
Cloudera Spark
70 pages
Scaladayslambda Architecture Spark Cassandra Akka Kafka 150609194508 Lva1 App6891 PDF
No ratings yet
Scaladayslambda Architecture Spark Cassandra Akka Kafka 150609194508 Lva1 App6891 PDF
100 pages
Rockwool Installation Guide
100% (1)
Rockwool Installation Guide
8 pages
Apache Spark A Comprehensive Guide
No ratings yet
Apache Spark A Comprehensive Guide
9 pages
Parenteral Feeding
No ratings yet
Parenteral Feeding
3 pages
IBM Security Product Integration Reference
100% (1)
IBM Security Product Integration Reference
14 pages
Katz-Moses Multi Sled FENCE Drawing v2
No ratings yet
Katz-Moses Multi Sled FENCE Drawing v2
1 page
Technical and Grammar Quiz
No ratings yet
Technical and Grammar Quiz
3 pages
Easter Events & Weather Forecast
No ratings yet
Easter Events & Weather Forecast
10 pages
Spring Cloud Dataflow Reference
No ratings yet
Spring Cloud Dataflow Reference
130 pages
DP 3011 ENU PowerPoint - 01 Content
No ratings yet
DP 3011 ENU PowerPoint - 01 Content
42 pages
Unix Administration II
100% (1)
Unix Administration II
6 pages
Troubleshooting: Mysql Replication Problem
No ratings yet
Troubleshooting: Mysql Replication Problem
3 pages
Teradata Studio User Guide
No ratings yet
Teradata Studio User Guide
256 pages
Cloudera Kafka PDF
No ratings yet
Cloudera Kafka PDF
175 pages
Unstructured Dataload Into Hive Database Through PySpark
No ratings yet
Unstructured Dataload Into Hive Database Through PySpark
9 pages
Getting Started With Apache Kafka
No ratings yet
Getting Started With Apache Kafka
21 pages
Big Data Tools 2 - Apache Spark With PySpark
No ratings yet
Big Data Tools 2 - Apache Spark With PySpark
33 pages
Introduction To Elasticsearch.: Ruslan Zavacky
No ratings yet
Introduction To Elasticsearch.: Ruslan Zavacky
75 pages
Elastic Stack Guide: Elasticsearch, Logstash, Kibana
No ratings yet
Elastic Stack Guide: Elasticsearch, Logstash, Kibana
24 pages
Response of Framed Buildings To Excavation-Induced Movements
No ratings yet
Response of Framed Buildings To Excavation-Induced Movements
19 pages
Apache Kafka Setup Guide
No ratings yet
Apache Kafka Setup Guide
3 pages
Inspection of The Building Signature by Pinnacle.: (Estructure and Electromechanic Equipment Surveying.)
No ratings yet
Inspection of The Building Signature by Pinnacle.: (Estructure and Electromechanic Equipment Surveying.)
12 pages
Senior Big Data Engineer Profile
No ratings yet
Senior Big Data Engineer Profile
6 pages
Tutorial 07-MA 1063
No ratings yet
Tutorial 07-MA 1063
2 pages
Lentil & Legume Price Guide
No ratings yet
Lentil & Legume Price Guide
15 pages
SAS Viya Install
No ratings yet
SAS Viya Install
4 pages
Blog Hubspot Com Marketing Team Structure Diagrams
No ratings yet
Blog Hubspot Com Marketing Team Structure Diagrams
13 pages
Apache Cassandra Database - Instaclustr
No ratings yet
Apache Cassandra Database - Instaclustr
8 pages
RH066x EdX Lab Instructions-RHEL8
No ratings yet
RH066x EdX Lab Instructions-RHEL8
13 pages
Scala PDF
No ratings yet
Scala PDF
29 pages
Keynote Speaker ISRSC 2013
No ratings yet
Keynote Speaker ISRSC 2013
1 page
Amazon EMR Security: © 2018, Amazon Web Services, Inc. or Its Affiliates. All Rights Reserved
No ratings yet
Amazon EMR Security: © 2018, Amazon Web Services, Inc. or Its Affiliates. All Rights Reserved
16 pages
Elk
No ratings yet
Elk
5 pages
Lab 3 - Enabling Team Based Data Science With Azure Databricks
No ratings yet
Lab 3 - Enabling Team Based Data Science With Azure Databricks
18 pages
Hypertension Cheat Sheet
No ratings yet
Hypertension Cheat Sheet
4 pages
CCSP 2019 - Data Retention & Events
No ratings yet
CCSP 2019 - Data Retention & Events
14 pages
Elastic Search
No ratings yet
Elastic Search
9 pages
Elastic Search
No ratings yet
Elastic Search
19 pages
Character - Lorian Nod
No ratings yet
Character - Lorian Nod
2 pages
Session Management
No ratings yet
Session Management
23 pages
Tomcat Server 7: Architecture & Admin
100% (1)
Tomcat Server 7: Architecture & Admin
36 pages
Azher Unix Administrator
No ratings yet
Azher Unix Administrator
10 pages
Hadoop Administrator Interview Questions: Cloudera® Enterprise Version
No ratings yet
Hadoop Administrator Interview Questions: Cloudera® Enterprise Version
13 pages
Os Lec 4 Process
No ratings yet
Os Lec 4 Process
7 pages
Microservices On GCP: How I Learned To Stop Worrying and Learned To Love The Mesh
No ratings yet
Microservices On GCP: How I Learned To Stop Worrying and Learned To Love The Mesh
31 pages
Cluster Computing Tutorial
No ratings yet
Cluster Computing Tutorial
101 pages
Newzoo Free Report Southeast Asian Games Market V2
No ratings yet
Newzoo Free Report Southeast Asian Games Market V2
13 pages
Sinking OR Swimming?: HONG KONG Every Time American
No ratings yet
Sinking OR Swimming?: HONG KONG Every Time American
4 pages
Manual ActiveX Removal Guide
No ratings yet
Manual ActiveX Removal Guide
5 pages
Business English Vocabulary Guide
No ratings yet
Business English Vocabulary Guide
27 pages
Improving The Performance of MPPT Coupled Inductor SEPIC Converter Using Flower Pollination Algorithm (FPA) Under Partial Shading Condition
No ratings yet
Improving The Performance of MPPT Coupled Inductor SEPIC Converter Using Flower Pollination Algorithm (FPA) Under Partial Shading Condition
8 pages
SLW Investment Group
No ratings yet
SLW Investment Group
30 pages
Intro Internet of Things
No ratings yet
Intro Internet of Things
26 pages
Coanda Effects
No ratings yet
Coanda Effects
33 pages
AWS Oracle DB Migration Questionnaire
No ratings yet
AWS Oracle DB Migration Questionnaire
2 pages
Kibana Essentials: Visualizations & Settings
No ratings yet
Kibana Essentials: Visualizations & Settings
21 pages

Machine Learning in Spark

Uploaded by

Machine Learning in Spark

Uploaded by

Machine Learning in Spark

The key concepts of Pipeline API (aka spark.ml Components):

• Apache Spark streaming adalah system

dropDuplicates code example:

groupBy code example:

val wordCounts = words.groupBy("value").count()

iris_tbl %>% select(Petal_Width, Petal_Length)

spark_flights <- sdf_copy_to(sc, flights)

Untuk menampilkan pipeline yg sudah kita

You might also like