0% found this document useful (0 votes)

14 views36 pages

Spark Context, Resilient Distributed Datasets

Uploaded by

cakvlr

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

14 views36 pages

Spark Context, Resilient Distributed Datasets

Uploaded by

cakvlr

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 36

Preface

Content of this Lecture:

In this lecture, we will discuss the ‘framework of

spark’, Resilient Distributed Datasets (RDDs) and also
discuss Spark execution.

Big Data Computing Vu Pham Introduction to Spark

Need of Spark
Apache Spark is a big data analytics framework that
was originally developed at the University of
California, Berkeley's AMPLab, in 2012. Since then, it
has gained a lot of attraction both in academia and in
industry.

It is an another system for big data analytics

Isn’t MapReduce good enough?

Simplifies batch processing on large commodity clusters

Big Data Computing Vu Pham Introduction to Spark

Need of Spark
Map Reduce

Input Output

Big Data Computing Vu Pham Introduction to Spark

Need of Spark
Map Reduce

Expensive save to disk for fault

tolerance
Input Output

Big Data Computing Vu Pham Introduction to Spark

Need of Spark
MapReduce can be expensive for some applications e.g.,
Iterative
Interactive

Lacks efficient data sharing

Specialized frameworks did evolve for different programming

models
Bulk Synchronous Processing (Pregel)
Iterative MapReduce (Hadoop) ….

Big Data Computing Vu Pham Introduction to Spark

Solution: Resilient Distributed Datasets (RDDs)

Resilient Distributed Datasets (RDDs)

Immutable, partitioned collection of records

Built through coarse grained transformations (map, join …)
Can be cached for efficient reuse

Big Data Computing Vu Pham Introduction to Spark

Need of Spark
RDD RDD RDD

Read

HDFS
Read Cache

Map Reduce
Big Data Computing Vu Pham Introduction to Spark
Solution: Resilient Distributed Datasets (RDDs)

Resilient Distributed Datasets (RDDs)

Immutable, partitioned collection of records

Built through coarse grained transformations (map, join …)

Fault Recovery?
Lineage!
Log the coarse grained operation applied to a
partitioned dataset
Simply recompute the lost partition if failure occurs!
No cost if no failure

Big Data Computing Vu Pham Introduction to Spark

RDD RDD RDD

Read

HDFS
Read Cache

Map Reduce

Big Data Computing Vu Pham Introduction to Spark

Read
HDFS Map Reduce
Lineage

Introduction to Spark

Big Data Computing Vu Pham Introduction to Spark

RDD RDD RDD

Read

HDFS RDDs track the graph of

Read transformations that built them Cache
(their lineage) to rebuild lost data

Map Reduce

Big Data Computing Vu Pham Introduction to Spark

What can you do with Spark?
RDD operations
Transformations e.g., filter, join, map, group-by …
Actions e.g., count, print …

Control
Partitioning: Spark also gives you control over how you can
partition your RDDs.

Persistence: Allows you to choose whether you want to

persist RDD onto disk or not.

Big Data Computing Vu Pham Introduction to Spark

Spark Applications
i. Twitter spam classification

ii. EM algorithm for traffic prediction

iii. K-means clustering

iv. Alternating Least Squares matrix factorization

v. In-memory OLAP aggregation on Hive data

vi. SQL on Spark

Big Data Computing Vu Pham Introduction to Spark

Reading Material
Matei Zaharia, Mosharaf Chowdhury, Michael J. Franklin,
Scott Shenker, Ion Stoica
“Spark: Cluster Computing with Working Sets”

Matei Zaharia, Mosharaf Chowdhury et al.

“Resilient Distributed Datasets: A Fault-Tolerant
Abstraction for In-Memory Cluster Computing”

https://spark.apache.org/

Big Data Computing Vu Pham Introduction to Spark

Spark Execution

Big Data Computing Vu Pham Introduction to Spark

Distributed Programming (Broadcast)

Big Data Computing Vu Pham Introduction to Spark

Distributed Programming (Take)

Big Data Computing Vu Pham Introduction to Spark

Distributed Programming (DAG Action)

Big Data Computing Vu Pham Introduction to Spark

Distributed Programming (Shuffle)

Big Data Computing Vu Pham Introduction to Spark

DAG (Directed Acyclic Graph)

Big Data Computing Vu Pham Introduction to Spark

DAG (Directed Acyclic Graph)
Action
Count
Take
Foreach
Transformation
Map
ReduceByKey
GroupByKey
JoinByKey

Big Data Computing Vu Pham Introduction to Spark

DAG (Directed Acyclic Graph)

Big Data Computing Vu Pham Introduction to Spark

Flume Java

Big Data Computing Vu Pham Introduction to Spark

Spark Implementation

Big Data Computing Vu Pham Introduction to Spark

Spark ideas
Expressive computing system, not limited to
map-reduce model

Facilitate system memory

avoid saving intermediate results to disk
cache data for repetitive queries (e.g. for machine
learning)

Compatible with Hadoop

Big Data Computing Vu Pham Introduction to Spark

RDD abstraction

Resilient Distributed Datasets

Partitioned collection of records
Spread across the cluster
Read-only
Caching dataset in memory
different storage levels available
fallback to disk possible

Big Data Computing Vu Pham Introduction to Spark

RDD operations
Transformations to build RDDs through
deterministic operations on other RDDs
transformations include map, filter, join
lazy operation

Actions to return value or export data

actions include count, collect, save
triggers execution

Big Data Computing Vu Pham Introduction to Spark

Spark Components

Big Data Computing Vu Pham Introduction to Spark

Job example
val log = sc.textFile(“hdfs://...”)
val errors = file.filter(_.contains(“ERROR”))
errors.cache()
Driver
errors.filter(_.contains(“I/O”)).count()
errors.filter(_.contains(“timeout”)).count()

Action!

Worker Worker Worker

Cache1 Cache2 Cache2

Block1 Block2 Block3

Big Data Computing Vu Pham Introduction to Spark

RDD partition-level view

Dataset-level view: Partition-level view:

log:
HadoopRDD
path = hdfs://...

errors:
FilteredRDD
func = _.contains(…)
shouldCache = true
Task 1 Task 2 ...

source: https://cwiki.apache.org/confluence/display/SPARK/Spark+Internals

Big Data Computing Vu Pham Introduction to Spark

Job scheduling

RDD Objects DAGScheduler TaskScheduler Worker

Cluster Threads
DAG TaskSet manager Task Block
manager

rdd1.join(rdd2) split graph into launch tasks via execute tasks

.groupBy(…)
stages of tasks cluster manager
.filter(…)
submit each retry failed or store and serve
build operator DAG
stage as ready straggling tasks blocks

source: https://cwiki.apache.org/confluence/display/SPARK/Spark+Internals

Big Data Computing Vu Pham Introduction to Spark

Available APIs
You can write in Java, Scala or Python

Interactive interpreter: Scala & Python only

Standalone applications: any

Performance: Java & Scala are faster thanks to

static typing

Big Data Computing Vu Pham Introduction to Spark

Hand on - interpreter

script
http://cern.ch/kacper/spark.txt

run scala spark interpreter

$ spark-shell

or python interpreter
$ pyspark

Big Data Computing Vu Pham Introduction to Spark

Hand on – build and submission

download and unpack source code

wget http://cern.ch/kacper/GvaWeather.tar.gz; tar -xzf GvaWeather.tar.gz
build definition in
GvaWeather/gvaweather.sbt
source code
GvaWeather/src/main/scala/GvaWeather.scala
building
cd GvaWeather
sbt package
job submission
spark-submit --master local --class GvaWeather \
target/scala-2.10/gva-weather_2.10-1.0.jar

Big Data Computing Vu Pham Introduction to Spark

Summary
Concept not limited to single pass map-reduce

Avoid sorting intermediate results on disk or

HDFS

Speedup computations when reusing datasets

Big Data Computing Vu Pham Introduction to Spark

Conclusion

RDDs (Resilient Distributed Datasets (RDDs) provide

a simple and efficient programming model

Generalized to a broad set of applications

Leverages coarse-grained nature of parallel

algorithms for failure recovery

Big Data Computing Vu Pham Introduction to Spark

Big Data Engineering - PySpark
100% (2)
Big Data Engineering - PySpark
120 pages
Introduction to Apache Spark RDDs
No ratings yet
Introduction to Apache Spark RDDs
48 pages
Big Data - Spark
100% (1)
Big Data - Spark
72 pages
Apache Spark: The Next Gen Toolset For Big Data Processing
No ratings yet
Apache Spark: The Next Gen Toolset For Big Data Processing
9 pages
Course Slideware
No ratings yet
Course Slideware
60 pages
Apache Spark With Java
No ratings yet
Apache Spark With Java
209 pages
Scala and Spark Overview PDF
No ratings yet
Scala and Spark Overview PDF
37 pages
Spark Introduction
No ratings yet
Spark Introduction
26 pages
BDM Spark Sparksq
No ratings yet
BDM Spark Sparksq
63 pages
Spark Summit East 2015 - Adv Dev Ops - Student Slides
No ratings yet
Spark Summit East 2015 - Adv Dev Ops - Student Slides
219 pages
Big Data with Apache Spark Basics
No ratings yet
Big Data with Apache Spark Basics
43 pages
Apache Spark Basics & Comparison
No ratings yet
Apache Spark Basics & Comparison
66 pages
Introduction To Spark PDF
No ratings yet
Introduction To Spark PDF
37 pages
Lecture 25
No ratings yet
Lecture 25
59 pages
Spark: Big Data Processing & Libraries
No ratings yet
Spark: Big Data Processing & Libraries
47 pages
Big Data Computing Spark Basics and RDD: Ke Yi
No ratings yet
Big Data Computing Spark Basics and RDD: Ke Yi
43 pages
BD 07 Spark
No ratings yet
BD 07 Spark
49 pages
Apache Spark: In-Memory Data Processing
No ratings yet
Apache Spark: In-Memory Data Processing
187 pages
Distributed Database Systems: - Spark I
No ratings yet
Distributed Database Systems: - Spark I
59 pages
Big Data Assignment
No ratings yet
Big Data Assignment
6 pages
Spark
No ratings yet
Spark
96 pages
C5-SPARK Technology
No ratings yet
C5-SPARK Technology
39 pages
Spark A To Z
No ratings yet
Spark A To Z
63 pages
Unit-V Spark
No ratings yet
Unit-V Spark
69 pages
Introduction to Data Analysis with Spark
No ratings yet
Introduction to Data Analysis with Spark
51 pages
Process Synchronization
No ratings yet
Process Synchronization
72 pages
Comp9313: Big Data Management: Introduction To Mapreduce and Spark
No ratings yet
Comp9313: Big Data Management: Introduction To Mapreduce and Spark
30 pages
SPARK
No ratings yet
SPARK
35 pages
Week 8 - Lecture Notes
No ratings yet
Week 8 - Lecture Notes
75 pages
Introduction To Spark
No ratings yet
Introduction To Spark
54 pages
Spark (Introduction, RDD)
No ratings yet
Spark (Introduction, RDD)
28 pages
BDA Lect5 Apache Spark 2023
No ratings yet
BDA Lect5 Apache Spark 2023
115 pages
bd1718 10 Spark
No ratings yet
bd1718 10 Spark
55 pages
Operating System Tutorial
No ratings yet
Operating System Tutorial
64 pages
Parallel & Vector Processing Guide
No ratings yet
Parallel & Vector Processing Guide
48 pages
MapReduce Scheduling Algorithms Review
No ratings yet
MapReduce Scheduling Algorithms Review
5 pages
Programming Parallelism: by Kelvin Chou
No ratings yet
Programming Parallelism: by Kelvin Chou
27 pages
Java RMI for Developers
No ratings yet
Java RMI for Developers
12 pages
7 Spark
No ratings yet
7 Spark
9 pages
SPARK
No ratings yet
SPARK
66 pages
Concurrency Control Techniques
No ratings yet
Concurrency Control Techniques
14 pages
Lenovo Sync Error Log Analysis
No ratings yet
Lenovo Sync Error Log Analysis
5 pages
Blockchain Syllabus
No ratings yet
Blockchain Syllabus
2 pages
Apache Spark
No ratings yet
Apache Spark
31 pages
OS Lab Manual
No ratings yet
OS Lab Manual
30 pages
Multi Processors
No ratings yet
Multi Processors
15 pages
Operations On Processes
No ratings yet
Operations On Processes
7 pages
CH7 Operating System Concepts
No ratings yet
CH7 Operating System Concepts
9 pages
Inter Process Communication
No ratings yet
Inter Process Communication
25 pages
Chapter 6 Threads
No ratings yet
Chapter 6 Threads
24 pages
Spark Guide for 4th Year Engineering Students
No ratings yet
Spark Guide for 4th Year Engineering Students
241 pages
Unit 2 Studocu
No ratings yet
Unit 2 Studocu
42 pages
Anr 6.42 (64200002) 0
No ratings yet
Anr 6.42 (64200002) 0
10 pages
Introduction To Spark
No ratings yet
Introduction To Spark
30 pages
BDA Lec7
No ratings yet
BDA Lec7
32 pages
Pyspark
No ratings yet
Pyspark
31 pages
Unit 2 QSTN and Answer
No ratings yet
Unit 2 QSTN and Answer
10 pages
Spark Class 1 PPT
No ratings yet
Spark Class 1 PPT
33 pages
4 Spark SBP
No ratings yet
4 Spark SBP
74 pages
Lecture 19-RDD in Spark
No ratings yet
Lecture 19-RDD in Spark
12 pages
ARM Lock Optimization Insights
No ratings yet
ARM Lock Optimization Insights
16 pages
BDA Lec8
No ratings yet
BDA Lec8
39 pages
Cse3002 Big Data m3 Detailed
No ratings yet
Cse3002 Big Data m3 Detailed
39 pages
MODULE V Part 3
No ratings yet
MODULE V Part 3
16 pages
Final - Advanced OS Presentation GroupE
No ratings yet
Final - Advanced OS Presentation GroupE
21 pages
Attributes of A Process
No ratings yet
Attributes of A Process
5 pages
Lec-14 - Notes Os
No ratings yet
Lec-14 - Notes Os
2 pages
Operating Systems Exam Solutions
No ratings yet
Operating Systems Exam Solutions
19 pages
8 Apache Spark
No ratings yet
8 Apache Spark
25 pages
Spark Overview
No ratings yet
Spark Overview
31 pages
Critical Section & Synchronization Guide
No ratings yet
Critical Section & Synchronization Guide
10 pages
Pyspark DataEngineering Power Guide
No ratings yet
Pyspark DataEngineering Power Guide
73 pages
CISD 42 Introduction To Spark - Spark Transformation - Spark Actions
No ratings yet
CISD 42 Introduction To Spark - Spark Transformation - Spark Actions
27 pages
4 Chap Slides - Replication
No ratings yet
4 Chap Slides - Replication
15 pages
@KLWKS - Bot Os Exp - 9 (R) Mode Workbook Answer - Thanos
No ratings yet
@KLWKS - Bot Os Exp - 9 (R) Mode Workbook Answer - Thanos
14 pages
Spark
No ratings yet
Spark
96 pages
Distributed Systems CST-019
No ratings yet
Distributed Systems CST-019
1 page
Spark Class 1
No ratings yet
Spark Class 1
33 pages
Chapter 7 Spark Computing Engine
No ratings yet
Chapter 7 Spark Computing Engine
42 pages
Operating System Os Notes Cs 2nd Year
No ratings yet
Operating System Os Notes Cs 2nd Year
89 pages
Big Data With Spark Detailed Presentation
No ratings yet
Big Data With Spark Detailed Presentation
13 pages
SPARK
No ratings yet
SPARK
47 pages
Big Data With Spark Presentation
No ratings yet
Big Data With Spark Presentation
11 pages
Amdahl's Law: Example 1
No ratings yet
Amdahl's Law: Example 1
12 pages
Day 9
No ratings yet
Day 9
30 pages
Spark RDD WithCode
No ratings yet
Spark RDD WithCode
34 pages

Spark Context, Resilient Distributed Datasets

Uploaded by

Spark Context, Resilient Distributed Datasets

Uploaded by

Preface

Content of this Lecture:

In this lecture, we will discuss the ‘framework of

Big Data Computing Vu Pham Introduction to Spark

It is an another system for big data analytics

Isn’t MapReduce good enough?

Big Data Computing Vu Pham Introduction to Spark

Big Data Computing Vu Pham Introduction to Spark

Expensive save to disk for fault

Big Data Computing Vu Pham Introduction to Spark

Lacks efficient data sharing

Specialized frameworks did evolve for different programming

Big Data Computing Vu Pham Introduction to Spark

Resilient Distributed Datasets (RDDs)

Immutable, partitioned collection of records

Big Data Computing Vu Pham Introduction to Spark

Resilient Distributed Datasets (RDDs)

Immutable, partitioned collection of records

Big Data Computing Vu Pham Introduction to Spark

Big Data Computing Vu Pham Introduction to Spark

Big Data Computing Vu Pham Introduction to Spark

HDFS RDDs track the graph of

Big Data Computing Vu Pham Introduction to Spark

Persistence: Allows you to choose whether you want to

Big Data Computing Vu Pham Introduction to Spark

ii. EM algorithm for traffic prediction

iii. K-means clustering

iv. Alternating Least Squares matrix factorization

v. In-memory OLAP aggregation on Hive data

vi. SQL on Spark

Big Data Computing Vu Pham Introduction to Spark

Matei Zaharia, Mosharaf Chowdhury et al.

Big Data Computing Vu Pham Introduction to Spark

Big Data Computing Vu Pham Introduction to Spark

Big Data Computing Vu Pham Introduction to Spark

Big Data Computing Vu Pham Introduction to Spark

Big Data Computing Vu Pham Introduction to Spark

Big Data Computing Vu Pham Introduction to Spark

Big Data Computing Vu Pham Introduction to Spark

Big Data Computing Vu Pham Introduction to Spark

Big Data Computing Vu Pham Introduction to Spark

Big Data Computing Vu Pham Introduction to Spark

Big Data Computing Vu Pham Introduction to Spark

Facilitate system memory

Compatible with Hadoop

Big Data Computing Vu Pham Introduction to Spark

Resilient Distributed Datasets

Big Data Computing Vu Pham Introduction to Spark

Actions to return value or export data

Big Data Computing Vu Pham Introduction to Spark

Big Data Computing Vu Pham Introduction to Spark

Worker Worker Worker

Block1 Block2 Block3

Big Data Computing Vu Pham Introduction to Spark

Dataset-level view: Partition-level view:

Big Data Computing Vu Pham Introduction to Spark

RDD Objects DAGScheduler TaskScheduler Worker

rdd1.join(rdd2) split graph into launch tasks via execute tasks

Big Data Computing Vu Pham Introduction to Spark

Interactive interpreter: Scala & Python only

Standalone applications: any

Performance: Java & Scala are faster thanks to

Big Data Computing Vu Pham Introduction to Spark

run scala spark interpreter

Big Data Computing Vu Pham Introduction to Spark

download and unpack source code

Big Data Computing Vu Pham Introduction to Spark

Avoid sorting intermediate results on disk or

Speedup computations when reusing datasets

Big Data Computing Vu Pham Introduction to Spark

RDDs (Resilient Distributed Datasets (RDDs) provide

Generalized to a broad set of applications

Leverages coarse-grained nature of parallel

Big Data Computing Vu Pham Introduction to Spark

You might also like