100% found this document useful (1 vote)

146 views100 pages

ScalaJVMBigData SparkLessons PDF

Uploaded by

Abhishek Rastogi

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

100% found this document useful (1 vote)

146 views100 pages

ScalaJVMBigData SparkLessons PDF

Uploaded by

Abhishek Rastogi

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 100

Scala and the JVM for Big Data:

Lessons from Spark

polyglotprogramming.com/talks
[email protected]
@deanwampler

1
©Dean Wampler 2014-2019, All Rights Reserved
Spark

2
A Distributed
Computing Engine
on the JVM
3
Cluster
Node Node Node
RDD
Partition 1 Partition 1 Partition 1

Resilient Distributed
Datasets 4
Productivity?

Very concise, elegant, functional APIs.

•Scala, Java
•Python, R
•... and SQL!
5
Productivity?

Interactive shell (REPL)

•Scala, Python, R, and SQL

6
Notebooks
•Jupyter
•Spark Notebook
•Zeppelin
•Beaker
•Databricks
7
8
Example:
Inverted Index
9
Web Crawl
wikipedia.org/hadoop index
Hadoop provides block
MapReduce and HDFS
... ...
wikipedia.org/hadoop Hadoop provides...

... ... ...

wikipedia.org/hbase block
... ...
HBase stores data in HDFS
wikipedia.org/hbase HBase stores...
... ...
10
l Compute Inverted Index
index inverse index
block block
... ... ... ...

wikipedia.org/hadoop Hadoop provides... hadoop (.../hadoop,1)

... ... hbase (.../hbase,1),(.../hive,1)

hdfs (.../hadoop,1),(.../hbase,1),(..

block hive (.../hive,1)

... ... ... ...

Miracle!!
wikipedia.org/hbase HBase stores...
... ...
block
... ...

block
block
... ...
... ...
wikipedia.org/hive Hive queries...
... ...
block 11
nverted Index
inverse index
block
... ...
hadoop (.../hadoop,1)
hbase (.../hbase,1),(.../hive,1)
hdfs (.../hadoop,1),(.../hbase,1),(.../hive,1)
hive (.../hive,1)
... ...
racle!! 12
import org.apache.spark.SparkContext
import org.apache.spark.SparkContext._

val sparkContext = new SparkContext(master, “Inv. Index”)

sparkContext.textFile("/path/to/input").
map { line =>
val array = line.split(",", 2)
(array(0), array(1)) // (id, content)
}.flatMap {
case (id, content) =>
toWords(content).map(word => ((word,id),1)) // toWords not shown
}.reduceByKey(_ + _).
map {
case ((word,id),n) => (word,(id,n))
}.groupByKey.
mapValues {
seq => sortByCount(seq) // Sort the value seq by count, desc.
}.saveAsTextFile("/path/to/output") 13
import org.apache.spark.SparkContext
import org.apache.spark.SparkContext._

val sparkContext = new

SparkContext(master, “Inv. Index”)
sparkContext.textFile("/path/to/input").
map { line =>
val array = line.split(",", 2)
(array(0), array(1))
}.flatMap {
case (id, contents) =>
14

toWords(contents).map(w => ((w,id),1))

import org.apache.spark.SparkContext
import org.apache.spark.SparkContext._

val sparkContext = new

RDD[String]: .../hadoop, Hadoop provides...
SparkContext(master, “Inv. Index”)
sparkContext.textFile("/path/to/input").
map { line =>
val array = line.split(",", 2)
(array(0), array(1))
}.flatMap {
RDD[(String,String)]: (.../hadoop,Hadoop provides...)
case (id, contents) =>
15

toWords(contents).map(w => ((w,id),1))

val array = line.split(",", 2)
(array(0), array(1))
}.flatMap {
case (id, contents) =>
toWords(contents).map(w => ((w,id),1))
}.reduceByKey(_ + _).
map {
RDD[((String,String),Int)]: ((Hadoop,.../hadoop),20)
case ((word,id),n) => (word,(id,n))
}.groupByKey.
mapValues {
seq => sortByCount(seq)
}.saveAsTextFile("/path/to/output")
16
val array = line.split(",", 2)
(array(0), array(1))
}.flatMap {
case (id, contents) =>
toWords(contents).map(w => ((w,id),1))
}.reduceByKey(_ + _).
map {
case ((word,id),n) => (word,(id,n))
}.groupByKey.
mapValues {
RDD[(String,Iterable((String,Int))]: (Hadoop,seq(.../hadoop,20),...))
seq => sortByCount(seq)
}.saveAsTextFile("/path/to/output")
17
val array = line.split(",", 2)
(array(0), array(1))
}.flatMap {
case (id, contents) =>
toWords(contents).map(w => ((w,id),1))
}.reduceByKey(_ + _).
map {
case ((word,id),n) => (word,(id,n))
RDD[(String,Iterable((String,Int))]: (Hadoop,seq(.../hadoop,20),...))
}.groupByKey.
mapValues {
seq => sortByCount(seq)
}.saveAsTextFile("/path/to/output")
18
Productivity?
textFile

map

Intuitive API: flatMap

•Dataflow of steps. reduceByKey

map

•Inspired by Scala collections groupByKey

and functional programming. map

saveAsTextFile
19
Performance?
textFile

map

Lazy API: flatMap

•Combines steps into “stages”. reduceByKey

map

•Cache intermediate data in groupByKey

memory. map

saveAsTextFile
20
21
Higher-Level
APIs
22
SQL:
Datasets/
DataFrames 23
import org.apache.spark.SparkSession
val spark = SparkSession.builder()
.master("local")
Example
.appName("Queries")
.getOrCreate()

val planes_for_flights1 = sqlContext.sql("""

SELECT * FROM flights f
JOIN planes p ON f.tailNum = p.tailNum LIMIT 100""")

val planes_for_flights2 =
flights.join(planes,
flights("tailNum") ===
planes ("tailNum")).limit(100)
24
import org.apache.spark.SparkSession
val spark = SparkSession.builder()
.master("local")
.appName("Queries")
.getOrCreate()

val flights =
spark.read.parquet(".../flights")
val planes =
spark.read.parquet(".../planes")
flights.createOrReplaceTempView("flights")
planes. createOrReplaceTempView("planes")
flights.cache(); planes.cache()
25
import org.apache.spark.SparkSession
val spark = SparkSession.builder()
.master("local")
.appName("Queries")
.getOrCreate()

val flights =
spark.read.parquet(".../flights")
val planes =
spark.read.parquet(".../planes")
flights.createOrReplaceTempView("flights")
planes. createOrReplaceTempView("planes")
flights.cache(); planes.cache()
26
planes. createOrReplaceTempView("planes")
flights.cache(); planes.cache()

val planes_for_flights1 = sqlContext.sql("""

SELECT * FROM flights f
JOIN planes p ON f.tailNum = p.tailNum
LIMIT 100""")
Returns another
val planes_for_flights2 = Dataset.
flights.join(planes,
flights("tailNum") ===
planes ("tailNum")).limit(100)

27
planes. createOrReplaceTempView("planes")
flights.cache(); planes.cache()

val planes_for_flights1 = sqlContext.sql("""

28
val planes_for_flights2 =
flights.join(planes,
flights("tailNum") ===
planes ("tailNum")).limit(100)

Not an “arbitrary”
anonymous funcRon, but a
“Column” instance.
29
Performance
The Dataset API has the
same performance for all
languages:
Scala, Java,
Python, R,
and SQL! 30
def join(right: Dataset[_], joinExprs: Column): DataFrame = {
def groupBy(cols: Column*): RelationalGroupedDataset = {
def orderBy(sortExprs: Column*): Dataset[T] = {
def select(cols: Column*): Dataset[...] = {
def where(condition: Column): Dataset[T] = {
def limit(n: Int): Dataset[T] = {
def intersect(other: Dataset[T]): Dataset[T] = {
def sample(withReplacement: Boolean, fraction, seed) = {
def drop(col: Column): DataFrame = {
def map[U](f: T => U): Dataset[U] = {
def flatMap[U](f: T => Traversable[U]): Dataset[U] ={
def foreach(f: T => Unit): Unit = {
def take(n: Int): Array[Row] = {
def count(): Long = {
def distinct(): Dataset[T] = {
def agg(exprs: Map[String, String]): DataFrame = {
31
32
Structured
Streaming
33
DStream (discretized stream)
Event

Event

…
… …

Time 1 RDD Time 2 RDD Time 3 RDD Time 4 RDD …

Window of 3 RDD Batches #1

Window of 3 RDD Batches #2

34
ML/MLlib
K-Means

•Machine Learning requires:

•Iterative training of models.
•Good linear algebra perf.
GraphX
PageRank

•Graph algorithms require:

•Incremental traversal.
•Eﬃcient edge and node reps.
Foundation:

The JVM 39
20 Years of
DevOps

Lots of Java Devs 40

Tools and Libraries
Akka
Breeze
Algebird
Spire & Cats
Axle
...
41
Big Data Ecosystem

42
But it’s

not perfect...
43
Richer data libs.
in Python & R 44
Garbage
Collection

45
GC Challenges
•Typical Spark heaps: 10s-100s GB.
•Uncommon for “generic”, non-data
services.

46
GC Challenges
•Too many cached RDDs leads to huge
old generation garbage.
•Billions of objects => long GC pauses.

47
Tuning GC
•Best for Spark:
•-XX:UseG1GC -XX:-ResizePLAB -
Xms... -Xmx... -
XX:InitiatingHeapOccupancyPerce
nt=... -XX:ConcGCThread=...
databricks.com/blog/2015/05/28/tuning-java-garbage-collection-for-spark-
applications.html 48
JVM Object Model

49
Java Objects?
•“abcd”: 4 bytes for raw UTF8, right?
•48 bytes for the Java object:
•12 byte header.
•8 bytes for hash code.
•20 bytes for array overhead.
•8 bytes for UTF16 chars. 50
val myArray: Array[String]
0 1 2 3

“second”

“first”

“third”

Arrays “zeroth”
51
val person: Person

name: String
“Buck Trends”
age: Int 29
addr: Address

… …

Class Instances
52
Hash Map

h/c1
key value … …
h/c2
h/c3 “a value”
h/c4
“a key”

Hash Maps
53
Improving Performance

Why obsess about this?

Spark jobs are CPU bound:
•Improve network I/O? ~2% better.
•Improve disk I/O? ~20% better. 54
What changed?

•Faster HW (compared to ~2000)

•10Gbs networks
•SSDs.
55
What changed?

•Smarter use of I/O

•Pruning unneeded data sooner.
•Caching more eﬀectively.
•Eﬃcient formats, like Parquet. 56
What changed?

•But more CPU use today:

•More Serialization.
•More Compression.
•More Hashing (joins, group-bys). 57
Improving Performance

To improve performance, we need to

focus on the CPU, the:
•Better algorithms, sure.
•And optimize use of memory. 58
Project Tungsten

Initiative to greatly improve

Dataset/DataFrame performance.59
Goals

60
Reduce References
val myArray: Array[String]
val person: Person 0 1 2 3

“second”
name: String
“Buck Trends”
age: Int 29 “first”
addr: Address
“third”
… …
Hash Map “zeroth”

h/c1
key value … …
h/c2
h/c3 “a value”
h/c4
“a key” 61
Reduce References
•Fewer, bigger objects to GC.
•Fewer cache misses
val myArray: Array[String]
val person: Person 0 1 2 3

“second”
name: String
“Buck Trends”
age: Int 29 “first”
addr: Address
“third”
… …
Hash Map “zeroth”

h/c1
key value … …
h/c2
h/c3 “a value”
h/c4 62
“a key”
Less Expression Overhead
sql("SELECT a + b FROM table")

•Evaluating expressions billions of

times:
•Virtual function calls.
•Boxing/unboxing.
•Branching (if statements, etc.) 63
Implementation

64
Object Encoding
New CompactRow type:
null bit set (1bit/field) values (8bytes/field) variable length

oﬀset to var. len. data

•Compute hashCode and equals on

raw bytes. 65
val person: Person

name: String

•Compare: age: Int

addr: Address
29
“Buck Trends”

… …

null bit set (1bit/field) values (8bytes/field) variable length

oﬀset to var. len. data

66
•BytesToBytesMap:
h/c1
Tungsten Memory Page
h/c2
k1 v1 k2 v2
h/c3
k3 v3 k4 v4
h/c4
…

67
Hash Map

h/c1
key value … …
h/c2
•Compare h/c3 “a value”
h/c4
“a key”

h/c1
Tungsten Memory Page
h/c2
k1 v1 k2 v2
h/c3
k3 v3 k4 v4
h/c4
…
68
Memory Management
•Some allocations oﬀ heap.
•sun.misc.Unsafe.

69
Less Expression Overhead
sql("SELECT a + b FROM table")

•Solution:
•Generate custom byte code.
•Spark 1.X - for subexpressions.
70
Less Expression Overhead
sql("SELECT a + b FROM table")

•Solution:
•Generate custom byte code.
•Spark 1.X - for subexpressions.
•Spark 2.0 - for whole queries.
71
72
No Value Types

(Planned for Java 9 or 10)

73
case class Timestamp(epochMillis: Long) {

def toString: String = { ... }

def add(delta: TimeDelta): Timestamp = {

/* return new shifted time */
}
Don’t allocate on the heap;
... just push the primiRve long
} on the stack.
(scalac does this now.)
74
Long operations
aren’t atomic
According to the
JVM spec
75
No Unsigned Types

What’s
factorial(-1)?
76
Arrays Indexed
with Ints
Byte Arrays
limited to 2GB!
77
scala> val N = 1100*1000*1000
N2: Int = 1100000000 // 1.1 billion

scala> val array = Array.fill[Short](N)(0)

array: Array[Short] = Array(0, 0, ...)

scala> import
org.apache.spark.util.SizeEstimator

scala> SizeEstimator.estimate(array)
res3: Long = 2200000016 // 2.2GB
78
scala> val b = sc.broadcast(array)
...broadcast.Broadcast[Array[Short]] = ...

scala> SizeEstimator.estimate(b)
res0: Long = 2368

scala> sc.parallelize(0 until 100000).

| map(i => b.value(i))

79
scala> SizeEstimator.estimate(b)
res0: Long = 2368

scala> sc.parallelize(0 until 100000).

| map(i => b.value(i))

java.lang.OutOfMemoryError:
Boom!
Requested array size exceeds VM limit

at java.util.Arrays.copyOf(...)
...
80
But wait...
I actually lied
to you...
81
Spark handles large
broadcast variables
by breaking them
into blocks. 82
Scala
REPL83
java.lang.OutOfMemoryError:
Requested array size exceeds VM limit

at java.util.Arrays.copyOf(...)
...
at java.io.ByteArrayOutputStream.write(...)
...
at java.io.ObjectOutputStream.writeObject(...)
at ...spark.serializer.JavaSerializationStream
.writeObject(...)
...
at ...spark.util.ClosureCleaner$.ensureSerializable(..)
...
at org.apache.spark.rdd.RDD.map(...)

84
java.lang.OutOfMemoryError:
Requested array size exceeds VM limit

at java.util.Arrays.copyOf(...)
...
at java.io.ByteArrayOutputStream.write(...)
...
Pass this closure to
at java.io.ObjectOutputStream.writeObject(...)
at ...spark.serializer.JavaSerializationStream
.writeObject(...) RDD.map:
... i => b.value(i)
at ...spark.util.ClosureCleaner$.ensureSerializable(..)
...
at org.apache.spark.rdd.RDD.map(...)

85
java.lang.OutOfMemoryError:
Requested array size exceeds VM limit

at java.util.Arrays.copyOf(...)
...
Verify that it’s
at java.io.ByteArrayOutputStream.write(...)
...
“clean” (serializable).
at java.io.ObjectOutputStream.writeObject(...)
at ...spark.serializer.JavaSerializationStream
i => b.value(i)
.writeObject(...)
...
at ...spark.util.ClosureCleaner$.ensureSerializable(..)
...
at org.apache.spark.rdd.RDD.map(...)

86
java.lang.OutOfMemoryError:
Requested array size exceeds VM limit

at java.util.Arrays.copyOf(...)
...
at java.io.ByteArrayOutputStream.write(...)
...
at java.io.ObjectOutputStream.writeObject(...)
at ...spark.serializer.JavaSerializationStream
.writeObject(...)
...
...which it does by
at ...spark.util.ClosureCleaner$.ensureSerializable(..)
...
serializing to a byte array...
at org.apache.spark.rdd.RDD.map(...)

87
java.lang.OutOfMemoryError:
Requested array size exceeds VM limit

at java.util.Arrays.copyOf(...)
...
...which requires copying
at java.io.ByteArrayOutputStream.write(...)
...
an array...
at java.io.ObjectOutputStream.writeObject(...)
at ...spark.serializer.JavaSerializationStream
.writeObject(...) What array???
...
i => b.value(i)
at ...spark.util.ClosureCleaner$.ensureSerializable(..)
...
...
at org.apache.spark.rdd.RDD.map(...)
scala> val array = Array.fill[Short](N)(0)
... 88
Why did this
happen?
89
•You write:
scala> val array = Array.fill[Short](N)(0)
scala> val b = sc.broadcast(array)
scala> sc.parallelize(0 until 100000).
| map(i => b.value(i))

90
scala> val array = Array.fill[Short](N)(0)
scala> val b = sc.broadcast(array)
scala> sc.parallelize(0 until 100000).
| map(i => b.value(i))
•Scala compiles:
class $iwC extends Serializable {
val array = Array.fill[Short](N)(0)
val b = sc.broadcast(array)

class $iwC extends Serializable {

sc.parallelize(...).map(i => b.value(i))
}
} 91
scala> val array = Array.fill[Short](N)(0)
scala> val b = sc.broadcast(array)
scala> sc.parallelize(0 until 100000).
| map(i => b.value(i))
•Scala compiles: ... sucks in the whole object!
class $iwC extends Serializable {
val array = Array.fill[Short](N)(0)
val b = sc.broadcast(array)
So, this closure over “b”...
class $iwC extends Serializable {
sc.parallelize(...).map(i => b.value(i))
}
} 92
Lightbend is
investigating
re-engineering
the REPL 93
Workarounds...

94
•Transient is often all you need:
scala> @transient val array =
| Array.fill[Short](N)(0)
scala> ...

95
object Data { // Encapsulate in objects!
val N = 1100*1000*1000
val array = Array.fill[Short](N)(0)
val getB = sc.broadcast(array)
}
object Work {
def run(): Unit = {
val b = Data.getB // local ref!
val rdd = sc.parallelize(...).
map(i => b.value(i)) // only needs b
rdd.take(10).foreach(println)
}} 96
Why Scala?
See the longer version
of this talk at
polyglotprogramming.com/talks 97
polyglotprogramming.com/talks
lightbend.com/fast-data-platform
[email protected]
@deanwampler

Questions?
Bonus Material
You can find an extended version of this
talk with more details at
polyglotprogramming.com/talks

100

Spark QA
No ratings yet
Spark QA
34 pages
SPARK
No ratings yet
SPARK
27 pages
Big Data With Apache Spark 3 and Python From Zero To Expert
No ratings yet
Big Data With Apache Spark 3 and Python From Zero To Expert
28 pages
BD Problem Solving - I
No ratings yet
BD Problem Solving - I
2 pages
GCP Pde Notes
No ratings yet
GCP Pde Notes
147 pages
Snowflake Architecture Guide
No ratings yet
Snowflake Architecture Guide
18 pages
Understanding Apache Spark Architecture
No ratings yet
Understanding Apache Spark Architecture
30 pages
DVS SPARK Course Content PDF
No ratings yet
DVS SPARK Course Content PDF
2 pages
CQF
No ratings yet
CQF
29 pages
Apache Spark 101 For Data Engineering
No ratings yet
Apache Spark 101 For Data Engineering
15 pages
(Ebook PDF) Internet of Things and Data Analytics Handbook PDF Download
100% (5)
(Ebook PDF) Internet of Things and Data Analytics Handbook PDF Download
57 pages
Databricks Vs SQL Cheat Sheet
100% (1)
Databricks Vs SQL Cheat Sheet
11 pages
Spark Training in Bangalore
No ratings yet
Spark Training in Bangalore
36 pages
Spark in Production
No ratings yet
Spark in Production
34 pages
Flink Vs Spark by Slim Baltagi
No ratings yet
Flink Vs Spark by Slim Baltagi
67 pages
Deepshikha Agrawal Pushp B.Sc. (IT), MBA (IT) Certification-Hadoop, Spark, Scala, Python, Tableau, ML (Assistant Professor JLBS)
No ratings yet
Deepshikha Agrawal Pushp B.Sc. (IT), MBA (IT) Certification-Hadoop, Spark, Scala, Python, Tableau, ML (Assistant Professor JLBS)
74 pages
Scala Reference
No ratings yet
Scala Reference
6 pages
03 DevOps Automation
No ratings yet
03 DevOps Automation
26 pages
Scala Programming Essentials
100% (2)
Scala Programming Essentials
2 pages
Big Data Analytics
No ratings yet
Big Data Analytics
134 pages
Spark Big Data Tuning Guide
100% (1)
Spark Big Data Tuning Guide
20 pages
03 Prep For PCA - Designing and Implementing v1.2
100% (1)
03 Prep For PCA - Designing and Implementing v1.2
100 pages
2 Hadoop (Uploaded)
No ratings yet
2 Hadoop (Uploaded)
82 pages
Vinith Siripuram Data Engineer
No ratings yet
Vinith Siripuram Data Engineer
5 pages
Top Data Science & Python Resources
No ratings yet
Top Data Science & Python Resources
4 pages
Ambari Operations
No ratings yet
Ambari Operations
194 pages
Amazon EMR Security: © 2018, Amazon Web Services, Inc. or Its Affiliates. All Rights Reserved
No ratings yet
Amazon EMR Security: © 2018, Amazon Web Services, Inc. or Its Affiliates. All Rights Reserved
16 pages
Hadoop Basics for Engineering Students
No ratings yet
Hadoop Basics for Engineering Students
18 pages
01 Prep For PCA - Understanding The Certification v1.2
100% (1)
01 Prep For PCA - Understanding The Certification v1.2
13 pages
Handbook of Systems Engineering and Risk Management in Control Systems, Communication, Space Technology, Missile, Security and Defense Operations 1st Edition Anna M. Doro-On - The ebook is available for instant download, no waiting required
100% (1)
Handbook of Systems Engineering and Risk Management in Control Systems, Communication, Space Technology, Missile, Security and Defense Operations 1st Edition Anna M. Doro-On - The ebook is available for instant download, no waiting required
72 pages
Devinder Gill - DE - Resume
No ratings yet
Devinder Gill - DE - Resume
5 pages
Spark Use Cases
No ratings yet
Spark Use Cases
2 pages
BDA Unit - II
No ratings yet
BDA Unit - II
66 pages
Hadoop Security for IT Professionals
No ratings yet
Hadoop Security for IT Professionals
27 pages
Big Data Analytics 2016th Edition Radha Shankarmani 2024 Scribd Download
No ratings yet
Big Data Analytics 2016th Edition Radha Shankarmani 2024 Scribd Download
72 pages
Course Schedule - LeetCode
No ratings yet
Course Schedule - LeetCode
1 page
BigData Hadoop Notes
No ratings yet
BigData Hadoop Notes
101 pages
04 Choosing Storage Solutions
No ratings yet
04 Choosing Storage Solutions
29 pages
Hive Cheat Sheet - Quick Reference
No ratings yet
Hive Cheat Sheet - Quick Reference
19 pages
203report On Asset Quality (RAQ)
No ratings yet
203report On Asset Quality (RAQ)
98 pages
Matrix Multiplication of Big Data Using
No ratings yet
Matrix Multiplication of Big Data Using
6 pages
07 - Ingesting New Datasets Into Google BigQuery
No ratings yet
07 - Ingesting New Datasets Into Google BigQuery
8 pages
Unstructured Dataload Into Hive Database Through PySpark
No ratings yet
Unstructured Dataload Into Hive Database Through PySpark
9 pages
Spark Repartition1
No ratings yet
Spark Repartition1
7 pages
Matillion Optimizing Snowflake
No ratings yet
Matillion Optimizing Snowflake
23 pages
Complete Guide To Spark Memory Management 1726709042
No ratings yet
Complete Guide To Spark Memory Management 1726709042
11 pages
02 Prep For PCA - Sample Case Studies v1.2
No ratings yet
02 Prep For PCA - Sample Case Studies v1.2
21 pages
Paramount e Brochure
No ratings yet
Paramount e Brochure
15 pages
BigQuery Pricing Guide
No ratings yet
BigQuery Pricing Guide
18 pages
Installing and Using Impala
No ratings yet
Installing and Using Impala
248 pages
Bigdata Engineer PDF
No ratings yet
Bigdata Engineer PDF
3 pages
JD - Liquidity Risk ALM and FTP
No ratings yet
JD - Liquidity Risk ALM and FTP
2 pages
Biodata For Marriage
No ratings yet
Biodata For Marriage
1 page
Hadoop Data Manipulation Guide
No ratings yet
Hadoop Data Manipulation Guide
3 pages
Data Engineering & GCP Basic Services 2. Data Storage in GCP 3. Database Offering by GCP 4. Data Processing in GCP 5. ML/AI Offering in GCP
No ratings yet
Data Engineering & GCP Basic Services 2. Data Storage in GCP 3. Database Offering by GCP 4. Data Processing in GCP 5. ML/AI Offering in GCP
3 pages
Data Stream Processing Insights
No ratings yet
Data Stream Processing Insights
67 pages
Spark
No ratings yet
Spark
13 pages
Apache Spark Theory by Arsh
No ratings yet
Apache Spark Theory by Arsh
4 pages
Scala Interview Prep Guide
No ratings yet
Scala Interview Prep Guide
21 pages
Professional Data Engineer Sample Questions
No ratings yet
Professional Data Engineer Sample Questions
29 pages
Hadoop Cluster Setup
No ratings yet
Hadoop Cluster Setup
10 pages
Big Data Hadoop Training Certification 7
No ratings yet
Big Data Hadoop Training Certification 7
40 pages
Apache Spark Essential Training
No ratings yet
Apache Spark Essential Training
30 pages
GCP Cheat Sheet for Cloud Management
No ratings yet
GCP Cheat Sheet for Cloud Management
3 pages
1529321885092
No ratings yet
1529321885092
9 pages
Cloud Dataproc Workflow Animation
No ratings yet
Cloud Dataproc Workflow Animation
2 pages
Apache Hive
No ratings yet
Apache Hive
3 pages
BD - Spark - Baladasu A - SightSpectrum
No ratings yet
BD - Spark - Baladasu A - SightSpectrum
3 pages
Midhun BIGDATA Curicullum
No ratings yet
Midhun BIGDATA Curicullum
17 pages
1912204-Big Data Analytics
No ratings yet
1912204-Big Data Analytics
13 pages
Dsbda Lab Manual
No ratings yet
Dsbda Lab Manual
167 pages
05.azure Data Lake Authentication
No ratings yet
05.azure Data Lake Authentication
16 pages
CV Abhishek Kumar Rastogi
No ratings yet
CV Abhishek Kumar Rastogi
3 pages
Hadoop Questions
No ratings yet
Hadoop Questions
41 pages
Apache Spark RDD API Examples
No ratings yet
Apache Spark RDD API Examples
38 pages
DIH 1011 AdministratorGuide en
No ratings yet
DIH 1011 AdministratorGuide en
114 pages
Apache Kafka Course Curriculum
No ratings yet
Apache Kafka Course Curriculum
5 pages
Databricks Spark Reference Applications
No ratings yet
Databricks Spark Reference Applications
37 pages
Learning Apache Spark With Python
No ratings yet
Learning Apache Spark With Python
10 pages
Unit 3
No ratings yet
Unit 3
10 pages
MapReduce Daemons
No ratings yet
MapReduce Daemons
21 pages
Google Data Engineer Certification Guide
No ratings yet
Google Data Engineer Certification Guide
4 pages
Splunk and MapReduce
No ratings yet
Splunk and MapReduce
8 pages
04 Bigdata Hive
No ratings yet
04 Bigdata Hive
22 pages
Interdisciplinary Minor With Codes
No ratings yet
Interdisciplinary Minor With Codes
89 pages
Hadoop Unit III DR David
No ratings yet
Hadoop Unit III DR David
12 pages
BDA Question Answer
No ratings yet
BDA Question Answer
29 pages
Market Risk JD Kotak
No ratings yet
Market Risk JD Kotak
1 page
Empowering MSMEs with MUDRA
No ratings yet
Empowering MSMEs with MUDRA
20 pages
Berkeley Data Analytics Stack (BDAS) Overview: Ion Stoica UC Berkeley
No ratings yet
Berkeley Data Analytics Stack (BDAS) Overview: Ion Stoica UC Berkeley
28 pages
BDAT 1002 - Data Systems Architecture
No ratings yet
BDAT 1002 - Data Systems Architecture
2 pages
Distributed File Systems For Collaborative Data Access and Scalability
No ratings yet
Distributed File Systems For Collaborative Data Access and Scalability
8 pages
JD - Fmas
No ratings yet
JD - Fmas
3 pages
Ibm Biginsights For Data Scientists
No ratings yet
Ibm Biginsights For Data Scientists
26 pages
Mastering Apache Spark - Sample Chapter
No ratings yet
Mastering Apache Spark - Sample Chapter
24 pages
Returns To Be Submitted To RBI
No ratings yet
Returns To Be Submitted To RBI
106 pages
Arista Storage Networking Whitepaper 10GBPS Networks
No ratings yet
Arista Storage Networking Whitepaper 10GBPS Networks
7 pages
74Sector-Wise and Industry-Wise Deployment of Bank Credit (SIBC)
No ratings yet
74Sector-Wise and Industry-Wise Deployment of Bank Credit (SIBC)
3 pages
Experiment 01 PDF
No ratings yet
Experiment 01 PDF
6 pages
Big Data, Hadoop
No ratings yet
Big Data, Hadoop
24 pages
Suzlon
No ratings yet
Suzlon
7 pages
Financial Reporting: Status Report - 19-09-2019
No ratings yet
Financial Reporting: Status Report - 19-09-2019
8 pages
Git Book
No ratings yet
Git Book
9 pages
83stress Test
No ratings yet
83stress Test
9 pages
Interest Rate Sensitivity Report
No ratings yet
Interest Rate Sensitivity Report
10 pages
Pip Upgrade
No ratings yet
Pip Upgrade
62 pages
Pending Work Items
No ratings yet
Pending Work Items
38 pages

ScalaJVMBigData SparkLessons PDF

Uploaded by

ScalaJVMBigData SparkLessons PDF

Uploaded by

Scala and the JVM for Big Data:

Lessons from Spark

Very concise, elegant, functional APIs.

Interactive shell (REPL)

... ... ...

wikipedia.org/hadoop Hadoop provides... hadoop (.../hadoop,1)

... ... hbase (.../hbase,1),(.../hive,1)

block hive (.../hive,1)

... ... ... ...

val sparkContext = new SparkContext(master, “Inv. Index”)

val sparkContext = new

toWords(contents).map(w => ((w,id),1))

val sparkContext = new

toWords(contents).map(w => ((w,id),1))

Intuitive API: flatMap

•Dataflow of steps. reduceByKey

•Inspired by Scala collections groupByKey

and functional programming. map

Lazy API: flatMap

•Combines steps into “stages”. reduceByKey

•Cache intermediate data in groupByKey

val planes_for_flights1 = sqlContext.sql("""

val planes_for_flights1 = sqlContext.sql("""

val planes_for_flights1 = sqlContext.sql("""

Time 1 RDD Time 2 RDD Time 3 RDD Time 4 RDD …

Window of 3 RDD Batches #1

Window of 3 RDD Batches #2

•Machine Learning requires:

•Graph algorithms require:

Lots of Java Devs 40

Why obsess about this?

•Faster HW (compared to ~2000)

•Smarter use of I/O

•But more CPU use today:

To improve performance, we need to

Initiative to greatly improve

•Evaluating expressions billions of

oﬀset to var. len. data

•Compute hashCode and equals on

•Compare: age: Int

null bit set (1bit/field) values (8bytes/field) variable length

oﬀset to var. len. data

(Planned for Java 9 or 10)

def toString: String = { ... }

def add(delta: TimeDelta): Timestamp = {

scala> val array = Array.fill[Short](N)(0)

scala> sc.parallelize(0 until 100000).

scala> sc.parallelize(0 until 100000).

class $iwC extends Serializable {

You might also like