0% found this document useful (0 votes)

65 views10 pages

Spark Structured API Solutions

This document contains solutions to 3 assignments using Apache Spark structured APIs: 1) The first assignment calculates employee counts by department by joining employee and department dataframes. 2) The second assignment finds top movies by joining ratings and movies dataframes using a broadcast join. 3) The third assignment finds the batsman from the 2019 World Cup with the highest career batting average by joining cricket statistics and World Cup player dataframes using a broadcast join.

Uploaded by

Arnab Dey

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

65 views10 pages

Spark Structured API Solutions

Uploaded by

Arnab Dey

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 10

A

Assignment Solution
Week12: Apache Spark - Structured API
Part-2
1
Spark StructuredAPIs -Assignment Solutions

Assignment 1 :

Given 2 Datasets employee.json and dept.json

We need to calculate the count of employees against each department. Use Structured
APIs.

Code:

//Find the count of employees against each department

import org.apache.spark.SparkConf
import org.apache.spark.sql.SparkSession
import org.apache.log4j.Level
import org.apache.log4j.Logger
import org.apache.spark.sql.functions._

object Assignment1_Week12 extends App{

//Setting the Log Level

Logger.getLogger("org").setLevel(Level.ERROR)

//Setting the spark conf

val sparkConf = new SparkConf()
sparkConf.set("spark.app.name","Assignment1_Week12")
sparkConf.set("spark.master","local[2]")

//Creating Spark Session

val spark = SparkSession.builder()
.config(sparkConf)
.getOrCreate()

//Load the department data into a Dataframe using dataframe reader API

val deptDf = spark.read

.format("json")
.option("path","C:/TrendyTech/SparkExamples/dept.json")
.load()

// deptDf.show()
// deptDf.printSchema()
2
//Load the employee data into a Dataframe using dataframe reader API

val employeeDf = spark.read

.format("json")
.option("path","C:/TrendyTech/SparkExamples/employee.json")
.load()

// employeeDf.show()
// employeeDf.printSchema()

//Joining of two dataframes using left outer join, with department dataframe on left
side

val joinCondition = deptDf.col("deptid") === employeeDf.col("deptid")//join

condition

val joinType = "left" //joinType

val joinedDf = deptDf.join(employeeDf, joinCondition, joinType) //Joining of two

dataframes

//drop the ambiguous column deptid of employee dataframe,from the joined

Dataframe

val joinedDfNew = joinedDf.drop(employeeDf.col("deptid"))

//Use first function so as to get other columns also along with aggregated columns

joinedDfNew.groupBy("deptid").agg(count("empname").as("empcount"),first("deptNam
e").as ("deptName")).dropDuplicates("deptName").show()

spark.stop()
}

Output:

Assignment 2
3

Find the top movies as shown in spark practical 18 using broadcast join. Use
Dataframes or Datasets to solve it this time.

Code:

import org.apache.spark.SparkConf
import org.apache.spark.sql.SparkSession
import org.apache.log4j.Level
import org.apache.log4j.Logger
import org.apache.spark.sql.functions._

object Assignment2_Week12 extends App {

//Setting the Log Level

Logger.getLogger("org").setLevel(Level.ERROR)

//Setting the spark conf

val sparkConf = new SparkConf()
sparkConf.set("spark.app.name","Assignment2_Week12")
sparkConf.set("spark.master","local[2]")

//Creating Spark Session

val spark = SparkSession.builder()
.config(sparkConf)
.getOrCreate()

//Creation of a ratings dataframe using a case class approach

case class Ratings(userid:Int,movieid:Int,rating:Int,timestamp:String)//create a

case-class that represents the schema

//Creation of base RDD for ratings data

val ratingsRDD =
spark.sparkContext.textFile("C:/TrendyTech/SparkExamples/ratings.dat")//ratings data
does not have a schema, so first loading to an RDD

// map the RDD elements into instances of the case class

val caseClassSchemaRDD = ratingsRDD.map(x => x.split("::")).map(x =>

Ratings(x(0).toInt,x(1).toInt,x(2).toInt,x(3)) )
4

//Transform to a Dataframe:

import spark.implicits._

val ratingsDf = caseClassSchemaRDD.toDF()

// ratingsDf.show()
// ratingsDf.printSchema()

//Creation of base RDD for movies data

val moviesRDD =
spark.sparkContext.textFile("C:/TrendyTech/SparkExamples/movies.dat")

//defining the schema using case class

case class Movies(movieid:Int,moviename:String,genre:String)

val moviestransformedRDD = moviesRDD.map(line => line.split("::")).map(fields =>

Movies(fields(0).toInt,fields(1),fields(2)) )

val moviesNewDf =
moviestransformedRDD.toDF().select("movieid","moviename")

// moviesNewDf.show()
//moviesNewDf.printSchema()

val transformedmovieDf = ratingsDf.groupBy("movieid")

.agg(count("rating").as("movieViewCount"),avg("rating").as("avgMovieRating"))
.orderBy(desc("movieViewCount"))

//transformedmovieDf.show()

val popularMoviesDf = transformedmovieDf.filter("movieViewCount > 1000 AND

avgMovieRating > 4.5")

// popularMoviesDf.show()
5

//Now we want to associate the Movie names also, so we use a broadcast join

spark.sql("SET spark.sql.autoBroadcastJoinThreshold = -1")

val joinCondition = popularMoviesDf.col("movieid") ===

moviesNewDf.col("movieid") //join condition

val joinType = "inner" //type of

join

val finalPopularMoviesDf =
popularMoviesDf.join(broadcast(moviesNewDf),joinCondition,joinType).drop(popularM
oviesDf.col("movieid")).sort(desc("avgMovieRating")) //joining the 2 dataframes using
broadcast join where movies data is the smaller dataset

finalPopularMoviesDf.drop("movieViewCount","movieid","avgMovieRating").show(false
)

spark.stop()

Output:

Assignment 3

File A is a text file of size 1.2 GB in HDFS at location /loc/x. It contains match by match
statistics of runs scored by all the batsman in the history of cricket.
File B is a text file of size 1.2 MB present in local dir /loc/y. It contains list of batsman
playing in cricket world cup 2019.
6
File A:
1 Rohit_Sharma India 200 100.2
1 Virat_Kohli India 100 98.02
1 Steven_Smith Aus 77 79.23
35 Clive_Lloyd WI 29 37.00
243 Rohit_Sharma India 23 150.00
243 Faf_du_Plesis SA 17 35.06
File B:
Rohit_Sharma India
Steven_Smith Aus
Virat_Kohli India

Find the batsman participating in 2019 who has the best average of scoring runs in his
career. Solve this using Dataframes or Datasets.

** File is tab separated.Headers not part of file

Code:

import org.apache.spark.SparkConf
import org.apache.spark.sql.SparkSession
import org.apache.log4j.Level
import org.apache.log4j.Logger
import org.apache.spark.sql.functions._
import org.apache.spark.sql.types.StructType
import org.apache.spark.sql.types.StringType
import org.apache.spark.sql.types.StructField
import org.apache.spark.sql.Row

object Assignment3_Week12 extends App {

//Setting the Log Level

Logger.getLogger("org").setLevel(Level.ERROR)

//Setting the spark conf

val sparkConf = new SparkConf()
sparkConf.set("spark.app.name","Assignment3_Week12")
sparkConf.set("spark.master","local[2]")

//Creating Spark Session

val spark = SparkSession.builder()
.config(sparkConf)
.getOrCreate()
7
//Case class creation

case class BatsmenHistory(MatchNumber:Int,Batsman:String,Team:String,

RunsScored:Int,StrikeRate:Double)

//Creation of base RDD for historical data

val batsmenHistoryRDD =
spark.sparkContext.textFile("C:/TrendyTech/SparkExamples/FileA_BatsmenDetails_Histo
ry.txt")

val batsmenHistorySchemaRDD = batsmenHistoryRDD.map(line =>

line.split("\t")).map(fields =>
BatsmenHistory(fields(0).toInt,fields(1),fields(2),fields(3).toInt,fields(4).toDouble) )

// Dataframe creation

import spark.implicits._

val batsmenHistoryDf = batsmenHistorySchemaRDD.toDF()

//batsmenHistoryDf.show()

//batsmenHistoryDf.printSchema()

//Calculating Average runs scored by a batsman in history, with highest average at top

val batsmenBestRunsAvgHistoryDf =
batsmenHistoryDf.groupBy("Batsman").agg(avg("RunsScored").as("AverageRunsScored"))
.select("Batsman","AverageRunsScored")

//batsmenBestRunsAvgHistoryDf.sort(col("AverageRunsScored").desc).show()

//create a base RDD from input data of worldcup

val batsmenWorldCupRDD =
spark.sparkContext.textFile("C:/TrendyTech/SparkExamples/FileB_BatsemenDetails_Wor
ldcup2019.txt")

//Alternative Approach instead of using case class ,though case class can also be used
instead-
8
//Programmatically create an explicit schema of the worldcup 2019 file:

val batsmenworldcupSchema = StructType(List(

StructField("batsman",StringType,false),
StructField("team",StringType)
))

//Convert RDD[Array(String)] to RDD[Row].

val batsmenWorldCupRowRDD = batsmenWorldCupRDD.map(line =>

line.split("\t")).map( fields => Row(fields(0),fields(1)))

//Apply the explicitly defined Struct Type schema to the RDD[Row]

val batsmenWorldCupDf = spark.createDataFrame(batsmenWorldCupRowRDD,

batsmenworldcupSchema)

batsmenWorldCupDf.show()
batsmenWorldCupDf.printSchema()

//autoBroadcast Join is turned off

spark.sql("SET spark.sql.autoBroadcastJoinThreshold = -1")

val joinCondition = batsmenBestRunsAvgHistoryDf.col("Batsman") ===

batsmenWorldCupDf.col("batsman")

val joinType = "inner"

//Using broadcast join

val finalBestBatsmenPlayingWorldCupDf =
batsmenBestRunsAvgHistoryDf.join(broadcast(batsmenWorldCupDf),joinCondition,joinT
ype).drop (batsmenBestRunsAvgHistoryDf.col("Batsman"))

finalBestBatsmenPlayingWorldCupDf.orderBy(desc("AverageRunsScored")).show()

spark.stop()

Output:
+-----------------+------------+
|AverageRunsScored| batsman|
9

+-----------------+------------+
| 111.5|Rohit_Sharma|
| 100.0| Virat_Kohli|
| 77.0|Steven_Smith|
+-----------------+------------+

**********************************************************************

Data Structures and Algorithm Analysis in C 4th Edition by Mark Weiss 013284737X 9780132847377 Full Chapters Included
No ratings yet
Data Structures and Algorithm Analysis in C 4th Edition by Mark Weiss 013284737X 9780132847377 Full Chapters Included
108 pages
Pyspark Hands On
No ratings yet
Pyspark Hands On
189 pages
Blinkit Customer Satisfaction Report
100% (1)
Blinkit Customer Satisfaction Report
43 pages
Final Scheme - Test3-BDA-2025
No ratings yet
Final Scheme - Test3-BDA-2025
6 pages
PySpark DataFrame Merging Guide
No ratings yet
PySpark DataFrame Merging Guide
42 pages
07 Structured Data Processing
No ratings yet
07 Structured Data Processing
91 pages
Pyspark SQL Basics Cheat Sheet: Python For Data Science
No ratings yet
Pyspark SQL Basics Cheat Sheet: Python For Data Science
1 page
Solutions 1742312993
No ratings yet
Solutions 1742312993
14 pages
Esko-Interview-experience H C Srihari
No ratings yet
Esko-Interview-experience H C Srihari
7 pages
Basic DataFrame Operation
No ratings yet
Basic DataFrame Operation
11 pages
GATE 2026 Study Plan With Mocks and Revision
No ratings yet
GATE 2026 Study Plan With Mocks and Revision
2 pages
Unit 4 Spark SQL
No ratings yet
Unit 4 Spark SQL
49 pages
Apache Spark Exercise List
No ratings yet
Apache Spark Exercise List
6 pages
PySpark Cheatsheet - Elaborate
No ratings yet
PySpark Cheatsheet - Elaborate
14 pages
Slide 10 PySpark - SQL
No ratings yet
Slide 10 PySpark - SQL
131 pages
C++ Notes
No ratings yet
C++ Notes
202 pages
Journal
No ratings yet
Journal
47 pages
Roll No:-MCA24C19 Name: - Patel Sohum Assignment: - 1 Enrollment No: - 202400719010157 Subject: - Practicals Based On Big Data Technologies
No ratings yet
Roll No:-MCA24C19 Name: - Patel Sohum Assignment: - 1 Enrollment No: - 202400719010157 Subject: - Practicals Based On Big Data Technologies
24 pages
Py Spark
No ratings yet
Py Spark
19 pages
Databricks Spark Exam Notes
No ratings yet
Databricks Spark Exam Notes
27 pages
The Hacking Bible - Kevin James
89% (36)
The Hacking Bible - Kevin James
95 pages
Lab Spark
No ratings yet
Lab Spark
3 pages
QB
No ratings yet
QB
3 pages
Day 77
No ratings yet
Day 77
10 pages
GRE GMAT Advanced 03
No ratings yet
GRE GMAT Advanced 03
4 pages
Pyspark Coding Interview Questions
No ratings yet
Pyspark Coding Interview Questions
19 pages
BDT MSE2Scheme 23-24
No ratings yet
BDT MSE2Scheme 23-24
4 pages
Py Spark Samples
No ratings yet
Py Spark Samples
3 pages
Apache Spark
No ratings yet
Apache Spark
2 pages
Pyspark
No ratings yet
Pyspark
44 pages
Thesis Implementation Plan Sample
100% (2)
Thesis Implementation Plan Sample
9 pages
Indrani Cheat Sheet
No ratings yet
Indrani Cheat Sheet
2 pages
Task 1: This Notebook Illustrates The Use of "MAP-REDUCE" To Calculate Averages From The Data Contained in Nsedata - CSV
No ratings yet
Task 1: This Notebook Illustrates The Use of "MAP-REDUCE" To Calculate Averages From The Data Contained in Nsedata - CSV
5 pages
Docse
No ratings yet
Docse
3 pages
Linked Int Question Experience
No ratings yet
Linked Int Question Experience
2 pages
PySpark Big Data Analytics Guide
No ratings yet
PySpark Big Data Analytics Guide
7 pages
w12 - Runningnotes 201026 001818
No ratings yet
w12 - Runningnotes 201026 001818
25 pages
22083
No ratings yet
22083
9 pages
Slide 8 Spark Shell Tutorial
No ratings yet
Slide 8 Spark Shell Tutorial
61 pages
T09 Sparksql
No ratings yet
T09 Sparksql
30 pages
CS 2018 042
No ratings yet
CS 2018 042
8 pages
DATAFRAME Vs DATASETS
No ratings yet
DATAFRAME Vs DATASETS
9 pages
Pyspark Coding Questions From StrataScratch Platform
No ratings yet
Pyspark Coding Questions From StrataScratch Platform
23 pages
Spark
No ratings yet
Spark
11 pages
Day 1 1720441733
No ratings yet
Day 1 1720441733
6 pages
Pyspark Tutorial 3
No ratings yet
Pyspark Tutorial 3
5 pages
Arithmetic Number Operations Business
No ratings yet
Arithmetic Number Operations Business
5 pages
Page 02
No ratings yet
Page 02
2 pages
Midterm Report
No ratings yet
Midterm Report
24 pages
BCS100 Height Controller UserManual V3.22
No ratings yet
BCS100 Height Controller UserManual V3.22
43 pages
Pyspark File Commands and Theory
No ratings yet
Pyspark File Commands and Theory
29 pages
PEP Yearbook Methodology
No ratings yet
PEP Yearbook Methodology
5 pages
Spark SQL & GraphX Lab Guide
No ratings yet
Spark SQL & GraphX Lab Guide
5 pages
Spark Test Que
No ratings yet
Spark Test Que
3 pages
Aadhar Analysis
No ratings yet
Aadhar Analysis
2 pages
Data Science Infinity Transition Roadmap
No ratings yet
Data Science Infinity Transition Roadmap
34 pages
Lemon Flavored Strawberry Flavored 18 36 37 42 43 59
No ratings yet
Lemon Flavored Strawberry Flavored 18 36 37 42 43 59
2 pages
In Power Bi
No ratings yet
In Power Bi
20 pages
Int 421
No ratings yet
Int 421
2 pages
M02 24
No ratings yet
M02 24
1 page
Circular Arrangements With Anno
No ratings yet
Circular Arrangements With Anno
46 pages
Usability Design Principles
No ratings yet
Usability Design Principles
17 pages
Pyspark Code
No ratings yet
Pyspark Code
3 pages
Solution Methodology
No ratings yet
Solution Methodology
5 pages
Exponents & Radicals 6 Pages
No ratings yet
Exponents & Radicals 6 Pages
6 pages
SQL Cheat Sheet Python
100% (1)
SQL Cheat Sheet Python
1 page
DA Lab Program-6
No ratings yet
DA Lab Program-6
4 pages
Service News 12 Liasys New ENGL
No ratings yet
Service News 12 Liasys New ENGL
5 pages
Spark RDD Guide for Developers
No ratings yet
Spark RDD Guide for Developers
7 pages
Day 1 1720441733
No ratings yet
Day 1 1720441733
6 pages
Smart Cameras for ECE Students
No ratings yet
Smart Cameras for ECE Students
21 pages
RTOS Programs Using C Language in LINUX OS
No ratings yet
RTOS Programs Using C Language in LINUX OS
16 pages
DI950 Service Trouble Shooting
No ratings yet
DI950 Service Trouble Shooting
48 pages
Week18 Quiz Solution
No ratings yet
Week18 Quiz Solution
4 pages
Question Bank-BDA (Module 1&2) 2
No ratings yet
Question Bank-BDA (Module 1&2) 2
5 pages
990 3773J EN TypeA
No ratings yet
990 3773J EN TypeA
63 pages
Journal Pre-Proof: KSCE Journal of Civil Engineering
No ratings yet
Journal Pre-Proof: KSCE Journal of Civil Engineering
45 pages
Python Learning (Basics I & II)
No ratings yet
Python Learning (Basics I & II)
33 pages
Mini Telephone Directory
No ratings yet
Mini Telephone Directory
23 pages
TW Ebook Modern Data Engineering Playbook
No ratings yet
TW Ebook Modern Data Engineering Playbook
38 pages
Big Data Analytics in Apache Spark
No ratings yet
Big Data Analytics in Apache Spark
79 pages
Basics of ICT in Education
No ratings yet
Basics of ICT in Education
40 pages
REAA Student Course Booklet (FNS Courses)
No ratings yet
REAA Student Course Booklet (FNS Courses)
17 pages
HP Insight Management Agents 10.20 Installation Guide
No ratings yet
HP Insight Management Agents 10.20 Installation Guide
19 pages
Data Structures 2
No ratings yet
Data Structures 2
17 pages
saveEditorPS4 en Manual
No ratings yet
saveEditorPS4 en Manual
34 pages
AG1280Q48 Smallest System Board V1-Litron EDA Open Source Hardware Platform
No ratings yet
AG1280Q48 Smallest System Board V1-Litron EDA Open Source Hardware Platform
12 pages
Full Stack Developer Resume
No ratings yet
Full Stack Developer Resume
3 pages
Raghav Pathology E411 Haldwani 2
No ratings yet
Raghav Pathology E411 Haldwani 2
3 pages
Headless CMS Implementation Guide
No ratings yet
Headless CMS Implementation Guide
7 pages
12 IT Sample Question Papper 01
No ratings yet
12 IT Sample Question Papper 01
3 pages
Projects Instruction or Rubric
No ratings yet
Projects Instruction or Rubric
6 pages

Spark Structured API Solutions

Uploaded by

Spark Structured API Solutions

Uploaded by

A

Given 2 Datasets employee.json and dept.json

//Find the count of employees against each department

object Assignment1_Week12 extends App{

//Setting the Log Level

//Setting the spark conf

//Creating Spark Session

val deptDf = spark.read

val employeeDf = spark.read

val joinCondition = deptDf.col("deptid") === employeeDf.col("deptid")//join

val joinType = "left" //joinType

val joinedDf = deptDf.join(employeeDf, joinCondition, joinType) //Joining of two

//drop the ambiguous column deptid of employee dataframe,from the joined

val joinedDfNew = joinedDf.drop(employeeDf.col("deptid"))

object Assignment2_Week12 extends App {

//Setting the Log Level

//Setting the spark conf

//Creating Spark Session

//Creation of a ratings dataframe using a case class approach

case class Ratings(userid:Int,movieid:Int,rating:Int,timestamp:String)//create a

//Creation of base RDD for ratings data

// map the RDD elements into instances of the case class

val caseClassSchemaRDD = ratingsRDD.map(x => x.split("::")).map(x =>

val ratingsDf = caseClassSchemaRDD.toDF()

//Creation of base RDD for movies data

//defining the schema using case class

case class Movies(movieid:Int,moviename:String,genre:String)

val moviestransformedRDD = moviesRDD.map(line => line.split("::")).map(fields =>

val transformedmovieDf = ratingsDf.groupBy("movieid")

val popularMoviesDf = transformedmovieDf.filter("movieViewCount > 1000 AND

spark.sql("SET spark.sql.autoBroadcastJoinThreshold = -1")

val joinCondition = popularMoviesDf.col("movieid") ===

val joinType = "inner" //type of

** File is tab separated.Headers not part of file

object Assignment3_Week12 extends App {

//Setting the Log Level

//Setting the spark conf

//Creating Spark Session

case class BatsmenHistory(MatchNumber:Int,Batsman:String,Team:String,

//Creation of base RDD for historical data

val batsmenHistorySchemaRDD = batsmenHistoryRDD.map(line =>

val batsmenHistoryDf = batsmenHistorySchemaRDD.toDF()

//create a base RDD from input data of worldcup

val batsmenworldcupSchema = StructType(List(

//Convert RDD[Array(String)] to RDD[Row].

val batsmenWorldCupRowRDD = batsmenWorldCupRDD.map(line =>

//Apply the explicitly defined Struct Type schema to the RDD[Row]

val batsmenWorldCupDf = spark.createDataFrame(batsmenWorldCupRowRDD,

//autoBroadcast Join is turned off

val joinCondition = batsmenBestRunsAvgHistoryDf.col("Batsman") ===

val joinType = "inner"

//Using broadcast join

You might also like