0% found this document useful (0 votes)

202 views9 pages

PySpark Cheat 23

This cheat sheet provides essential PySpark commands for data engineers to build efficient data pipelines, covering SparkSession creation, DataFrame operations, joins, transformations, SQL queries, window functions, and RDD operations. It also includes quick tips for optimizing PySpark jobs. The document is authored by Abhishek Agrawal, a Data Engineer.

Uploaded by

Gp Gp

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

202 views9 pages

PySpark Cheat 23

Uploaded by

Gp Gp

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 9

CHEAT

SHEET FOR DATA

ENGINEERS
Master these essential PySpark commands to
build efficient and scalable data pipelines!

Abhishek Agrawal
Data Engineer
SparkSession (Starting Point)

from pyspark.sql import SparkSession

# Create a SparkSession
spark = SparkSession.builder.appName("Example").getOrCreate()

DataFrame Operations
Command Description Example

df.show() Display the DataFrame df.show(5)

Print the schema of the

df.printSchema() df.printSchema()
DataFrame

df.select("name",
df.select() Select specific columns
"age").show()

Abhishek Agrawal | Data Engineer

Command Description Example

Filter rows based on df.filter(df.age >

df.filter()
conditions 18).show()

df.withColumn("discount
df.withColumn() Add or modify a column
", df.price * 0.1)

df.drop() Drop a column df.drop("column_name")

df.distinct() Get distinct rows df.distinct().show()

Sort DataFrame by df.sort(df["price"].des

df.sort()
columns c()).show()

Group rows and apply df.groupBy("region").su

df.groupBy()
aggregations m("sales").show()

Abhishek Agrawal | Data Engineer

DataFrame Joins
Join Type Description Example

inner Inner join df1.join(df2, "id", "inner")

left Left join df1.join(df2, "id", "left")

right Right join df1.join(df2, "id", "right")

full Full outer join df1.join(df2, "id", "full")

Data Transformation Commands

Command Description Example

df.union() Combine two DataFrames df1.union(df2).show()

df.repartition() Repartition the DataFrame df.repartition(4)

Abhishek Agrawal | Data Engineer

Command Description Example

Cache the DataFrame in

df.cache() df.cache()
memory

Persist the DataFrame to

df.persist() df.persist()
memory/disk

df.dropDuplicates(["id
df.dropDuplicates() Drop duplicate rows
"]).show()

SQL Queries in PySpark

Command Description Example

createOrReplaceTempVie Create a temporary SQL df.createOrReplaceTemp

w() view View("table_name")

spark.sql("SELECT *
Run SQL queries on the
spark.sql() FROM
temporary view
table_name").show()

Abhishek Agrawal | Data Engineer

PySpark Window Functions
Function Description Example

Assigns a unique df.withColumn("row_num",

row_number()
number to each row row_number().over(windowSpec))

Ranks rows based on df.withColumn("rank",

rank()
specified criteria rank().over(windowSpec))

Access next/previous df.withColumn("next_val",

lead() / lag()
row in a partition lead("sales").over(windowSpec))

Abhishek Agrawal | Data Engineer

RDD Operations (for Advanced
Use Cases)
Command Description Example

Apply a function to each rdd.map(lambda x: x *

rdd.map()
element 2).collect()

Filter elements based rdd.filter(lambda x: x >

rdd.filter()
on a condition 10).collect()

Apply a function to
rdd.reduce() rdd.reduce(lambda x, y: x + y)
reduce elements

Return all elements as a

rdd.collect() rdd.collect()
list

Abhishek Agrawal | Data Engineer

Quick Tips for Optimizing
PySpark Jobs

✅ Use repartition() for large datasets.

✅ Use broadcast() for small lookup tables.
✅ Cache DataFrames you reuse frequently.
✅ Avoid wide transformations like groupBy() unless
necessary.

✅ Use Delta Lake for ACID transactions and time travel.

Abhishek Agrawal | Data Engineer

Follow for more
content like this

Abhishek Agrawal
Azure Data Engineer

Snowflake Notes
100% (10)
Snowflake Notes
67 pages
Databricks Associate Data Engg
100% (6)
Databricks Associate Data Engg
64 pages
Snowflake Snowpro Exam Cheatsheet
83% (12)
Snowflake Snowpro Exam Cheatsheet
7 pages
Polaris New
No ratings yet
Polaris New
40 pages
Data Structure and Algorithmic Thinking With Python Data Structure and Algorithmic Puzzles PDF
95% (22)
Data Structure and Algorithmic Thinking With Python Data Structure and Algorithmic Puzzles PDF
471 pages
Advanced Data Engineering With Databricks
No ratings yet
Advanced Data Engineering With Databricks
154 pages
DatabricksDataEngineer Associate2024
80% (5)
DatabricksDataEngineer Associate2024
157 pages
IAO131 - Fresh Fever From The Skies
100% (19)
IAO131 - Fresh Fever From The Skies
736 pages
Databricks Certified Data Engineer Professional Dumps by Ball 21-03-2024 10qa Ebraindumps
No ratings yet
Databricks Certified Data Engineer Professional Dumps by Ball 21-03-2024 10qa Ebraindumps
19 pages
200 Python Practice Exercises 1687850509
89% (9)
200 Python Practice Exercises 1687850509
122 pages
Python 3 Cheat Sheet
94% (51)
Python 3 Cheat Sheet
2 pages
PySpark Comprehensive Notes
No ratings yet
PySpark Comprehensive Notes
59 pages
Power BI DAX Simplified B099SBN1XP
94% (16)
Power BI DAX Simplified B099SBN1XP
542 pages
Pyspark Basics
No ratings yet
Pyspark Basics
16 pages
PySpark Interview Questions Guide
100% (3)
PySpark Interview Questions Guide
126 pages
SQL Interview Prep Guide
80% (5)
SQL Interview Prep Guide
24 pages
SnowFlake Notes
100% (1)
SnowFlake Notes
40 pages
ETL Processes Using PySpark
67% (3)
ETL Processes Using PySpark
7 pages
SQL Interview Questions PDF
88% (43)
SQL Interview Questions PDF
48 pages
Learning The Pandas Library Python Tools For Data Munging Analysis and Visual PDF
100% (18)
Learning The Pandas Library Python Tools For Data Munging Analysis and Visual PDF
208 pages
Azure Data Factory
77% (13)
Azure Data Factory
52 pages
Programming+in+Snowflake+ +All+Slides
100% (1)
Programming+in+Snowflake+ +All+Slides
342 pages
Databricks Certified Developer For Apache Spark 3.0 Practice Tests 540 Questions
0% (1)
Databricks Certified Developer For Apache Spark 3.0 Practice Tests 540 Questions
290 pages
PySpark Data Frame Questions PDF
100% (2)
PySpark Data Frame Questions PDF
57 pages
Data Engineering With Databricks
100% (2)
Data Engineering With Databricks
63 pages
Azure Databricks Course Slide Deck
75% (4)
Azure Databricks Course Slide Deck
169 pages
Incredible English. Unit 8
No ratings yet
Incredible English. Unit 8
4 pages
Data Engineering With Databricks Da
100% (3)
Data Engineering With Databricks Da
232 pages
My Pyspark Practice Notes
100% (1)
My Pyspark Practice Notes
63 pages
PracticeExam DataEngineerAssociate
No ratings yet
PracticeExam DataEngineerAssociate
23 pages
PySpark SQL Cheat Sheet Python
No ratings yet
PySpark SQL Cheat Sheet Python
1 page
Cheat Sheet: From Spark Data Sources SQL Queries
No ratings yet
Cheat Sheet: From Spark Data Sources SQL Queries
1 page
DP-203T00 Microsoft Azure Data Engineering-03
No ratings yet
DP-203T00 Microsoft Azure Data Engineering-03
21 pages
SQL Interview Questions & Answers
75% (4)
SQL Interview Questions & Answers
63 pages
Etl With Azure Cookbook Practical Recipes For Building Modern Etl Solutions To Load and Transform Data From Any Source 1800203314 9781800203310
100% (7)
Etl With Azure Cookbook Practical Recipes For Building Modern Etl Solutions To Load and Transform Data From Any Source 1800203314 9781800203310
446 pages
Pyspark Interview Questions
No ratings yet
Pyspark Interview Questions
9 pages
How To Work With Apache Spark and Delta Lake?
No ratings yet
How To Work With Apache Spark and Delta Lake?
40 pages
Big Data Analytics in Apache Spark
No ratings yet
Big Data Analytics in Apache Spark
79 pages
SQL Vs PySpark
No ratings yet
SQL Vs PySpark
7 pages
Pyspark Cheat Sheet
No ratings yet
Pyspark Cheat Sheet
4 pages
PySpark All Query
No ratings yet
PySpark All Query
22 pages
Pyspark Interview 1738079940
No ratings yet
Pyspark Interview 1738079940
6 pages
Python Data Exploratory Commands
No ratings yet
Python Data Exploratory Commands
9 pages
Spark Essentials
No ratings yet
Spark Essentials
15 pages
Pyspark Distinct and Filter
No ratings yet
Pyspark Distinct and Filter
3 pages
IBM PySpark CheatSheet
No ratings yet
IBM PySpark CheatSheet
2 pages
Spark SQL Optimization - Real Case Studies
No ratings yet
Spark SQL Optimization - Real Case Studies
18 pages
PySpark Interview Cheatsheet 1741068112
No ratings yet
PySpark Interview Cheatsheet 1741068112
19 pages
50 PySpark Interview Questions 1732556477
No ratings yet
50 PySpark Interview Questions 1732556477
7 pages
PySpark DataFrames Guide
No ratings yet
PySpark DataFrames Guide
33 pages
Pyspark Syntax Using Simple Examples
No ratings yet
Pyspark Syntax Using Simple Examples
28 pages
Comparison of SQL
No ratings yet
Comparison of SQL
11 pages
HTML Code
No ratings yet
HTML Code
3 pages
Pyspark IQ FREE Guide
100% (1)
Pyspark IQ FREE Guide
57 pages
Pyspark Cheatsheet
No ratings yet
Pyspark Cheatsheet
10 pages
Must Know Pyspark Coding Before Databricks Interview
No ratings yet
Must Know Pyspark Coding Before Databricks Interview
7 pages
50 PySpark Interview Questions PDF
No ratings yet
50 PySpark Interview Questions PDF
7 pages
Deloitte & EY Data Engineer Interview Questions
No ratings yet
Deloitte & EY Data Engineer Interview Questions
26 pages
Joins in Pyspark
No ratings yet
Joins in Pyspark
10 pages
PySpark Cheatsheet - Elaborate
No ratings yet
PySpark Cheatsheet - Elaborate
14 pages
HTML Code
No ratings yet
HTML Code
4 pages
Deloitee Data Engineer Interview Questions
No ratings yet
Deloitee Data Engineer Interview Questions
24 pages
PySpark Notes
No ratings yet
PySpark Notes
64 pages
Pyspark Funcamentals
No ratings yet
Pyspark Funcamentals
10 pages
PySpark DataFrame Operations Guide
No ratings yet
PySpark DataFrame Operations Guide
10 pages
PySpark SQL Cheat Sheet Python PDF
No ratings yet
PySpark SQL Cheat Sheet Python PDF
1 page
PySpark SQL Cheat Sheet Python
100% (2)
PySpark SQL Cheat Sheet Python
1 page
PySpark SQL Cheat Sheet Python PDF
No ratings yet
PySpark SQL Cheat Sheet Python PDF
1 page
PySpark Transformations
No ratings yet
PySpark Transformations
18 pages
Quantiphi Interview
No ratings yet
Quantiphi Interview
2 pages
Datacademy Ai Pyspark
No ratings yet
Datacademy Ai Pyspark
3 pages
Pandas Cheat Sheet for Data Science
No ratings yet
Pandas Cheat Sheet for Data Science
5 pages
Day11 Notes
No ratings yet
Day11 Notes
2 pages
Pyspark Scenario-Based Interview Questions & Answers: Nitya Cloudtech PVT LTD
No ratings yet
Pyspark Scenario-Based Interview Questions & Answers: Nitya Cloudtech PVT LTD
12 pages
PySpark SQL Pandas CheatSheet
No ratings yet
PySpark SQL Pandas CheatSheet
2 pages
Pyspark 12 Questions
No ratings yet
Pyspark 12 Questions
8 pages
SparkDataFrames 250719 202947
No ratings yet
SparkDataFrames 250719 202947
11 pages
PySpark SQL Cheat Sheet Guide
No ratings yet
PySpark SQL Cheat Sheet Guide
1 page
Aqe 1729101916
No ratings yet
Aqe 1729101916
3 pages
PySpark Cheatsheet
No ratings yet
PySpark Cheatsheet
12 pages
SQL Cheat Sheet Python
100% (1)
SQL Cheat Sheet Python
1 page
Scenarios Where Bad Records Occur
No ratings yet
Scenarios Where Bad Records Occur
38 pages
Data Frames
No ratings yet
Data Frames
12 pages
PySpark Questions
No ratings yet
PySpark Questions
5 pages
Top 200 Data Engineer Interview Question PDF
100% (4)
Top 200 Data Engineer Interview Question PDF
482 pages
Performance Tuning in Azure Databricks
100% (1)
Performance Tuning in Azure Databricks
124 pages
Pyspark Interview Code
100% (3)
Pyspark Interview Code
197 pages
Eee350 - Control Systems January 2014
No ratings yet
Eee350 - Control Systems January 2014
16 pages
Fertility Cycle Tracking Data
No ratings yet
Fertility Cycle Tracking Data
1 page
LTE: High-Speed Mobile Networks
No ratings yet
LTE: High-Speed Mobile Networks
15 pages
Asdaf Kabupaten Kutai Kartanegara, Provinsikalimantan Timur Program Studi Keuangan Publik
No ratings yet
Asdaf Kabupaten Kutai Kartanegara, Provinsikalimantan Timur Program Studi Keuangan Publik
13 pages
Ready To Progress Assessment
No ratings yet
Ready To Progress Assessment
5 pages
Social Studies Lesson Exemplar
100% (1)
Social Studies Lesson Exemplar
8 pages
Eye Instillation and Irrigation
No ratings yet
Eye Instillation and Irrigation
46 pages
Fuzzy Logic
No ratings yet
Fuzzy Logic
23 pages
Madrid Vs Mapoy
No ratings yet
Madrid Vs Mapoy
2 pages
Berecki, S., A Settlement Belonging To The Coţofeni Culture From Ogra (Mureş County), Marisia, XXVIII, 7-25.
No ratings yet
Berecki, S., A Settlement Belonging To The Coţofeni Culture From Ogra (Mureş County), Marisia, XXVIII, 7-25.
19 pages
Piping Design - Engineering Information
No ratings yet
Piping Design - Engineering Information
32 pages
Islamic Values 2 Lesson Plan Q2-W5-Day1
No ratings yet
Islamic Values 2 Lesson Plan Q2-W5-Day1
4 pages
短语、分句、句子
No ratings yet
短语、分句、句子
7 pages
The Philippine Cultural Values and Entrepreneurship
100% (2)
The Philippine Cultural Values and Entrepreneurship
16 pages
Ucs Director Admin Guide
No ratings yet
Ucs Director Admin Guide
164 pages
Connect Representations of Functions
No ratings yet
Connect Representations of Functions
2 pages
Structure of RNA
No ratings yet
Structure of RNA
36 pages
Grade 11 Oral Communication Guide
No ratings yet
Grade 11 Oral Communication Guide
10 pages
Hcm65r-Hcm65b Manual - 2002 - Issue 1
No ratings yet
Hcm65r-Hcm65b Manual - 2002 - Issue 1
6 pages
Ethics Notes
100% (2)
Ethics Notes
47 pages
Ciac Revised Rules of Procedure Governing Construction Arbitration
100% (3)
Ciac Revised Rules of Procedure Governing Construction Arbitration
3 pages
Music Notation for Choirs
No ratings yet
Music Notation for Choirs
3 pages
Wiki Loves Monuments
No ratings yet
Wiki Loves Monuments
17 pages
Bakery Secrets and a Holocaust Survivor
No ratings yet
Bakery Secrets and a Holocaust Survivor
4 pages
Wireless Sensing and Networking For The Internet of Things Zihuai Lin and Wei Xiang Download
No ratings yet
Wireless Sensing and Networking For The Internet of Things Zihuai Lin and Wei Xiang Download
79 pages
Past Simple Busy Teacher
No ratings yet
Past Simple Busy Teacher
8 pages
Rogers Et Al., 2018
No ratings yet
Rogers Et Al., 2018
12 pages

PySpark Cheat 23

Uploaded by

PySpark Cheat 23

Uploaded by

CHEAT

SHEET FOR DATA

from pyspark.sql import SparkSession

df.show() Display the DataFrame df.show(5)

Print the schema of the

Abhishek Agrawal | Data Engineer

Filter rows based on df.filter(df.age >

df.drop() Drop a column df.drop("column_name")

df.distinct() Get distinct rows df.distinct().show()

Sort DataFrame by df.sort(df["price"].des

Group rows and apply df.groupBy("region").su

Abhishek Agrawal | Data Engineer

inner Inner join df1.join(df2, "id", "inner")

left Left join df1.join(df2, "id", "left")

right Right join df1.join(df2, "id", "right")

full Full outer join df1.join(df2, "id", "full")

Data Transformation Commands

df.union() Combine two DataFrames df1.union(df2).show()

df.repartition() Repartition the DataFrame df.repartition(4)

Abhishek Agrawal | Data Engineer

Cache the DataFrame in

Persist the DataFrame to

SQL Queries in PySpark

createOrReplaceTempVie Create a temporary SQL df.createOrReplaceTemp

Abhishek Agrawal | Data Engineer

Assigns a unique df.withColumn("row_num",

Ranks rows based on df.withColumn("rank",

Access next/previous df.withColumn("next_val",

Abhishek Agrawal | Data Engineer

Apply a function to each rdd.map(lambda x: x *

Filter elements based rdd.filter(lambda x: x >

Return all elements as a

Abhishek Agrawal | Data Engineer

✅ Use repartition() for large datasets.

✅ Use Delta Lake for ACID transactions and time travel.

Abhishek Agrawal | Data Engineer

You might also like