SQL Vs PySpark

Uploaded by

yahya.marwane.yahya

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

7 views7 pages

SQL Vs PySpark

Uploaded by

yahya.marwane.yahya

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 7

SQL vs PySpark

The Ultimate Colourful Cheat Sheet

Basic Data Operations
Select Columns
SQL:
SELECT col1, col2 FROM table;
PySpark:
df.select("col1", "col2")

Filter Rows
SQL:
SELECT * FROM table WHERE col > 100;
PySpark:
df.filter(df.col > 100)

Limit Rows
SQL:
SELECT * FROM table LIMIT 10;
PySpark:
df.limit(10)

Distinct Values
SQL:
SELECT DISTINCT col FROM table;
PySpark:
df.select("col").distinct()
Aggregations
Count Rows
SQL:
SELECT COUNT(*) FROM table;
PySpark:
df.count()

Group By & Aggregate

SQL:
SELECT col, COUNT(*) FROM table GROUP BY col;
PySpark:
df.groupBy("col").count()

Multiple Aggregations
SQL:
SELECT col, AVG(val), MAX(val) FROM table GROUP BY col;
PySpark:
from pyspark.sql import functions as F
df.groupBy("col").agg(F.avg("val"), F.max("val"))
Joins
Inner Join
SQL:
SELECT * FROM t1 INNER JOIN t2 ON t1.id = t2.id;
PySpark:
df1.join(df2, df1.id == df2.id, "inner")

Left Join
SQL:
SELECT * FROM t1 LEFT JOIN t2 ON t1.id = t2.id;
PySpark:
df1.join(df2, df1.id == df2.id, "left")

Cross Join
SQL:
SELECT * FROM t1 CROSS JOIN t2;
PySpark:
df1.crossJoin(df2)
Window Functions
Row Number
SQL:
SELECT *, ROW_NUMBER() OVER(PARTITION BY col ORDER BY date) as
rn FROM table;
PySpark:
from pyspark.sql.window import Window
windowSpec = Window.partitionBy("col").orderBy("date")
df.withColumn("rn", F.row_number().over(windowSpec))

Rank
SQL:
RANK() OVER(PARTITION BY col ORDER BY val DESC);
PySpark:
df.withColumn("rank", F.rank().over(windowSpec))
Data Manipulation
Add Column
SQL:
ALTER TABLE table ADD col2 INT; OR SELECT *, col1+1 AS col2
FROM table;
PySpark:
df.withColumn("col2", df.col1 + 1)

Rename Column
SQL:
SELECT col1 AS new_name FROM table;
PySpark:
df.withColumnRenamed("col1", "new_name")

Drop Column
SQL:
(varies by dialect)
PySpark:
df.drop("col1")
Data Types & Casting
Cast Column
SQL:
SELECT CAST(col AS INT) FROM table;
PySpark:
df.withColumn("col", df.col.cast("int"))

Check Schema
SQL:
DESCRIBE table;
PySpark:
df.printSchema()

Pyspark Basics
No ratings yet
Pyspark Basics
16 pages
PySpark ELT Cheat Sheet Guide
No ratings yet
PySpark ELT Cheat Sheet Guide
8 pages
PySpark DataFrame Merging Guide
No ratings yet
PySpark DataFrame Merging Guide
42 pages
SQL Vs PySpark 1678871778
No ratings yet
SQL Vs PySpark 1678871778
8 pages
Cheat Sheet: From Spark Data Sources SQL Queries
No ratings yet
Cheat Sheet: From Spark Data Sources SQL Queries
1 page
PySpark SQL Cheat Sheet Python
No ratings yet
PySpark SQL Cheat Sheet Python
1 page
PySpark SQL Pandas CheatSheet
No ratings yet
PySpark SQL Pandas CheatSheet
2 pages
Pyspark SQL Transformation Cheat Sheet
No ratings yet
Pyspark SQL Transformation Cheat Sheet
3 pages
Pyspark SQL and DataFrames
No ratings yet
Pyspark SQL and DataFrames
6 pages
SQL & pySPARK
No ratings yet
SQL & pySPARK
9 pages
SQL Vs Pyspark-1
No ratings yet
SQL Vs Pyspark-1
9 pages
Comparison of SQL
No ratings yet
Comparison of SQL
11 pages
Databricks Vs SQL Cheat Sheet
100% (1)
Databricks Vs SQL Cheat Sheet
11 pages
PySpark Cheat 23
No ratings yet
PySpark Cheat 23
9 pages
SQL PySpark Cheat Sheet 1731729790
No ratings yet
SQL PySpark Cheat Sheet 1731729790
9 pages
SQL To Pyspark Conversion
No ratings yet
SQL To Pyspark Conversion
9 pages
IBM PySpark CheatSheet
No ratings yet
IBM PySpark CheatSheet
2 pages
SQL & PySpark for Data Engineers
No ratings yet
SQL & PySpark for Data Engineers
58 pages
How To Work With Apache Spark and Delta Lake?
No ratings yet
How To Work With Apache Spark and Delta Lake?
40 pages
PySpark SQL Cheat Sheet Guide
No ratings yet
PySpark SQL Cheat Sheet Guide
1 page
Pyspark Interview 1738079940
No ratings yet
Pyspark Interview 1738079940
6 pages
Spark SQL Optimization - Real Case Studies
No ratings yet
Spark SQL Optimization - Real Case Studies
18 pages
SQL & PySpark ?
No ratings yet
SQL & PySpark ?
9 pages
Deloitte & EY Data Engineer Interview Questions
No ratings yet
Deloitte & EY Data Engineer Interview Questions
26 pages
PySpark DataFrames Guide
No ratings yet
PySpark DataFrames Guide
33 pages
SQL - & - Pyspak
No ratings yet
SQL - & - Pyspak
6 pages
Pyspark Syntax Using Simple Examples
No ratings yet
Pyspark Syntax Using Simple Examples
28 pages
Pyspark Intro
No ratings yet
Pyspark Intro
3 pages
PySpark DataFrame Operations Guide
No ratings yet
PySpark DataFrame Operations Guide
10 pages
Pyspark Funcamentals
No ratings yet
Pyspark Funcamentals
10 pages
SQL & Pyspark
No ratings yet
SQL & Pyspark
9 pages
SQL Joins Styled PySpark
No ratings yet
SQL Joins Styled PySpark
7 pages
Pyspark Cheat Sheet
No ratings yet
Pyspark Cheat Sheet
4 pages
50 PySpark Interview Questions PDF
No ratings yet
50 PySpark Interview Questions PDF
7 pages
PySpark Transformations
No ratings yet
PySpark Transformations
18 pages
Big Data Analytics in Apache Spark
No ratings yet
Big Data Analytics in Apache Spark
79 pages
Questions For Preparation
No ratings yet
Questions For Preparation
9 pages
Python Data Exploratory Commands
No ratings yet
Python Data Exploratory Commands
9 pages
SQL and PySpark
No ratings yet
SQL and PySpark
80 pages
Scenarios Where Bad Records Occur
No ratings yet
Scenarios Where Bad Records Occur
38 pages
Apache Spark
No ratings yet
Apache Spark
5 pages
Pandas Vs SQL Concepts Final
No ratings yet
Pandas Vs SQL Concepts Final
13 pages
PySpark SQL Cheat Sheet Python
100% (2)
PySpark SQL Cheat Sheet Python
1 page
PySpark SQL Cheat Sheet Python PDF
No ratings yet
PySpark SQL Cheat Sheet Python PDF
1 page
PySpark SQL Cheat Sheet Python PDF
No ratings yet
PySpark SQL Cheat Sheet Python PDF
1 page
Data Engineer Interview Prep
100% (1)
Data Engineer Interview Prep
16 pages
Pyspark - Cheatsheet With Comparison To SQL5 - Seequality
No ratings yet
Pyspark - Cheatsheet With Comparison To SQL5 - Seequality
36 pages
PySpark Notes
No ratings yet
PySpark Notes
64 pages
PySpark Cheatsheet
No ratings yet
PySpark Cheatsheet
12 pages
1 - Introduction ToPySpark
No ratings yet
1 - Introduction ToPySpark
26 pages
Pyspark Practice - Databricks
No ratings yet
Pyspark Practice - Databricks
66 pages
Spark Essentials
No ratings yet
Spark Essentials
15 pages
From Query Plan To Query Performance:: Supercharging Your Spark Queries Using The Spark UI SQL Tab
No ratings yet
From Query Plan To Query Performance:: Supercharging Your Spark Queries Using The Spark UI SQL Tab
52 pages
Data Engineering 101 - Day 24 - SQL Vs PySpark
No ratings yet
Data Engineering 101 - Day 24 - SQL Vs PySpark
82 pages
Pyspark Scenario-Based Interview Questions & Answers: Nitya Cloudtech PVT LTD
No ratings yet
Pyspark Scenario-Based Interview Questions & Answers: Nitya Cloudtech PVT LTD
12 pages
Spark SQL
No ratings yet
Spark SQL
41 pages
50 PySpark Interview Questions 1732556477
No ratings yet
50 PySpark Interview Questions 1732556477
7 pages
Day 27
No ratings yet
Day 27
6 pages

SQL Vs PySpark

Uploaded by

SQL Vs PySpark

Uploaded by

SQL vs PySpark

The Ultimate Colourful Cheat Sheet

Group By & Aggregate

You might also like