0% found this document useful (0 votes)

4 views15 pages

PySpark Datafame

A DataFrame in PySpark is a distributed table-like structure optimized for handling big data across multiple machines, similar to an Excel sheet or SQL table. It can be created from various sources, including Python lists, JSON files, and RDDs, and supports SQL queries for structured data handling. Key features include lazy evaluation, immutability, and integration with various data sources.

Uploaded by

Opapa Peter

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

4 views15 pages

PySpark Datafame

Uploaded by

Opapa Peter

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 15

DATAFRAME

Simplified @mrk_talkstech

series
part -13

Save for later

What is a DataFrame?
In PySpark, a DataFrame is a
distributed table-like structure with
rows and columns (like an Excel
sheet or SQL table)

@mrk_talkstech
2

Each column has a name and a

data type
It’s optimized to handle big
data across multiple machines

PySpark DataFrame
=
BigData table

@mrk_talkstech
3

Creating DataFrame

The common ways to create

DataFrame
1.From a Python List or Tuple
2.From a JSON(csv file)
3.From RDD(Resilient
Distributed Dataset)

@mrk_talkstech
4

From a Python List or Tuple

@mrk_talkstech
5

From a JSON (csv file)

@mrk_talkstech
6

From RDD Dataset

Method 1: Convert RDD directly to
DataFrame (no schema / column names)

@mrk_talkstech
7

Method 2: Convert RDD to DataFrame with

Column Names

@mrk_talkstech
8

Method 3: Convert RDD to DataFrame with

Explicit Schema

@mrk_talkstech
9

Why DataFrame is
important?
Structured Data Handling → Easy
to work with rows & columns
SQL Support → Run queries
directly like SQL (SELECT,
WHERE, GROUP BY)
Big Data Ready → Handles
terabytes of data across clusters

@mrk_talkstech
10

Optimized Performance → Uses

Spark’s Catalyst Optimizer +
Tungsten Engine
Integration → Works with
different sources (CSV, JSON,
databases, Parquet, etc)
Easier than RDDs → Provides
high-level APIs instead of low-
level transformations

@mrk_talkstech
11

KeyFeatures
Structured (rows+Columns)

Distributed (works on cluster)

Supports SQL

@mrk_talkstech
12

Lazy Evaluation (runs only on

actions)

Immutable (no direct changes)

Optimized (Catalyst+Tungsten)

@mrk_talkstech
Was it helpful?
Like Comment Share Save

@mrk_talkstech
@mrk_talkstech

Hands-on with Pyspark dataframe

methods - don’t miss it!
follow the series!

@mrk_talkstech

Pandas Handbook
No ratings yet
Pandas Handbook
33 pages
Pyspark Basics
No ratings yet
Pyspark Basics
16 pages
PySpark Interview Questions Guide
100% (3)
PySpark Interview Questions Guide
126 pages
PySpark Data Frame Questions PDF
100% (2)
PySpark Data Frame Questions PDF
57 pages
Unit 4 (Data Frame and Apache Kafka)
No ratings yet
Unit 4 (Data Frame and Apache Kafka)
28 pages
07 Spark Dataframes
100% (1)
07 Spark Dataframes
45 pages
Day 11 Notes
No ratings yet
Day 11 Notes
3 pages
Master Pyspark Zero To Big Data Hero: Day 1 Day 2 Day 3 Day 4 Day 5 Day 6 Day 7 Day 8 Day 9 Day 10
No ratings yet
Master Pyspark Zero To Big Data Hero: Day 1 Day 2 Day 3 Day 4 Day 5 Day 6 Day 7 Day 8 Day 9 Day 10
106 pages
Pyspark
No ratings yet
Pyspark
10 pages
ApacheSpark MyNotes
No ratings yet
ApacheSpark MyNotes
6 pages
Pyspark Basics
No ratings yet
Pyspark Basics
74 pages
Py Spark
No ratings yet
Py Spark
177 pages
Master PySpark 1-18
No ratings yet
Master PySpark 1-18
59 pages
Slide 10 PySpark - SQL
No ratings yet
Slide 10 PySpark - SQL
131 pages
Databricks Pyspark 1712042928
100% (1)
Databricks Pyspark 1712042928
21 pages
PySpark DataFrames Guide
No ratings yet
PySpark DataFrames Guide
33 pages
PySpark Notes
No ratings yet
PySpark Notes
64 pages
Pyspark
No ratings yet
Pyspark
4 pages
10 Spark1
No ratings yet
10 Spark1
31 pages
Pyspark IQ FREE Guide
100% (1)
Pyspark IQ FREE Guide
57 pages
CISD 42 Introduction To Spark - Spark Transformation - Spark Actions
No ratings yet
CISD 42 Introduction To Spark - Spark Transformation - Spark Actions
27 pages
RDDs Vs DataFrames and Datasets
No ratings yet
RDDs Vs DataFrames and Datasets
7 pages
Day11 Notes
No ratings yet
Day11 Notes
2 pages
Page 01
No ratings yet
Page 01
2 pages
Py Spark
No ratings yet
Py Spark
9 pages
Pandas (Ziad)
No ratings yet
Pandas (Ziad)
38 pages
DataFrame in Pandas
No ratings yet
DataFrame in Pandas
4 pages
Pyspark Cheat Sheet PDF
No ratings yet
Pyspark Cheat Sheet PDF
1 page
Ilovepdf Merged
No ratings yet
Ilovepdf Merged
16 pages
Deloitte & EY Data Engineer Interview Questions
No ratings yet
Deloitte & EY Data Engineer Interview Questions
26 pages
4220 6 (DataFormat)
No ratings yet
4220 6 (DataFormat)
15 pages
RDD - S and Data Frames
No ratings yet
RDD - S and Data Frames
11 pages
Data Frame
No ratings yet
Data Frame
95 pages
Big Data & Apache Spark Explained
No ratings yet
Big Data & Apache Spark Explained
31 pages
Bda U5
No ratings yet
Bda U5
42 pages
T09 Sparksql
No ratings yet
T09 Sparksql
30 pages
Pyspark DataEngineering Power Guide
No ratings yet
Pyspark DataEngineering Power Guide
73 pages
Basic DataFrame Operation
No ratings yet
Basic DataFrame Operation
11 pages
Creating A Pandas Dataframe
No ratings yet
Creating A Pandas Dataframe
3 pages
Pandas DataFrame Basics Guide
No ratings yet
Pandas DataFrame Basics Guide
41 pages
Data Dict Dataframes Lists
No ratings yet
Data Dict Dataframes Lists
18 pages
Data Engineering 101 PySpark Vs Pandas 1721887961
No ratings yet
Data Engineering 101 PySpark Vs Pandas 1721887961
36 pages
4 Data Transformation Using Pandas
No ratings yet
4 Data Transformation Using Pandas
59 pages
UNIT II Notes
No ratings yet
UNIT II Notes
23 pages
Spark SQL
No ratings yet
Spark SQL
24 pages
Spark Basic Info
No ratings yet
Spark Basic Info
11 pages
Python Pyspark Q's
No ratings yet
Python Pyspark Q's
16 pages
Pyspark
No ratings yet
Pyspark
31 pages
Pyspark - SQL Module
No ratings yet
Pyspark - SQL Module
132 pages
14oct Pandas 2024
No ratings yet
14oct Pandas 2024
13 pages
4 PySpark Exercises
No ratings yet
4 PySpark Exercises
7 pages
PySpark Interview Questions Big Data
No ratings yet
PySpark Interview Questions Big Data
8 pages
50 PySpark Interview Questions 1732556477
No ratings yet
50 PySpark Interview Questions 1732556477
7 pages
1 - Introduction ToPySpark
No ratings yet
1 - Introduction ToPySpark
26 pages
05 Pandas Data Frames
No ratings yet
05 Pandas Data Frames
33 pages
Big Data With Apache Spark 3 and Python From Zero To Expert
No ratings yet
Big Data With Apache Spark 3 and Python From Zero To Expert
28 pages
PySpark Q&A
No ratings yet
PySpark Q&A
56 pages

PySpark Datafame

Uploaded by

PySpark Datafame

Uploaded by

DATAFRAME

Save for later

Each column has a name and a

The common ways to create

From a Python List or Tuple

From a JSON (csv file)

From RDD Dataset

Method 2: Convert RDD to DataFrame with

Method 3: Convert RDD to DataFrame with

Optimized Performance → Uses

Distributed (works on cluster)

Lazy Evaluation (runs only on

Immutable (no direct changes)

Hands-on with Pyspark dataframe

You might also like