Creating EDA Reports Using Ggplot2 in R Markdown

This lesson guide focuses on creating Exploratory Data Analysis (EDA) reports using ggplot2 in R Markdown. Students will learn the importance of ggplot2, apply the grammar of graphics for effective visualizations, and perform univariate and bivariate analyses. The guide includes practical examples and code snippets for generating structured and reproducible EDA reports.

Uploaded by

Mary Shanley Sencil

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

32 views5 pages

Creating EDA Reports Using Ggplot2 in R Markdown

Uploaded by

Mary Shanley Sencil

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 5

Lesson Guide: Creating EDA Reports

using ggplot2 in R Markdown

Course: Analytics Techniques and Tools using R

Learning Objectives
By the end of this lesson, students will be able to:

1. Understand the importance of using ggplot2 for EDA reports.

2. Apply the grammar of graphics to create effective visualizations.
3. Use R Markdown to generate structured and reproducible EDA reports with ggplot2.
4. Perform univariate and bivariate analysis using ggplot2.
5. Conduct statistical tests and visualize their results using ggplot2.

Lesson Content
1. Introduction to ggplot2 for EDA Reports

● Why use ggplot2?

● Grammar of Graphics: A structured approach to visualization
● Basic syntax of ggplot2
● Installing and loading ggplot2

# Install ggplot2 if not already installed

if (!requireNamespace("ggplot2", quietly = TRUE)) {
install.packages("ggplot2", dependencies = TRUE)
}

# Load the package
library(ggplot2)
2. Grammar of Graphics in ggplot2

ggplot2 follows a layered approach:

● Data Layer: The dataset used for visualization.

● Aesthetics (aes()) Layer: Mapping variables to visual properties.
● Geometry Layer (geom_*()): Defines the type of visualization.
● Faceting (facet_wrap() or facet_grid()): Splitting plots by categorical variables.
● Theme and Labels (theme(), labs()): Customizing appearance.

# Basic ggplot structure

ggplot(data, aes(x = variable1, y = variable2)) +
geom_point()

3. Data Structure Analysis

3.1. Understanding the Dataset

# Load dataset (Example: mtcars)
data <- mtcars

# Check dataset structure
str(data)

# Summary statistics
summary(data)

3.2. Data Quality and Handling Missing Values

# Check for missing values
sum(is.na(data))

# Handling missing values
data <- na.omit(data) # Remove rows with missing values
4. Univariate Analysis

4.1. Understanding Distribution and Normality

# Shapiro-Wilk test for normality
shapiro.test(data$mpg)

4.2. Visualizing Data Distribution with ggplot2

# Histogram
ggplot(data, aes(x = mpg)) +
geom_histogram(binwidth = 2, fill = "lightblue", color = "black") +
labs(title = "Histogram of MPG", x = "MPG", y = "Count")

# Boxplot
ggplot(data, aes(y = mpg)) +
geom_boxplot(fill = "lightblue") +
labs(title = "Boxplot of MPG", y = "MPG")

4.3. Outlier Detection

# Boxplot-based outliers
Q1 <- quantile(data$mpg, 0.25)
Q3 <- quantile(data$mpg, 0.75)
IQR_value <- Q3 - Q1
lower_bound <- Q1 - 1.5 * IQR_value
upper_bound <- Q3 + 1.5 * IQR_value
outliers <- data$mpg[data$mpg < lower_bound | data$mpg > upper_bound]

# 3-SD Rule Outliers
data_mean <- mean(data$mpg)
data_sd <- sd(data$mpg)
lower_sd_bound <- data_mean - 3 * data_sd
upper_sd_bound <- data_mean + 3 * data_sd
outliers_sd <- data$mpg[data$mpg < lower_sd_bound | data$mpg >
upper_sd_bound]
5. Bivariate Analysis

5.1. Categorical vs Categorical (Chi-Square Test & Stacked Bar Plots)

# Stacked bar plot
ggplot(data, aes(x = factor(cyl), fill = factor(gear))) +
geom_bar(position = "fill") +
labs(title = "Proportion of Cylinders by Gear Type", x = "Cylinders", y =
"Proportion")

# Chi-Square Test
chisq.test(table(data$cyl, data$gear))

5.2. Categorical vs Numerical (T-Test, ANOVA, Wilcoxon, Kruskal-Wallis)

# Boxplot comparison
ggplot(data, aes(x = factor(cyl), y = mpg)) +
geom_boxplot(fill = "lightblue") +
labs(title = "MPG by Cylinder Count", x = "Cylinders", y = "MPG")

# T-Test for two groups
t.test(mpg ~ am, data = mtcars)

# ANOVA for multiple groups
anova(lm(mpg ~ cyl, data = mtcars))

# Wilcoxon Test
wilcox.test(mpg ~ am, data = mtcars)

# Kruskal-Wallis Test
kruskal.test(mpg ~ cyl, data = mtcars)

5.3. Numerical vs Numerical (Correlation & Regression)

# Scatterplot with trend line
ggplot(data, aes(x = hp, y = mpg)) +
geom_point(color = "blue") +
geom_smooth(method = "lm", color = "red") +
labs(title = "HP vs MPG", x = "Horsepower", y = "MPG")

# Correlation matrix
cor(data[, c("mpg", "hp", "wt")])
6. Summary & Next Steps
● Key Takeaways: ggplot2 provides a structured and powerful approach to EDA
visualization.
● Next Lesson: Advanced Data Visualization Techniques with ggplot2.

R Graphics Essentials For Great Data Visualization 9781979748100 C
No ratings yet
R Graphics Essentials For Great Data Visualization 9781979748100 C
257 pages
Creating EDA Reports Using R Markdown
No ratings yet
Creating EDA Reports Using R Markdown
6 pages
Basic Data Visualization Techniques Using Ggplot2 in R
No ratings yet
Basic Data Visualization Techniques Using Ggplot2 in R
17 pages
Module 2 ExploratoryDataAnalysis
No ratings yet
Module 2 ExploratoryDataAnalysis
22 pages
M4 DAR Part1
No ratings yet
M4 DAR Part1
16 pages
Ggplot2 For Data Visualization: Grammer of Graphics "
No ratings yet
Ggplot2 For Data Visualization: Grammer of Graphics "
19 pages
Advanced R Programming GGPLOT2 Notes
No ratings yet
Advanced R Programming GGPLOT2 Notes
8 pages
DS-R Block 4 All
No ratings yet
DS-R Block 4 All
50 pages
A Comprehensive Guide On Ggplot2 in R
No ratings yet
A Comprehensive Guide On Ggplot2 in R
30 pages
Data Visualization Using Ggplot2
No ratings yet
Data Visualization Using Ggplot2
21 pages
Lecture 6 - Data Visualization With Ggplot2
No ratings yet
Lecture 6 - Data Visualization With Ggplot2
15 pages
Graphical Analysis
No ratings yet
Graphical Analysis
64 pages
MTH 4407 - Group 2 (Dr. Farid Zamani) - Lecture 2
No ratings yet
MTH 4407 - Group 2 (Dr. Farid Zamani) - Lecture 2
25 pages
R Data Visualization Techniques
No ratings yet
R Data Visualization Techniques
46 pages
Excel and R Integration
No ratings yet
Excel and R Integration
20 pages
Unit Iii (R)
No ratings yet
Unit Iii (R)
75 pages
Week10 Slides Updated
No ratings yet
Week10 Slides Updated
80 pages
Beautiful Graphics in R
No ratings yet
Beautiful Graphics in R
238 pages
Assignment (4) .Module RAmanVerma (22MBA10026)
No ratings yet
Assignment (4) .Module RAmanVerma (22MBA10026)
18 pages
Business Analytics Unit - IV Notes - 60637706 - 2025 - 05!15!02 - 16
No ratings yet
Business Analytics Unit - IV Notes - 60637706 - 2025 - 05!15!02 - 16
28 pages
2 R - Zajecia - 4 - Eng
No ratings yet
2 R - Zajecia - 4 - Eng
7 pages
R Graphics for Data Analysis
No ratings yet
R Graphics for Data Analysis
84 pages
Figures With GGPlot
No ratings yet
Figures With GGPlot
58 pages
Advanced R Data Analysis Training PDF
No ratings yet
Advanced R Data Analysis Training PDF
72 pages
Data Visualization in R Sem-III 2021 PDF
No ratings yet
Data Visualization in R Sem-III 2021 PDF
57 pages
R Graphics Essentials Great Data Visualization
No ratings yet
R Graphics Essentials Great Data Visualization
248 pages
Guide To Create: Beautiful Graphics in R
No ratings yet
Guide To Create: Beautiful Graphics in R
48 pages
Graphics in R
No ratings yet
Graphics in R
8 pages
Module 5-6
No ratings yet
Module 5-6
12 pages
Top R Data Visualizations Guide
No ratings yet
Top R Data Visualizations Guide
48 pages
Week 1 Basics
No ratings yet
Week 1 Basics
23 pages
Part 7
No ratings yet
Part 7
26 pages
Data Layers Niveditha Haridas 2302032
No ratings yet
Data Layers Niveditha Haridas 2302032
18 pages
BDA Experiment 9 and 10
No ratings yet
BDA Experiment 9 and 10
22 pages
Data Viz with ggplot2 for Analysts
No ratings yet
Data Viz with ggplot2 for Analysts
30 pages
KrutikaKolhe 862467252 HW2
No ratings yet
KrutikaKolhe 862467252 HW2
25 pages
22MSM40206 Data Visualisation
No ratings yet
22MSM40206 Data Visualisation
13 pages
Exercise 1 - Basic Graphs
No ratings yet
Exercise 1 - Basic Graphs
10 pages
MIT 302 - Statistical Computing II - Tutorial 04
No ratings yet
MIT 302 - Statistical Computing II - Tutorial 04
7 pages
Visualizing Data in R
No ratings yet
Visualizing Data in R
20 pages
Exploratory Data Analysis Course
No ratings yet
Exploratory Data Analysis Course
139 pages
Graph Plotting in R Programming
No ratings yet
Graph Plotting in R Programming
12 pages
R Data Visualization Techniques
No ratings yet
R Data Visualization Techniques
21 pages
Data Visualization Ggplot
No ratings yet
Data Visualization Ggplot
2 pages
Ggplot2 - Easy Way To Mix Multiple Graphs On The Same Page - Articles - STHDA
No ratings yet
Ggplot2 - Easy Way To Mix Multiple Graphs On The Same Page - Articles - STHDA
54 pages
Module 4
No ratings yet
Module 4
23 pages
DSR - Unit 2-2.1 ExploringBasicgraphs
No ratings yet
DSR - Unit 2-2.1 ExploringBasicgraphs
51 pages
Experiment-7: Problem Statement: Data Visualisations-Ii in R
No ratings yet
Experiment-7: Problem Statement: Data Visualisations-Ii in R
9 pages
On Eda
No ratings yet
On Eda
60 pages
R Topicscovered
No ratings yet
R Topicscovered
22 pages
Exploratory Data Analysis in R
No ratings yet
Exploratory Data Analysis in R
50 pages
Using Ggplot2 For Plots in R
No ratings yet
Using Ggplot2 For Plots in R
8 pages
Data Visualization With Ggplot2 - CheatSheet
No ratings yet
Data Visualization With Ggplot2 - CheatSheet
9 pages
Unit - 2: Data Manipulation With R & Data Visualization in Watson Studio
No ratings yet
Unit - 2: Data Manipulation With R & Data Visualization in Watson Studio
58 pages
Data Visulization1
No ratings yet
Data Visulization1
39 pages
Exercise 1
No ratings yet
Exercise 1
5 pages
Pola Komunikasi Konstruktif Mahasiswa Saat Menghadapi Tekanan Psikologis Dalam Penyelesaian Tugas Akhir
No ratings yet
Pola Komunikasi Konstruktif Mahasiswa Saat Menghadapi Tekanan Psikologis Dalam Penyelesaian Tugas Akhir
17 pages
Module 3: Nfs Setup: Exercise
No ratings yet
Module 3: Nfs Setup: Exercise
8 pages
Scientific Method Experiment Rubric Q Q: Problem
No ratings yet
Scientific Method Experiment Rubric Q Q: Problem
2 pages
Master of Library and Information SCIENCE (Revised) 1-1 - 7) FI Term-End Examination December, 2019 Mli-101: Information, Communication and Society
No ratings yet
Master of Library and Information SCIENCE (Revised) 1-1 - 7) FI Term-End Examination December, 2019 Mli-101: Information, Communication and Society
4 pages
SQL Server Tips for Galaxy Migration
No ratings yet
SQL Server Tips for Galaxy Migration
10 pages
Michael Hansmeyers Algorithmic Architecture The T
No ratings yet
Michael Hansmeyers Algorithmic Architecture The T
15 pages
Science Education Goals
No ratings yet
Science Education Goals
10 pages
How To - Create and Customize A GridLookUpEdit Control at Runtime - WinForms Controls - DevExpress Help
No ratings yet
How To - Create and Customize A GridLookUpEdit Control at Runtime - WinForms Controls - DevExpress Help
6 pages
Tutorial Class ERD PDF
No ratings yet
Tutorial Class ERD PDF
15 pages
Software Engineering International Summer Schools Laser 20132014 Elba Italy Revised Tutorial Lectures 1st Edition Bertrand Meyer Download
No ratings yet
Software Engineering International Summer Schools Laser 20132014 Elba Italy Revised Tutorial Lectures 1st Edition Bertrand Meyer Download
61 pages
Data Science - Course Handout - DR P Balamurugan - EVEN 2025
No ratings yet
Data Science - Course Handout - DR P Balamurugan - EVEN 2025
8 pages
Chapter 2: Getting To Know Your Data
No ratings yet
Chapter 2: Getting To Know Your Data
30 pages
4.2. Spark Applications
No ratings yet
4.2. Spark Applications
19 pages
Important T-Codes For SAP BW
No ratings yet
Important T-Codes For SAP BW
3 pages
DLP Observation 1
No ratings yet
DLP Observation 1
18 pages
Teradata RDBMS: Architecture & Performance
No ratings yet
Teradata RDBMS: Architecture & Performance
3 pages
Development of NLP Powered Semantic Analysis For Document Understanding
No ratings yet
Development of NLP Powered Semantic Analysis For Document Understanding
4 pages
Capability and Strength of Computer
No ratings yet
Capability and Strength of Computer
6 pages
Nato CSD Majiic Interop
100% (1)
Nato CSD Majiic Interop
12 pages
MySQL - Correct Way To Use The UNIQUE KEY - Stack Overflow
No ratings yet
MySQL - Correct Way To Use The UNIQUE KEY - Stack Overflow
2 pages
Thesis Writing Data Analysis
100% (3)
Thesis Writing Data Analysis
7 pages
QB 1
No ratings yet
QB 1
3 pages
Dhiraj CV
No ratings yet
Dhiraj CV
1 page
SQL User Guide
No ratings yet
SQL User Guide
176 pages
Vendor Evaluation Metrics
No ratings yet
Vendor Evaluation Metrics
14 pages
IT 210 Final Project Template
No ratings yet
IT 210 Final Project Template
16 pages
Group 1 Research Grade 10 Galileo 1
No ratings yet
Group 1 Research Grade 10 Galileo 1
35 pages
CS Class Test XII 20-08-2022
No ratings yet
CS Class Test XII 20-08-2022
2 pages
Tuffaha - Adoption Factors of Artificial Intelligence in Human Resource Management
No ratings yet
Tuffaha - Adoption Factors of Artificial Intelligence in Human Resource Management
154 pages
IS222 S12018 FE Sample Answers
100% (1)
IS222 S12018 FE Sample Answers
18 pages