0% found this document useful (0 votes)

6 views4 pages

Data Analytics Unit4 FullNotes

The document covers key concepts in data analytics, focusing on supervised vs unsupervised learning, segmentation, decision trees, overfitting and pruning, measures of forecast accuracy, and STL decomposition. It outlines definitions, types, techniques, applications, and challenges associated with each topic. The goal is to enhance analysis, decision-making, and forecasting in various fields such as marketing, healthcare, and finance.

Uploaded by

nagarajchintu1234

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

6 views4 pages

Data Analytics Unit4 FullNotes

Uploaded by

nagarajchintu1234

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 4

Data Analytics - Unit 4 Full Notes

1. Supervised vs Unsupervised Learning

Supervised Learning vs Unsupervised Learning:

| Feature | Supervised Learning | Unsupervised Learning |

|-------------------------------|----------------------------------------------------------|----------------------------------------------------------|
| Definition | Learning with labeled data | Learning with unlabeled data |
| Input Data | Input has output labels | Input has no output labels |
| Goal | Predict output | Discover hidden patterns |
| Output Type | Predictive (classification/regression) | Descriptive (clusters/associations)
|
| Examples of Tasks | Classification, Regression | Clustering, Association
|
| Evaluation | Accuracy, RMSE, etc. | Silhouette score, manual interpretation
|
| Algorithms | Decision Trees, SVM, Linear Regression | K-Means, DBSCAN, PCA
|
| Use Cases | Email spam detection, loan approval | Customer segmentation, anomaly
detection |

2. Segmentation

Segmentation is the process of dividing a dataset into smaller, meaningful subgroups based on similarities in attributes
or behavior.

Types of Segmentation:
- Demographic: Age, income, gender
- Geographic: Region, city, country
- Behavioral: Purchase habits, product usage
- Psychographic: Lifestyle, interests

Segmentation Techniques:
- K-Means Clustering
- Hierarchical Clustering
- DBSCAN
- Self-Organizing Maps (SOM)

Applications:
- Marketing: Targeting specific customer groups
- Healthcare: Grouping patients by conditions
Data Analytics - Unit 4 Full Notes

- Retail: Personalizing product recommendations

Goal: Improve analysis, decision-making, and forecasting by understanding group-specific behavior.

3. Decision Trees

Decision Trees are flowchart-like structures used for classification and regression tasks.

Types:
- Classification Tree: Output is categorical
- Regression Tree: Output is numerical

Structure:
- Nodes: Attribute tests
- Branches: Outcomes of tests
- Leaves: Final decisions or class labels

Splitting Criteria:
- Gini Index, Entropy/Information Gain for classification
- Variance reduction for regression

Process:
1. Choose the best splitting attribute
2. Partition the data accordingly
3. Recursively build subtrees
4. Stop when data is pure or depth is limited

Challenges:
- Overfitting: Very deep trees memorize noise
- Pruning: Technique to simplify the tree by removing branches

Ensembles (Multiple Trees):

- Random Forests: Uses voting among multiple trees
- Boosting: Combines weak learners into a strong model

Applications: Credit scoring, medical diagnosis, churn prediction

4. Overfitting and Pruning

Overfitting occurs when a model learns the training data too closely, including noise and anomalies, leading to poor
Data Analytics - Unit 4 Full Notes

generalization.

Symptoms:
- High training accuracy but low test accuracy
- Complex and deep tree structure

Causes:
- Too many attributes
- Lack of pruning
- Small datasets

Pruning is used to reduce tree size and improve generalization.

Types of Pruning:
- Pre-Pruning: Stops tree growth early (e.g., max depth, min samples)
- Post-Pruning: Removes unnecessary branches after full tree is built

Benefits:
- Reduces overfitting
- Improves prediction on unseen data
- Enhances interpretability

Goal: Build a model that balances complexity and accuracy.

5. Measures of Forecast Accuracy

Forecast accuracy metrics evaluate how close predictions are to actual values.

Common Metrics:
- MAE (Mean Absolute Error): Average of absolute errors
- MSE (Mean Squared Error): Average of squared errors
- RMSE (Root Mean Squared Error): Square root of MSE
- MAPE (Mean Absolute Percentage Error): Error as a percentage
- sMAPE (Symmetric MAPE): Balanced version of MAPE

Choosing the Right Metric:

- Use MAE for simple average error
- Use RMSE when large errors matter more
- Use MAPE for relative accuracy (not if data has zero values)

Applications:
Data Analytics - Unit 4 Full Notes

- Retail: Sales forecasting

- Finance: Stock price prediction
- Healthcare: Patient count prediction

Lower metric values indicate higher accuracy.

6. STL Decomposition

STL (Seasonal and Trend decomposition using Loess) breaks a time series into three components:

1. Trend: Long-term progression

2. Seasonality: Repeating short-term cycles
3. Residual: Random noise

STL uses LOESS (Local regression) for smoothing and is highly flexible.

Advantages:
- Works with any seasonality type
- Robust to outliers
- Allows component-wise analysis

Steps:
1. Input time series
2. Apply smoothing to extract trend and seasonality
3. Subtract from original to get residual

Applications:
- Retail: Understand sales trends
- Finance: Analyze stock patterns
- Weather: Seasonal forecasting

STL is ideal for preprocessing time series before applying models like ARIMA.

Data Science and ML Concepts
No ratings yet
Data Science and ML Concepts
4 pages
Predictive Analytics-Mid Sem Exam Question Bank
No ratings yet
Predictive Analytics-Mid Sem Exam Question Bank
28 pages
CSC413 Lecture Note
No ratings yet
CSC413 Lecture Note
32 pages
B.Tech IT ML Study Guide
100% (2)
B.Tech IT ML Study Guide
21 pages
MCC Mba ML and Ai May30 2024
No ratings yet
MCC Mba ML and Ai May30 2024
201 pages
ML/DS Interview Cheat Sheets
No ratings yet
ML/DS Interview Cheat Sheets
16 pages
PRCV Unit-2
No ratings yet
PRCV Unit-2
24 pages
DM Unit - 3
No ratings yet
DM Unit - 3
21 pages
AI & ML Curriculum for Learners
No ratings yet
AI & ML Curriculum for Learners
7 pages
Pattern Recognition Unit 2
No ratings yet
Pattern Recognition Unit 2
24 pages
Machine Learning Overview & Techniques
No ratings yet
Machine Learning Overview & Techniques
30 pages
Machine Learning Algorithms Guide
No ratings yet
Machine Learning Algorithms Guide
3 pages
Supervised Learning Final With Diagrams Cleaned
No ratings yet
Supervised Learning Final With Diagrams Cleaned
7 pages
Unit 1 BD PDF
No ratings yet
Unit 1 BD PDF
26 pages
ML - Machine Learning PDF
No ratings yet
ML - Machine Learning PDF
13 pages
R Data Analysis
No ratings yet
R Data Analysis
10 pages
مشین سیکھنا
No ratings yet
مشین سیکھنا
5 pages
3 Pred Analysis
No ratings yet
3 Pred Analysis
18 pages
Chapter 2 Machine Learning Draft-85-172
No ratings yet
Chapter 2 Machine Learning Draft-85-172
88 pages
Da Imp Qna Cleaned
No ratings yet
Da Imp Qna Cleaned
7 pages
Kavin
No ratings yet
Kavin
15 pages
ML CheatSheet
No ratings yet
ML CheatSheet
14 pages
Unit 3
No ratings yet
Unit 3
28 pages
Fam Question Bank CT
No ratings yet
Fam Question Bank CT
14 pages
All About ML
No ratings yet
All About ML
18 pages
Data Analytics Unit IV
No ratings yet
Data Analytics Unit IV
36 pages
Data Science in FInancial Services - 3
No ratings yet
Data Science in FInancial Services - 3
76 pages
What Is Classification? What Is Prediction?
No ratings yet
What Is Classification? What Is Prediction?
36 pages
Supervised Learning in Healthcare
No ratings yet
Supervised Learning in Healthcare
6 pages
Unit Iv Material 06032025 Object Segmentation
No ratings yet
Unit Iv Material 06032025 Object Segmentation
38 pages
Unit-4 Data Mining
No ratings yet
Unit-4 Data Mining
19 pages
Data Analytics Unit4 Notes
No ratings yet
Data Analytics Unit4 Notes
3 pages
Data Mining
No ratings yet
Data Mining
18 pages
Machine Learning
No ratings yet
Machine Learning
32 pages
ChatGPT - Machine Learning Overview
No ratings yet
ChatGPT - Machine Learning Overview
34 pages
Machine Learning Concept1
No ratings yet
Machine Learning Concept1
16 pages
Marketing Analytics Week-8 LAQ
No ratings yet
Marketing Analytics Week-8 LAQ
4 pages
Predictive Analytics Updated
No ratings yet
Predictive Analytics Updated
30 pages
7118 Ds Methodology Ss
No ratings yet
7118 Ds Methodology Ss
56 pages
AIML105
No ratings yet
AIML105
5 pages
Machine Learning Notes ?
No ratings yet
Machine Learning Notes ?
14 pages
ML Complete Notes-AIDS
No ratings yet
ML Complete Notes-AIDS
115 pages
Predictive Analytics & Data Mining
No ratings yet
Predictive Analytics & Data Mining
15 pages
Predictive Unit 1
No ratings yet
Predictive Unit 1
22 pages
DWDM Unit-3
No ratings yet
DWDM Unit-3
9 pages
Module 2 MMC201
No ratings yet
Module 2 MMC201
25 pages
Big Data Analytics Unit 4
No ratings yet
Big Data Analytics Unit 4
17 pages
Unit 3 Ds
No ratings yet
Unit 3 Ds
10 pages
SML
No ratings yet
SML
8 pages
Da Mid 2
No ratings yet
Da Mid 2
12 pages
Presentation On Supervised Learning
No ratings yet
Presentation On Supervised Learning
8 pages
None
No ratings yet
None
16 pages
CH 5
No ratings yet
CH 5
19 pages
Classification
No ratings yet
Classification
5 pages
LBDL
No ratings yet
LBDL
185 pages
Introduction To Data Mining
No ratings yet
Introduction To Data Mining
9 pages
Introduction To Data Mining
No ratings yet
Introduction To Data Mining
13 pages
Unit 4 Learning
No ratings yet
Unit 4 Learning
5 pages
Example of Customer Data For Data Science Problems
No ratings yet
Example of Customer Data For Data Science Problems
5 pages
The Surprising Harmfulness of Benign Overfitting For
No ratings yet
The Surprising Harmfulness of Benign Overfitting For
47 pages
ML Revision
No ratings yet
ML Revision
5 pages
Unit 5 Healthcare Analytics GPT O4 Reasoning
No ratings yet
Unit 5 Healthcare Analytics GPT O4 Reasoning
29 pages
Machine Learning AL-405 GS Answers
No ratings yet
Machine Learning AL-405 GS Answers
3 pages
AIML Module-2.2 Notes
No ratings yet
AIML Module-2.2 Notes
55 pages
Machine Learning Basics
No ratings yet
Machine Learning Basics
3 pages
Econometrics Chapter 3
No ratings yet
Econometrics Chapter 3
24 pages
Day 1 Special Bonus
No ratings yet
Day 1 Special Bonus
23 pages
Certificate Courses - ML Curriculum
No ratings yet
Certificate Courses - ML Curriculum
7 pages
Forecasting Bitcoin Prices A Comparative Study of
No ratings yet
Forecasting Bitcoin Prices A Comparative Study of
19 pages
23CS0902
No ratings yet
23CS0902
13 pages
An Introduction To Convolutional Neural Networks - A Comprehensive Guide To CNNs in Deep Learning - DataCamp
No ratings yet
An Introduction To Convolutional Neural Networks - A Comprehensive Guide To CNNs in Deep Learning - DataCamp
14 pages
Optimizing Land Mine Detection Across Diverse Minin - 2024 - International Journ
No ratings yet
Optimizing Land Mine Detection Across Diverse Minin - 2024 - International Journ
13 pages
Augmenting and Eliminating The Use of Sonic Logs Using Artificial Intelligence A Comparative Evaluation
No ratings yet
Augmenting and Eliminating The Use of Sonic Logs Using Artificial Intelligence A Comparative Evaluation
18 pages
Applying Machine Learning Algorithms For The Classification of Sleep Disorders
No ratings yet
Applying Machine Learning Algorithms For The Classification of Sleep Disorders
12 pages
Torusity Sample Size Optimization
No ratings yet
Torusity Sample Size Optimization
14 pages
Comparison of Modeling Methods For Loss Given Default
No ratings yet
Comparison of Modeling Methods For Loss Given Default
14 pages
A Bootstrapping Soft Shrinkage Approach and
No ratings yet
A Bootstrapping Soft Shrinkage Approach and
17 pages
2020 - Zhang-Liang-Li-Wang-Wu - Research On Stock Prediction Model Based On Deep Learning - Journal of Physics Conference Series
No ratings yet
2020 - Zhang-Liang-Li-Wang-Wu - Research On Stock Prediction Model Based On Deep Learning - Journal of Physics Conference Series
8 pages
CSCI 5521 Spring 2025 Final Exam
No ratings yet
CSCI 5521 Spring 2025 Final Exam
8 pages
User Behavior Analysis via ML
No ratings yet
User Behavior Analysis via ML
7 pages
Decision Tree and Random Forest Based Novel Unsteady Aerodynamics Modeling Using Flight Data
No ratings yet
Decision Tree and Random Forest Based Novel Unsteady Aerodynamics Modeling Using Flight Data
7 pages
Rainfall Nowcasting Based On Satellite Images Using Convolutional Long-Short Term Memory
No ratings yet
Rainfall Nowcasting Based On Satellite Images Using Convolutional Long-Short Term Memory
5 pages
ADA Assignment - Final - 2022
No ratings yet
ADA Assignment - Final - 2022
6 pages
Chapter 1 (Class 9) Ai Reflection, Project Cycle and Ethics
No ratings yet
Chapter 1 (Class 9) Ai Reflection, Project Cycle and Ethics
3 pages
Untitled Document
No ratings yet
Untitled Document
6 pages
Data Science Basics for Beginners
No ratings yet
Data Science Basics for Beginners
3 pages
Machine Learning Interview Prep
No ratings yet
Machine Learning Interview Prep
2 pages
ML1 17 Hepsi
No ratings yet
ML1 17 Hepsi
90 pages

Data Analytics Unit4 FullNotes

Uploaded by

Data Analytics Unit4 FullNotes

Uploaded by

Data Analytics - Unit 4 Full Notes

1. Supervised vs Unsupervised Learning

Supervised Learning vs Unsupervised Learning:

| Feature | Supervised Learning | Unsupervised Learning |

- Retail: Personalizing product recommendations

Goal: Improve analysis, decision-making, and forecasting by understanding group-specific behavior.

Ensembles (Multiple Trees):

Applications: Credit scoring, medical diagnosis, churn prediction

4. Overfitting and Pruning

Pruning is used to reduce tree size and improve generalization.

Goal: Build a model that balances complexity and accuracy.

5. Measures of Forecast Accuracy

Choosing the Right Metric:

- Retail: Sales forecasting

Lower metric values indicate higher accuracy.

1. Trend: Long-term progression

You might also like