Program 6

The document outlines preprocessing steps and their importance for various machine learning algorithms, highlighting the necessity of handling missing values, encoding categorical variables, and normalizing data. It emphasizes that normalization is crucial for distance and gradient-based algorithms, while tree-based models are more robust to outliers and do not require scaling. Additionally, it notes the significance of correlation checks for linear models to prevent multicollinearity issues.

Uploaded by

geetha jeevanandham

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as DOCX, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

4 views3 pages

Program 6

Uploaded by

geetha jeevanandham

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as DOCX, PDF, TXT or read online on Scribd

You are on page 1/ 3

Preprocessing Steps vs ML Algorithms

Missing Correlation
Algorithm / Outlier Label/One-Hot Normalization /
Values Check / Feature
Model Removal Encoding Standardization
Handling Selection

✅ Important (scale ✅ Very useful

Linear ✅ One-Hot for
✅ Required ✅ Important improves (multicollinearity
Regression categorical
convergence) issue)

✅ Important (scale
Logistic ✅ One-Hot for
✅ Required ✅ Important improves ✅ Useful
Regression categorical
convergence)

KNN (K-Nearest ✅ Very ✅ Required

✅ Required ✅ Needed ✅ Optional
Neighbors) important (distance-based)

SVM (Support ✅ Required

✅ Required ✅ Important ✅ Needed ✅ Useful
Vector Machine) (distance-based)

✅ Label
Decision Tree ✅ Required ❌ Not critical Encoding ❌ Not required ✅ Optional
enough

✅ Label
Random Forest ✅ Required ❌ Not critical Encoding ❌ Not required ✅ Optional
enough

Gradient ✅ Required ❌ Less critical ✅ CatBoost ❌ Not required ✅ Optional

Boosting handles directly,
Missing Correlation
Algorithm / Outlier Label/One-Hot Normalization /
Values Check / Feature
Model Removal Encoding Standardization
Handling Selection

(XGBoost,
else Label/One-
LightGBM,
Hot
CatBoost)

✅ One-Hot
Naive Bayes ✅ Required ❌ Not critical Encoding ❌ Not required ✅ Optional
preferred

K-Means ✅ Required
✅ Required ✅ Important ✅ Needed ✅ Useful
Clustering (distance-based)

PCA
✅ Required (scale
(Dimensionality ✅ Required ✅ Important ✅ Needed ✅ Core step
before PCA)
Reduction)

✅ Important ✅ One-Hot
Neural Networks ✅ Required (speeds
✅ Required (helps Encoding for ✅ Optional
(Deep Learning) up training)
stability) categorical

Key Takeaways:

 Always handle missing values, encode categorical variables, and separate features/target.

 Normalization/Standardization is crucial for distance/gradient-based algorithms (KNN, SVM, K-

Means, PCA, Neural Nets).

 Outliers hurt linear/logistic regression, SVM, and KNN, but tree-based models are more robust.
 Tree models don’t need scaling, and Label Encoding is usually enough.

 Correlation check is especially important for linear models to avoid multicollinearity.

Machine Learning Model Workflow
No ratings yet
Machine Learning Model Workflow
3 pages
Introduction To Machine Learning
No ratings yet
Introduction To Machine Learning
3 pages
Data Science Checklist
No ratings yet
Data Science Checklist
22 pages
Machine Learning Long Answers
No ratings yet
Machine Learning Long Answers
4 pages
Aml Midsem
No ratings yet
Aml Midsem
59 pages
ML Notes All
No ratings yet
ML Notes All
32 pages
ML Data Preprocessing Guide
No ratings yet
ML Data Preprocessing Guide
5 pages
Machine Learning Guide for Experts
No ratings yet
Machine Learning Guide for Experts
3 pages
Data Preprocessing in Machine Learning
No ratings yet
Data Preprocessing in Machine Learning
4 pages
Introduction to Machine Learning Basics
No ratings yet
Introduction to Machine Learning Basics
5 pages
ML Viva Practice (Answers)
No ratings yet
ML Viva Practice (Answers)
4 pages
Unit-1 Introduction To Machine Learning (5hrs)
No ratings yet
Unit-1 Introduction To Machine Learning (5hrs)
8 pages
ML Presubmission Guidelines
No ratings yet
ML Presubmission Guidelines
2 pages
Supervised Learning Research Paper Final With Images
No ratings yet
Supervised Learning Research Paper Final With Images
11 pages
Intro to Machine Learning & kNN
No ratings yet
Intro to Machine Learning & kNN
90 pages
Module 1
No ratings yet
Module 1
25 pages
Introduction To Machine Learning Lecture Notes
No ratings yet
Introduction To Machine Learning Lecture Notes
3 pages
L0 Big Picture of ML - PMDS
No ratings yet
L0 Big Picture of ML - PMDS
12 pages
Lifecycle of ML
No ratings yet
Lifecycle of ML
12 pages
What Is Machine Learning
No ratings yet
What Is Machine Learning
13 pages
ML Syllabus
No ratings yet
ML Syllabus
10 pages
Machine Learning One Shot
No ratings yet
Machine Learning One Shot
4 pages
FML Solution 3
No ratings yet
FML Solution 3
11 pages
Aiml Scratch Roadmap
No ratings yet
Aiml Scratch Roadmap
2 pages
MCS224 Dec 2024 Solved
No ratings yet
MCS224 Dec 2024 Solved
22 pages
Machine Learning for Beginners
No ratings yet
Machine Learning for Beginners
18 pages
Assignment
No ratings yet
Assignment
5 pages
Workflow of A Machine Learning Project
No ratings yet
Workflow of A Machine Learning Project
12 pages
ML Workflow Steps: Step 2: Building Dataset
No ratings yet
ML Workflow Steps: Step 2: Building Dataset
5 pages
Machine Learning Syllabus
No ratings yet
Machine Learning Syllabus
5 pages
Unit 4 - Question Bank and Answers
No ratings yet
Unit 4 - Question Bank and Answers
23 pages
Chapter 02 Overview - 4
No ratings yet
Chapter 02 Overview - 4
43 pages
Introduction To Machine Learning
No ratings yet
Introduction To Machine Learning
5 pages
Ass Bigd
No ratings yet
Ass Bigd
9 pages
1725892639module 3 The Machine Learning Process
No ratings yet
1725892639module 3 The Machine Learning Process
17 pages
Present Explain
No ratings yet
Present Explain
11 pages
ML Lectures Summary 2
No ratings yet
ML Lectures Summary 2
52 pages
Machine Learning Spark ML
No ratings yet
Machine Learning Spark ML
11 pages
Introduction To AIML
No ratings yet
Introduction To AIML
19 pages
Roadmap
No ratings yet
Roadmap
6 pages
ML Revision
No ratings yet
ML Revision
207 pages
Methods and Models
No ratings yet
Methods and Models
12 pages
Social Media Analytics Techniques
No ratings yet
Social Media Analytics Techniques
77 pages
ML Quiz-1
No ratings yet
ML Quiz-1
4 pages
AAM 1st Unit QB
No ratings yet
AAM 1st Unit QB
4 pages
2-ML Principles
No ratings yet
2-ML Principles
34 pages
Machine Learning Roadmap PDF
No ratings yet
Machine Learning Roadmap PDF
4 pages
ML Notes
No ratings yet
ML Notes
16 pages
Machine Learning Project Checklist
No ratings yet
Machine Learning Project Checklist
30 pages
Machine Learning
No ratings yet
Machine Learning
28 pages
DPT Week 1
No ratings yet
DPT Week 1
3 pages
? Friendship Quotes by Muzamil Aslam
No ratings yet
? Friendship Quotes by Muzamil Aslam
3 pages
Learning To Identify The Right Machine Learning Algorithm
No ratings yet
Learning To Identify The Right Machine Learning Algorithm
3 pages
A Practical and Technical Introduction To Machine Learning
No ratings yet
A Practical and Technical Introduction To Machine Learning
23 pages
Full ml-2
No ratings yet
Full ml-2
1 page
Machine Learning Life Cycle
No ratings yet
Machine Learning Life Cycle
11 pages
Customer Segmentation With K-Means Clustering and Visualization - Colab
No ratings yet
Customer Segmentation With K-Means Clustering and Visualization - Colab
3 pages
Association Rules
No ratings yet
Association Rules
20 pages
Thesis Report
No ratings yet
Thesis Report
44 pages
V05 SS24 DL CNNs Lecture2
No ratings yet
V05 SS24 DL CNNs Lecture2
73 pages
Text Generation With LSTM Recurrent Neural Networks in Python With Keras
No ratings yet
Text Generation With LSTM Recurrent Neural Networks in Python With Keras
23 pages
AIML Assignment II
No ratings yet
AIML Assignment II
2 pages
ANN Updated Syllabus
No ratings yet
ANN Updated Syllabus
2 pages
Sppu ML 2023 End Term
No ratings yet
Sppu ML 2023 End Term
2 pages
(Ijeta-V8i5p4) :anupama Usha
No ratings yet
(Ijeta-V8i5p4) :anupama Usha
3 pages
Deep Learning Algorithms Report PDF
No ratings yet
Deep Learning Algorithms Report PDF
11 pages
Ad3511 Practical Questions
No ratings yet
Ad3511 Practical Questions
3 pages
Frequent Pattern Based Clustering
No ratings yet
Frequent Pattern Based Clustering
4 pages
Question Bank AML
No ratings yet
Question Bank AML
4 pages
Kishor
No ratings yet
Kishor
9 pages
Neural Computation: Exercise Sheet 5
No ratings yet
Neural Computation: Exercise Sheet 5
2 pages
A Text Classification Model Based On GCN and BiGRU Fusion
No ratings yet
A Text Classification Model Based On GCN and BiGRU Fusion
5 pages
Machine Learning Exam Questions
No ratings yet
Machine Learning Exam Questions
3 pages
Clustering Analysis
No ratings yet
Clustering Analysis
30 pages
Introduction To Classification - PPT Slides 1
No ratings yet
Introduction To Classification - PPT Slides 1
62 pages
Classification by Back Propagation
No ratings yet
Classification by Back Propagation
20 pages
Data Mining Practical Guide
No ratings yet
Data Mining Practical Guide
27 pages
Mtech It 2 Sem Soft Computing 2012
No ratings yet
Mtech It 2 Sem Soft Computing 2012
3 pages
cs231n 2018 Midterm Review-2 PDF
No ratings yet
cs231n 2018 Midterm Review-2 PDF
86 pages
Assignment 3
No ratings yet
Assignment 3
6 pages
20CS1107
No ratings yet
20CS1107
2 pages
Classifier Evaluation for Researchers
No ratings yet
Classifier Evaluation for Researchers
49 pages
GenAI Workshop Schedule
No ratings yet
GenAI Workshop Schedule
4 pages
Perceptron and Gradient Descent Calculations
No ratings yet
Perceptron and Gradient Descent Calculations
43 pages
Neural Network and Fuzzy Logic
No ratings yet
Neural Network and Fuzzy Logic
4 pages
Algorithm - Pseudocode of 2D CNN
No ratings yet
Algorithm - Pseudocode of 2D CNN
7 pages

Program 6

Uploaded by

Program 6

Uploaded by

Preprocessing Steps vs ML Algorithms

✅ Important (scale ✅ Very useful

KNN (K-Nearest ✅ Very ✅ Required

SVM (Support ✅ Required

Gradient ✅ Required ❌ Less critical ✅ CatBoost ❌ Not required ✅ Optional

 Normalization/Standardization is crucial for distance/gradient-based algorithms (KNN, SVM, K-

 Correlation check is especially important for linear models to avoid multicollinearity.

You might also like