Day 4 - Preprocessing, Model Code

Uploaded by

cpusingpython

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

12 views5 pages

Day 4 - Preprocessing, Model Code

Uploaded by

cpusingpython

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 5

Feb 25, 2025

Class #4:

—-----------------------------------------------------------------------------------------------------------------------------------------

📌 Outliers: Outliers are data points that are significantly different from the rest of the data.
In a Dataset:
Data: [10, 12, 11, 13, 1000]
Here, 1000 is an outlier because it is much larger than the other values.

—-----------------------------------------------------------------------------------------------------------------------------------------

📌 Normalization
- Normalization is a technique used to scale or transform data into a specific range.
- It helps in making different features (variables) comparable and improves the performance of
machine learning algorithms.

✒️ Types of Normalization:
1. Min-Max Normalization: Scales data to a fixed range, (usually 0 to 1 or -1 to 1)..

2. Z-Score Standardization: Transforms data to have a mean of 0 and a standard deviation of 1.

✒️ Why do we need normalization for multiple features? :

- Avoids Dominance: Ensures no feature disproportionately influences the model.
- Speeds up Convergence: Helps gradient descent reach the minimum faster.
- Improves Accuracy: Makes distance-based models more reliable.
- Prevents Numerical Instability: Avoids calculation errors due to large values.

✒️ Normalization with single features :

- Helps with extreme values, speeding up learning.
- Makes hyperparameter tuning easier.

✒️ Effects with Activation Functions :

—-----------------------------------------------------------------------------------------------------------------------------------------

📌 Preprocessing
The process of preparing raw data for analysis by cleaning, transforming, and organizing it to improve
model accuracy and efficiency.

📌 Tokenization, Encoding, and Embedding

✒️ Tokenization: The process of breaking down text into smaller units called tokens, such as words or
subwords.
Example: "Machine learning is fun" → ['Machine', 'learning', 'is', 'fun']
✒️ Encoding: Converting tokens into numerical representations (integers) that models can process.
Example: ['Machine', 'learning', 'is', 'fun'] → [1, 2, 3, 4]

✒️ Embeddings: Embeddings are continuous vector representations of words or categories that

capture their meanings and relationships in a lower-dimensional space.

How it works:
- Words or categories are represented as vectors in a multi-dimensional space
- Similar words have vectors that are closer together

Example: Vector('king') - Vector('man') + Vector('woman') ≈ Vector('queen')

Commonly used Embedding Models: Word2Vec, GloVe, BERT

—-----------------------------------------------------------------------------------------------------------------------------------------

✒️ When we perform Loss Calculation then:

- Binary Cross-Entropy works well with targets like 0 and 1, common in classification.
- MSE and MAE are sensitive to the scale of the target values. If targets have large ranges,
normalization can improve performance and stability.

—-----------------------------------------------------------------------------------------------------------------------------------------

📌 Convolution
Convolution is an operation that applies a filter (kernel) to an input (like an image) to extract features
such as edges, textures, or patterns.

✒️ Modes of Convolution:
- Valid Convolution:
- No padding is added, so the output is smaller than the input.
- The filter moves horizontally and vertically without going outside the input's borders.

Example: Input size 5x5 convolved with a 3x3 filter results in a 3x3 output.

- Same Convolution:
- Padding is added to keep the output size the same as the input.
- The filter slides horizontally and vertically, including padded borders.

Example: Input size 5x5 with a 3x3 filter and padding of 1 results in a 5x5 output.

- Full Convolution:
- Padding is added so that every element of the input is visited by the filter, resulting in a
larger output.
- The filter starts outside the input boundary, moving horizontally and vertically over fully
padded edges.

Example: Input size 5x5 with a 3x3 filter produces a 7x7 output.

—-----------------------------------------------------------------------------------------------------------------------------------------

📌 Keras Overview
- Keras: High-level API for building neural networks, integrated into TensorFlow.

✒️ Common Keras APIs:

✒️ Keras Components:
✒️ A Simple model Lifecycle:

CS230
No ratings yet
CS230
101 pages
Hacker's Guide To Machine Learning With Python Venelin Valkov Z
No ratings yet
Hacker's Guide To Machine Learning With Python Venelin Valkov Z
240 pages
Day 11 - LangChain, LangGraph
No ratings yet
Day 11 - LangChain, LangGraph
3 pages
Exercise #1 7 - 4 - 2025
100% (1)
Exercise #1 7 - 4 - 2025
3 pages
CSC413 Lecture Note
No ratings yet
CSC413 Lecture Note
32 pages
Ir Imp Qna Bai515b (Information Retrieval) 3,5,4,5
No ratings yet
Ir Imp Qna Bai515b (Information Retrieval) 3,5,4,5
14 pages
Deep Learning with Keras Basics
No ratings yet
Deep Learning with Keras Basics
58 pages
Data Science & AI
No ratings yet
Data Science & AI
10 pages
MCQ For Data Science Users DR Dhananjay Bisen DR Neeraj Sahu DR Brijesh
No ratings yet
MCQ For Data Science Users DR Dhananjay Bisen DR Neeraj Sahu DR Brijesh
17 pages
DL Practical File
No ratings yet
DL Practical File
58 pages
AI ML Concepts
No ratings yet
AI ML Concepts
97 pages
Exam Preparation Notes
No ratings yet
Exam Preparation Notes
31 pages
Machine Learning Engineer Interview Preparation Guide
No ratings yet
Machine Learning Engineer Interview Preparation Guide
14 pages
PDF Hyperparameter Tuning Batch Normalization
No ratings yet
PDF Hyperparameter Tuning Batch Normalization
11 pages
Training Neural Netwok: Data Set
No ratings yet
Training Neural Netwok: Data Set
35 pages
ML Notes All
No ratings yet
ML Notes All
32 pages
ML With Unstructured Data
No ratings yet
ML With Unstructured Data
13 pages
Big Data Meets Social Media: Predicting Cyberbullying With Machine Learning Algorithms
No ratings yet
Big Data Meets Social Media: Predicting Cyberbullying With Machine Learning Algorithms
10 pages
CNN Slides PDF
No ratings yet
CNN Slides PDF
81 pages
Machine Learning Engineer Cheatsheet
No ratings yet
Machine Learning Engineer Cheatsheet
3 pages
Machine Learning Model Workflow
No ratings yet
Machine Learning Model Workflow
3 pages
MLTAHER
No ratings yet
MLTAHER
14 pages
Gradient-Based Learning & Neural Networks
No ratings yet
Gradient-Based Learning & Neural Networks
72 pages
2-Machine Learning & Deep Learning
No ratings yet
2-Machine Learning & Deep Learning
87 pages
DR Basit Assignments
No ratings yet
DR Basit Assignments
13 pages
Assignment3 - DeepLearning
No ratings yet
Assignment3 - DeepLearning
16 pages
Unit 6aics
No ratings yet
Unit 6aics
25 pages
Day 2 - Loss & Activation Functions
No ratings yet
Day 2 - Loss & Activation Functions
8 pages
001-2023-0921 DLMDSBDT01 Course Book
No ratings yet
001-2023-0921 DLMDSBDT01 Course Book
124 pages
Concept 2 Nearlyfinished
No ratings yet
Concept 2 Nearlyfinished
17 pages
ML Revision
No ratings yet
ML Revision
207 pages
ML Viva Practice (Answers)
No ratings yet
ML Viva Practice (Answers)
4 pages
Assignment Jaiprakash
No ratings yet
Assignment Jaiprakash
5 pages
Module 1 Lab 2
No ratings yet
Module 1 Lab 2
7 pages
Deep Learning Notes
No ratings yet
Deep Learning Notes
155 pages
ML Imp Ques 1
No ratings yet
ML Imp Ques 1
22 pages
Machine Learning Dataset Handling Guide
No ratings yet
Machine Learning Dataset Handling Guide
15 pages
Machine Learning
No ratings yet
Machine Learning
9 pages
AWS Machine Learning Specialty Master Cheat Sheet
No ratings yet
AWS Machine Learning Specialty Master Cheat Sheet
24 pages
MSDSModule 2
No ratings yet
MSDSModule 2
35 pages
Overfitting & Feature Engineering
No ratings yet
Overfitting & Feature Engineering
37 pages
PYTHON PROGRAMMING FOR MACHINE LEARNING-220901004 - Compressed
No ratings yet
PYTHON PROGRAMMING FOR MACHINE LEARNING-220901004 - Compressed
6 pages
AI - ML Beginner-Friendly Resources For Cs
No ratings yet
AI - ML Beginner-Friendly Resources For Cs
9 pages
UCS - 401 - Unit-LV - Trends in Machine Learning - Model and Symbols - Bagging and Boosting, Multitask
No ratings yet
UCS - 401 - Unit-LV - Trends in Machine Learning - Model and Symbols - Bagging and Boosting, Multitask
44 pages
TensorFlow
No ratings yet
TensorFlow
6 pages
DPT Week 1
No ratings yet
DPT Week 1
3 pages
Day 2 - Loss & Activation Functions
No ratings yet
Day 2 - Loss & Activation Functions
18 pages
Keras
No ratings yet
Keras
4 pages
Computer Vision NN Architecture
No ratings yet
Computer Vision NN Architecture
19 pages
Data Visualization Using Python
No ratings yet
Data Visualization Using Python
79 pages
18ai61-Model Question Paper Solutions
No ratings yet
18ai61-Model Question Paper Solutions
71 pages
Week-1 ML Slides
No ratings yet
Week-1 ML Slides
16 pages
Kenny-230718-The Ultimate Machine Learning Cheat Sheet
No ratings yet
Kenny-230718-The Ultimate Machine Learning Cheat Sheet
20 pages
Comprehensive Overview of Common ML Techniques
No ratings yet
Comprehensive Overview of Common ML Techniques
7 pages
AAM 1st Unit QB
No ratings yet
AAM 1st Unit QB
4 pages
CNN Image Classification Guide
No ratings yet
CNN Image Classification Guide
20 pages
DEC - Unit II Data Pre-Processing
No ratings yet
DEC - Unit II Data Pre-Processing
96 pages
Dat 300
No ratings yet
Dat 300
12 pages
Study Structure
No ratings yet
Study Structure
13 pages
3-Data Pre-Processing
No ratings yet
3-Data Pre-Processing
18 pages
SRS (Software Requirements Specification) Document
No ratings yet
SRS (Software Requirements Specification) Document
14 pages
Week 6 & 7 Notes
No ratings yet
Week 6 & 7 Notes
28 pages
7 CNN 3
No ratings yet
7 CNN 3
30 pages
Day 4 - Data Preprocessing, Model Code
No ratings yet
Day 4 - Data Preprocessing, Model Code
17 pages
IMDB Movie Analysis
No ratings yet
IMDB Movie Analysis
80 pages
1 s2.0 S0957417422020073 Main
No ratings yet
1 s2.0 S0957417422020073 Main
11 pages
Image Processing
No ratings yet
Image Processing
5 pages
Neural Network Classification With
No ratings yet
Neural Network Classification With
25 pages
How To Build Ann and CNN: in Tensorflow 2.0
No ratings yet
How To Build Ann and CNN: in Tensorflow 2.0
19 pages
Water 17 01235 v3
No ratings yet
Water 17 01235 v3
27 pages
Day 3 - Math & Convolution
No ratings yet
Day 3 - Math & Convolution
4 pages
BBBB
No ratings yet
BBBB
8 pages
Data Mining Basic Techniques
No ratings yet
Data Mining Basic Techniques
14 pages
Day 14 & 15 - Vector DBS, RAG
No ratings yet
Day 14 & 15 - Vector DBS, RAG
19 pages
Final Int. Report
No ratings yet
Final Int. Report
14 pages
Automated Resume Classification System Using Ensemble Learning
No ratings yet
Automated Resume Classification System Using Ensemble Learning
4 pages
Int233projectreport Subject
No ratings yet
Int233projectreport Subject
34 pages
Resume Parser Progress
No ratings yet
Resume Parser Progress
11 pages
Efficient Data Search and Retrieval in Cloud Assisted Iot Environment
No ratings yet
Efficient Data Search and Retrieval in Cloud Assisted Iot Environment
6 pages
Northbay Summarizes Data Pre-Processing Algorithms
No ratings yet
Northbay Summarizes Data Pre-Processing Algorithms
10 pages
Viva Questions
No ratings yet
Viva Questions
6 pages
ML-Based Network Intrusion Detection
No ratings yet
ML-Based Network Intrusion Detection
3 pages
Capstone Final
No ratings yet
Capstone Final
55 pages
U-Net for Touchless Fingerprints
No ratings yet
U-Net for Touchless Fingerprints
41 pages
Course Project - Machine Learning (DS PGC)
No ratings yet
Course Project - Machine Learning (DS PGC)
6 pages
Name Matching
No ratings yet
Name Matching
14 pages
Unit-1 2
No ratings yet
Unit-1 2
25 pages
Two-Layer Intrusion Detection System For Security in Internet of Things-2
No ratings yet
Two-Layer Intrusion Detection System For Security in Internet of Things-2
50 pages
SecureScope: Secure Surveillance Tool
No ratings yet
SecureScope: Secure Surveillance Tool
35 pages
Chapter 3
No ratings yet
Chapter 3
9 pages
Autonomous Car Lane Detection Model
No ratings yet
Autonomous Car Lane Detection Model
16 pages
Ieee - 2024 - Fracture Identification in Facial Bone X-Rays - Journel
No ratings yet
Ieee - 2024 - Fracture Identification in Facial Bone X-Rays - Journel
12 pages
Practical 2 - Working With Scikit-Learn
No ratings yet
Practical 2 - Working With Scikit-Learn
6 pages