4.4. Data Standardization - Ipynb - Colaboratory

The document discusses data standardization using the StandardScaler. It loads breast cancer data, splits it into training and test sets, then standardizes the training data using the StandardScaler. The StandardScaler transforms the training data to have mean 0 and standard deviation 1 based on the training data statistics. It then transforms the test data using the same parameters to put it on the same scale as the training data.

Uploaded by

lokesh k

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

27 views1 page

4.4. Data Standardization - Ipynb - Colaboratory

Uploaded by

lokesh k

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 1

StandardScaler(copy=True, with_mean=True, with_std=True)

Data Standardization:

The process of standardizing the data to a common format and common range X_train_standardized = scaler.transform(X_train)

import numpy as np print(X_train_standardized)

import pandas as pd
import sklearn.datasets [[ 1.40381088 1.79283426 1.37960065 ... 1.044121 0.52295995
from sklearn.preprocessing import StandardScaler 0.64990763]
from sklearn.model_selection import train_test_split [ 1.16565505 -0.14461158 1.07121375 ... 0.5940779 0.44153782
-0.85281516]
[-0.0307278 -0.77271123 -0.09822185 ... -0.64047556 -0.31161687
# loading the dataset -0.69292805]
dataset = sklearn.datasets.load_breast_cancer() ...
[ 1.06478904 0.20084323 0.89267396 ... 0.01694621 3.06583565
-1.29952679]
# loading the data to a pandas dataframe [ 1.51308238 2.3170559 1.67987211 ... 1.14728703 -0.16599653
df = pd.DataFrame(dataset.data, columns=dataset.feature_names) 0.82816016]
[-0.73678981 -1.02636686 -0.74380549 ... -0.31826862 -0.40713129
-0.38233653]]
df.head()

X_test_standardized = scaler.transform(X_test)
mean mean
mean mean mean mean mean mean mean mean radius texture perimeter
concave fractal
radius texture perimeter area smoothness compactness concavity symmetry error error error e
points dimension print(X_train_standardized.std())

0 17.99 10.38 122.80 1001.0 0.11840 0.27760 0.3001 0.14710 0.2419 0.07871 1.0950 0.9053 8.589 1 1.0
1 20.57 17.77 132.90 1326.0 0.08474 0.07864 0.0869 0.07017 0.1812 0.05667 0.5435 0.7339 3.398

2 19.69 21.25 130.00 1203.0 0.10960 0.15990 0.1974 0.12790 0.2069 0.05999 0.7456 0.7869 4.585 print(X_test_standardized.std())

3 11.42 20.38 77.58 386.1 0.14250 0.28390 0.2414 0.10520 0.2597 0.09744 0.4956 1.1560 3.445 0.8654541077212674

4 20.29 14.34 135.10 1297.0 0.10030 0.13280 0.1980 0.10430 0.1809 0.05883 0.7572 0.7813 5.438

df.shape

(569, 30)

X = df
Y = dataset.target

print(X)

mean radius mean texture ... worst symmetry worst fractal dimension
0 17.99 10.38 ... 0.4601 0.11890
1 20.57 17.77 ... 0.2750 0.08902
2 19.69 21.25 ... 0.3613 0.08758
3 11.42 20.38 ... 0.6638 0.17300
4 20.29 14.34 ... 0.2364 0.07678
.. ... ... ... ... ...
564 21.56 22.39 ... 0.2060 0.07115
565 20.13 28.25 ... 0.2572 0.06637
566 16.60 28.08 ... 0.2218 0.07820
567 20.60 29.33 ... 0.4087 0.12400
568 7.76 24.54 ... 0.2871 0.07039

[569 rows x 30 columns]

Splitting the data into training data and test data

X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=0.2, random_state=3)

print(X.shape, X_train.shape, X_test.shape)

(569, 30) (455, 30) (114, 30)

Standardize the data

print(dataset.data.std())

account_circle 228.29740508276657
Code Text
scaler = StandardScaler()

scaler.fit(X_train)

Internal Combustion Engine Fundamentals 2nd Edition
94% (17)
Internal Combustion Engine Fundamentals 2nd Edition
426 pages
Senarai Amali Fizik SPM Ting 4
100% (4)
Senarai Amali Fizik SPM Ting 4
52 pages
CH 4 Determinants Multiple Choice Questions With Answers PDF
No ratings yet
CH 4 Determinants Multiple Choice Questions With Answers PDF
4 pages
Solution Manual For Introductory Statistics 8th Edition by Mann
44% (16)
Solution Manual For Introductory Statistics 8th Edition by Mann
5 pages
Tablas de Distribucion Normal Estandar
100% (1)
Tablas de Distribucion Normal Estandar
7 pages
38_SAE International Journal of Passenger Cars - Mechanical Systems Volume 7 Issue 1 2014 [Doi 10.4271_2014!01!0872] Li, Bin; Yang, Xiaobo; Yang, James -- Tire Model Application and Parameter Identific
No ratings yet
38_SAE International Journal of Passenger Cars - Mechanical Systems Volume 7 Issue 1 2014 [Doi 10.4271_2014!01!0872] Li, Bin; Yang, Xiaobo; Yang, James -- Tire Model Application and Parameter Identific
13 pages
Project 3 - Diabetes Prediction - Ipynb - Colab
No ratings yet
Project 3 - Diabetes Prediction - Ipynb - Colab
4 pages
Shreve S.E. Stochastic Calculus For Finance I.. The Binomial Asset Pricing Model
No ratings yet
Shreve S.E. Stochastic Calculus For Finance I.. The Binomial Asset Pricing Model
203 pages
Diesel Engine Tune-Up Guide
No ratings yet
Diesel Engine Tune-Up Guide
4 pages
Well - Stimulation Techniques - For Geothermal - Projects in Sedimentary Basins
No ratings yet
Well - Stimulation Techniques - For Geothermal - Projects in Sedimentary Basins
175 pages
Hydraulic Jack Chap 1
No ratings yet
Hydraulic Jack Chap 1
14 pages
Babok 3.0 Tasks & Their Inputs and Outputs
100% (2)
Babok 3.0 Tasks & Their Inputs and Outputs
6 pages
Working With Files: A Presentation On
No ratings yet
Working With Files: A Presentation On
27 pages
Grade 7/8 Carpentry Measurements
No ratings yet
Grade 7/8 Carpentry Measurements
14 pages
TG - Momentum, Acceleration
No ratings yet
TG - Momentum, Acceleration
25 pages
Breast Cancer Diagnosis 1703707725
No ratings yet
Breast Cancer Diagnosis 1703707725
52 pages
Machine Learning - Lab Record
No ratings yet
Machine Learning - Lab Record
43 pages
Pinto - pm2 - Session 4 - Shared Slides
No ratings yet
Pinto - pm2 - Session 4 - Shared Slides
78 pages
Sci8-Q1-W5-6-L2-3 - Work, Power and Energy
No ratings yet
Sci8-Q1-W5-6-L2-3 - Work, Power and Energy
4 pages
Formula Final
No ratings yet
Formula Final
4 pages
Fluid Statics and Fluid Dynamics General Physics 1
No ratings yet
Fluid Statics and Fluid Dynamics General Physics 1
41 pages
Random Forest
No ratings yet
Random Forest
5 pages
21BDS0357 VL2024250504577 Ast02
No ratings yet
21BDS0357 VL2024250504577 Ast02
5 pages
50 Inference
No ratings yet
50 Inference
31 pages
Exercise 10
No ratings yet
Exercise 10
4 pages
Project 1
No ratings yet
Project 1
6 pages
DATA SCIENCE IDC 302 End Sem Project
No ratings yet
DATA SCIENCE IDC 302 End Sem Project
1 page
04 Fode 2
No ratings yet
04 Fode 2
27 pages
Mlda - Lab
No ratings yet
Mlda - Lab
35 pages
KNN - Jupyter Notebook
No ratings yet
KNN - Jupyter Notebook
7 pages
Unsupervised ML
No ratings yet
Unsupervised ML
17 pages
Wipro Technical Interview Questions
No ratings yet
Wipro Technical Interview Questions
3 pages
ML Program 7, 8,9 And10
No ratings yet
ML Program 7, 8,9 And10
12 pages
CVVT (Continuously Variable Valve Timing) System: Description
No ratings yet
CVVT (Continuously Variable Valve Timing) System: Description
3 pages
EXAMEN
No ratings yet
EXAMEN
11 pages
Pca 2382487
No ratings yet
Pca 2382487
8 pages
Phy Pract Mock
No ratings yet
Phy Pract Mock
9 pages
Code
No ratings yet
Code
5 pages
PCA
No ratings yet
PCA
23 pages
Practical 6
No ratings yet
Practical 6
6 pages
ML Labs
No ratings yet
ML Labs
14 pages
Data Mining Lab Manual
No ratings yet
Data Mining Lab Manual
7 pages
Tabel Log
No ratings yet
Tabel Log
28 pages
7.6 Magnitude Earthquake in Kahramanmaras, Türkiye
No ratings yet
7.6 Magnitude Earthquake in Kahramanmaras, Türkiye
236 pages
Chapter 3 Methods of Lead Optimization
No ratings yet
Chapter 3 Methods of Lead Optimization
23 pages
Grin 5
No ratings yet
Grin 5
4 pages
Grin 7
No ratings yet
Grin 7
4 pages
Model Training
No ratings yet
Model Training
6 pages
Importing Libraries: Pandas PD Matplotlib - Pyplot PLT Numpy NP
No ratings yet
Importing Libraries: Pandas PD Matplotlib - Pyplot PLT Numpy NP
10 pages
20BCP021 Assignment 3
No ratings yet
20BCP021 Assignment 3
7 pages
Grin 4
No ratings yet
Grin 4
4 pages
7 Output
No ratings yet
7 Output
4 pages
Mini Project With Output
No ratings yet
Mini Project With Output
8 pages
Data Preparation
No ratings yet
Data Preparation
11 pages
BHMC17 P5.ipynb - Colaboratory
No ratings yet
BHMC17 P5.ipynb - Colaboratory
4 pages
Data Standardization & Normalization
No ratings yet
Data Standardization & Normalization
3 pages
Week 4 Naive Bayes Classifier
No ratings yet
Week 4 Naive Bayes Classifier
2 pages
Binned Data
No ratings yet
Binned Data
1 page
MNIST Digit Recognition Guide
No ratings yet
MNIST Digit Recognition Guide
8 pages
Việt Cường
No ratings yet
Việt Cường
14 pages
Stucor Ma3351 Er
No ratings yet
Stucor Ma3351 Er
149 pages
Project Coding-Manish Dwari 1807
No ratings yet
Project Coding-Manish Dwari 1807
1 page
Knksdvs
No ratings yet
Knksdvs
4 pages
EXAM PREPERATION - Ipynb - Colaboratory-1
No ratings yet
EXAM PREPERATION - Ipynb - Colaboratory-1
8 pages
Roll NO 2020
No ratings yet
Roll NO 2020
8 pages
Lab 8
No ratings yet
Lab 8
8 pages
Python - How To Make A 4d Plot With Matplotlib Using Arbitrary Data - Stack Overflow
No ratings yet
Python - How To Make A 4d Plot With Matplotlib Using Arbitrary Data - Stack Overflow
13 pages
ML LAB 12 - Jupyter Notebook
No ratings yet
ML LAB 12 - Jupyter Notebook
11 pages
Diabetic Retinopathy Risk Modeling
No ratings yet
Diabetic Retinopathy Risk Modeling
24 pages
Dell Inspiron n5110 m5110 Dq15 Wistron Queen 15 Intel Discrete Uma Sandy Bridge Rev A00 SCH
No ratings yet
Dell Inspiron n5110 m5110 Dq15 Wistron Queen 15 Intel Discrete Uma Sandy Bridge Rev A00 SCH
108 pages
Philosophy, Scientific Knowledge, and Concept Formation in Guelincx and Descartes
No ratings yet
Philosophy, Scientific Knowledge, and Concept Formation in Guelincx and Descartes
460 pages
Coffee Habits of Mumbai Students
No ratings yet
Coffee Habits of Mumbai Students
12 pages
Ppmconversiontable 14 H
No ratings yet
Ppmconversiontable 14 H
6 pages
Digital Assignment - 2: Name-Amrutkar Pranit Sanjay Reg. No. - 15BME0741 Slot - E2 + TE2 Faculty - Prof. Murugan
No ratings yet
Digital Assignment - 2: Name-Amrutkar Pranit Sanjay Reg. No. - 15BME0741 Slot - E2 + TE2 Faculty - Prof. Murugan
17 pages
202,203, P205, P208 Bus Timetable
No ratings yet
202,203, P205, P208 Bus Timetable
6 pages
Standard Normal Distribution Table
No ratings yet
Standard Normal Distribution Table
3 pages
Control Structures in PLSQL
No ratings yet
Control Structures in PLSQL
8 pages
Logistic Regression For Binary Classification With Core APIs - TensorFlow Core
No ratings yet
Logistic Regression For Binary Classification With Core APIs - TensorFlow Core
22 pages
2023 Assessments Final
No ratings yet
2023 Assessments Final
12 pages
Asmus CV
No ratings yet
Asmus CV
4 pages
Hydroponic Gardening Guide
No ratings yet
Hydroponic Gardening Guide
11 pages
Network Optimization Checklist
No ratings yet
Network Optimization Checklist
6 pages

4.4. Data Standardization - Ipynb - Colaboratory

Uploaded by

4.4. Data Standardization - Ipynb - Colaboratory

Uploaded by

StandardScaler(copy=True, with_mean=True, with_std=True)

import numpy as np print(X_train_standardized)

[569 rows x 30 columns]

Splitting the data into training data and test data

X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=0.2, random_state=3)

print(X.shape, X_train.shape, X_test.shape)

(569, 30) (455, 30) (114, 30)

Standardize the data

You might also like