0% found this document useful (0 votes)

58 views6 pages

Untitled0.ipynb - Colab

The document contains a data analysis workflow using Python libraries such as pandas and numpy to process a Diwali sales dataset. It includes data loading, inspection, cleaning (removing null values and duplicates), and basic statistical description of the dataset. The dataset consists of 12,751 entries with various attributes like user ID, customer name, product details, and sales amounts.

Uploaded by

fearless61022

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

58 views6 pages

Untitled0.ipynb - Colab

Uploaded by

fearless61022

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 6

import numpy as np

import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

pen_spark Generate a slider using jupyter widgets search Close

df = pd.read_csv('/DiwaliSalesData.csv', encoding='unicode_escape')
df.head()
df.tail()

Age
User_ID Cust_name Product_ID Gender Age Marital_Status State Zone Occupation Product_Category Orders Amount S
Group

11246 1000695 Manning P00296942 M 18-25 19 1 Maharashtra Western Chemical Office 4 370.0

11247 1004089 Reichenbach P00171342 M 26-35 33 0 Haryana Northern Healthcare Veterinary 3 367.0

Madhya
11248 1001209 Oshin P00201342 F 36-45 40 0 Central Textile Office 4 213.0
Pradesh

11249 1004023 Noonan P00059442 M 36-45 37 0 Karnataka Southern Agriculture Office 3 206.0

11250 1002744 Brumley P00281742 F 18-25 19 0 Maharashtra Western Healthcare Office 3 188.0

df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 11251 entries, 0 to 11250
Data columns (total 15 columns):
# Column Non-Null Count Dtype
--- ------ -------------- -----
0 User_ID 11251 non-null int64
1 Cust_name 11251 non-null object
2 Product_ID 11251 non-null object
3 Gender 11251 non-null object
4 Age Group 11251 non-null object
5 Age 11251 non-null int64
6 Marital_Status 11251 non-null int64
7 State 11251 non-null object
8 Zone 11251 non-null object
9 Occupation 11251 non-null object
10 Product_Category 11251 non-null object
11 Orders 11251 non-null int64
12 Amount 11239 non-null float64
13 Status 0 non-null float64
14 unnamed1 0 non-null float64
dtypes: float64(3), int64(4), object(8)
memory usage: 1.3+ MB
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 11251 entries, 0 to 11250
Data columns (total 15 columns):
# Column Non-Null Count Dtype
--- ------ -------------- -----
0 User_ID 11251 non-null int64
1 Cust_name 11251 non-null object
2 Product_ID 11251 non-null object
3 Gender 11251 non-null object
4 Age Group 11251 non-null object
5 Age 11251 non-null int64
6 Marital_Status 11251 non-null int64
7 State 11251 non-null object
8 Zone 11251 non-null object
9 Occupation 11251 non-null object
10 Product_Category 11251 non-null object
11 Orders 11251 non-null int64
12 Amount 11239 non-null float64
13 Status 0 non-null float64
14 unnamed1 0 non-null float64
dtypes: float64(3), int64(4), object(8)
memory usage: 1.3+ MB

df.isnull()
Age
User_ID Cust_name Product_ID Gender Age Marital_Status State Zone Occupation Product_Category Orders Amount Status
Group

0 False False False False False False False False False False False False False True

1 False False False False False False False False False False False False False True

2 False False False False False False False False False False False False False True

3 False False False False False False False False False False False False False True

4 False False False False False False False False False False False False False True

... ... ... ... ... ... ... ... ... ... ... ... ... ... ...

11246 False False False False False False False False False False False False False True

11247 False False False False False False False False False False False False False True

11248 False False False False False False False False False False False False False True

11249 False False False False False False False False False False False False False True

11250 False False False False False False False False False False False False False True

df.drop(['Status', 'unnamed1'], axis=1)

Age
User_ID Cust_name Product_ID Gender Age Marital_Status State Zone Occupation Product_Category Orders Amount
Group

0 1002903 Sanskriti P00125942 F 26-35 28 0 Maharashtra Western Healthcare Auto 1 23952.

1 1000732 Kartik P00110942 F 26-35 35 1 Andhra Pradesh Southern Govt Auto 3 23934.

2 1001990 Bindu P00118542 F 26-35 35 1 Uttar Pradesh Central Automobile Auto 3 23924.

3 1001425 Sudevi P00237842 M 0-17 16 0 Karnataka Southern Construction Auto 2 23912.

Food
4 1000588 Joni P00057942 M 26-35 28 1 Gujarat Western Auto 2 23877.
Processing

... ... ... ... ... ... ... ... ... ... ... ... ... .

11246 1000695 Manning P00296942 M 18-25 19 1 Maharashtra Western Chemical Office 4 370.

11247 1004089 Reichenbach P00171342 M 26-35 33 0 Haryana Northern Healthcare Veterinary 3 367.

Madhya
11248 1001209 Oshin P00201342 F 36-45 40 0 Central Textile Office 4 213.
Pradesh

11249 1004023 Noonan P00059442 M 36-45 37 0 Karnataka Southern Agriculture Office 3 206.

df["Amount"].median()

8109.0

df.isna()

Age
User_ID Cust_name Product_ID Gender Age Marital_Status State Zone Occupation Product_Category Orders Amount Status
Group

0 False False False False False False False False False False False False False True

1 False False False False False False False False False False False False False True

2 False False False False False False False False False False False False False True

3 False False False False False False False False False False False False False True

4 False False False False False False False False False False False False False True

... ... ... ... ... ... ... ... ... ... ... ... ... ... ...

11246 False False False False False False False False False False False False False True

11247 False False False False False False False False False False False False False True

11248 False False False False False False False False False False False False False True

11249 False False False False False False False False False False False False False True

11250 False False False False False False False False False False False False False True

df.isna().sum()
0

User_ID 0

Cust_name 0

Product_ID 0

Gender 0

Age Group 0

Age 0

Marital_Status 0

State 0

Zone 0

Occupation 0

Product_Category 0

Orders 0

Amount 12

Status 11251

unnamed1 11251

dtype: int64

df.duplicated()

0 False

1 False

2 False

3 False

4 False

... ...

11246 False

11247 False

11248 False

11249 False

11250 False

11251 rows × 1 columns

dtype: bool

df.duplicated().sum()

df.drop_duplicates()

Age
User_ID Cust_name Product_ID Gender Age Marital_Status State Zone Occupation Product_Category Orders Amount
Group

0 1002903 Sanskriti P00125942 F 26-35 28 0 Maharashtra Western Healthcare Auto 1 23952.

1 1000732 Kartik P00110942 F 26-35 35 1 Andhra Pradesh Southern Govt Auto 3 23934.

2 1001990 Bindu P00118542 F 26-35 35 1 Uttar Pradesh Central Automobile Auto 3 23924.

3 1001425 Sudevi P00237842 M 0-17 16 0 Karnataka Southern Construction Auto 2 23912.

Food
4 1000588 Joni P00057942 M 26-35 28 1 Gujarat Western Auto 2 23877.
Processing

... ... ... ... ... ... ... ... ... ... ... ... ... .

11246 1000695 Manning P00296942 M 18-25 19 1 Maharashtra Western Chemical Office 4 370.

11247 1004089 Reichenbach P00171342 M 26-35 33 0 Haryana Northern Healthcare Veterinary 3 367.

Madhya
11248 1001209 Oshin P00201342 F 36-45 40 0 Central Textile Office 4 213.
Pradesh

11249 1004023 Noonan P00059442 M 36-45 37 0 Karnataka Southern Agriculture Office 3 206.

11250 1002744 Brumley P00281742 F 18-25 19 0 Maharashtra Western Healthcare Office 3 188.

11243 rows × 15 columns

df.duplicated()

0 False

1 False

2 False

3 False

4 False

... ...

11246 False

11247 False

11248 False

11249 False

11250 False

11251 rows × 1 columns

df.describe()

User_ID Age Marital_Status Orders Amount Status unnamed1

count 1.125100e+04 11251.000000 11251.000000 11251.000000 11239.000000 0.0 0.0

mean 1.003004e+06 35.421207 0.420318 2.489290 9453.610858 NaN NaN

std 1.716125e+03 12.754122 0.493632 1.115047 5222.355869 NaN NaN

min 1.000001e+06 12.000000 0.000000 1.000000 188.000000 NaN NaN

25% 1.001492e+06 27.000000 0.000000 1.500000 5443.000000 NaN NaN

50% 1.003065e+06 33.000000 0.000000 2.000000 8109.000000 NaN NaN

75% 1.004430e+06 43.000000 1.000000 3.000000 12675.000000 NaN NaN

1 006040 06 92 000000 1 000000 4 000000 23952 000000 N N N N

df.drop(['Status', 'unnamed1'], axis=1, inplace=True)

df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 11251 entries, 0 to 11250
Data columns (total 13 columns):
# Column Non-Null Count Dtype
--- ------ -------------- -----
0 User_ID 11251 non-null int64
1 Cust_name 11251 non-null object
2 Product_ID 11251 non-null object
3 Gender 11251 non-null object
4 Age Group 11251 non-null object
5 Age 11251 non-null int64
6 Marital_Status 11251 non-null int64
7 State 11251 non-null object
8 Zone 11251 non-null object
9 Occupation 11251 non-null object
10 Product_Category 11251 non-null object
11 Orders 11251 non-null int64
12 Amount 11239 non-null float64
dtypes: float64(1), int64(4), object(8)
memory usage: 1.1+ MB

df.describe()
User_ID Age Marital_Status Orders Amount

count 1.125100e+04 11251.000000 11251.000000 11251.000000 11239.000000

mean 1.003004e+06 35.421207 0.420318 2.489290 9453.610858

std 1.716125e+03 12.754122 0.493632 1.115047 5222.355869

min 1.000001e+06 12.000000 0.000000 1.000000 188.000000

25% 1.001492e+06 27.000000 0.000000 1.500000 5443.000000

50% 1.003065e+06 33.000000 0.000000 2.000000 8109.000000

75% 1.004430e+06 43.000000 1.000000 3.000000 12675.000000

max 1.006040e+06 92.000000 1.000000 4.000000 23952.000000

Distributions

2-d distributions

Values

plt.figure(figsize=(4,4))
sns.barplot(x=df['Gender'],y=df['Amount'],data=df, estimator=sum)
plt.show()

plt.figure(figsize=(4,4))
sns.barplot(x='Marital_Status',y='Amount',data=df)
plt.show()
plt.figure(figsize=(10,10))
sns.lineplot(x='State',y='Amount',data=df)
plt.show()

add Code add Text

plt.figure(figsize=(8,8))
sns.lineplot(x='Occupation',y='Amount',data=df)
plt.show()

Dostojewski Notatki Z Podziemia (Całość)
No ratings yet
Dostojewski Notatki Z Podziemia (Całość)
102 pages
ECS Card Photograph Endorsement Form: Setting The Standards
No ratings yet
ECS Card Photograph Endorsement Form: Setting The Standards
1 page
PDF No Bake Asweseeit - Compress
No ratings yet
PDF No Bake Asweseeit - Compress
132 pages
EDA Project
No ratings yet
EDA Project
7 pages
Diwali Sales Anlaysis
No ratings yet
Diwali Sales Anlaysis
10 pages
MGNM - 801 - Ca1
No ratings yet
MGNM - 801 - Ca1
14 pages
Project
No ratings yet
Project
12 pages
Data Visualization On Pandas - Jupyter Notebook
No ratings yet
Data Visualization On Pandas - Jupyter Notebook
7 pages
EDA Diwali Sale Analysis Project
No ratings yet
EDA Diwali Sale Analysis Project
11 pages
Project Sale Analysis
No ratings yet
Project Sale Analysis
8 pages
Diwali Sales Analysis EDA 1696347982
No ratings yet
Diwali Sales Analysis EDA 1696347982
8 pages
ML Lab Manual 1-10
No ratings yet
ML Lab Manual 1-10
58 pages
Data Analysis for Sales Insights
No ratings yet
Data Analysis for Sales Insights
4 pages
Walmart Business Case - Updated
No ratings yet
Walmart Business Case - Updated
47 pages
EDA All Functions
No ratings yet
EDA All Functions
9 pages
Data Analysis in The Banking Sector: Pandas Fundamentals
No ratings yet
Data Analysis in The Banking Sector: Pandas Fundamentals
16 pages
BigMart Sales Data Analysis
No ratings yet
BigMart Sales Data Analysis
16 pages
Masterclass Data Analysis - Ipynb - Colab
No ratings yet
Masterclass Data Analysis - Ipynb - Colab
4 pages
Pandas Cheat Sheet
No ratings yet
Pandas Cheat Sheet
19 pages
Customer Churn Analysis 1740361695
No ratings yet
Customer Churn Analysis 1740361695
14 pages
Diwali - Sales - Analysis - Jupyter Notebook
No ratings yet
Diwali - Sales - Analysis - Jupyter Notebook
12 pages
Walmart Case Study
No ratings yet
Walmart Case Study
40 pages
Lab 1 ML
No ratings yet
Lab 1 ML
2 pages
E-Commerce Product Delivery Prediction
No ratings yet
E-Commerce Product Delivery Prediction
13 pages
Customer Segmentation 1683225943
No ratings yet
Customer Segmentation 1683225943
34 pages
Basics of Pandas
No ratings yet
Basics of Pandas
5 pages
Kunal Assignment 3
No ratings yet
Kunal Assignment 3
19 pages
Python SQL
No ratings yet
Python SQL
5 pages
Pandas PD Numpy NP Matplotlib - Pyplot PLT Seaborn Sns DF PD - Read - CSV (, Encoding ) DF - Head
No ratings yet
Pandas PD Numpy NP Matplotlib - Pyplot PLT Seaborn Sns DF PD - Read - CSV (, Encoding ) DF - Head
31 pages
Set B
No ratings yet
Set B
8 pages
Walmart - Project - Jupyter Notebook
No ratings yet
Walmart - Project - Jupyter Notebook
7 pages
Task 2 Exploratory Data Analysis
No ratings yet
Task 2 Exploratory Data Analysis
5 pages
Python Intro Tut 16 Jun
No ratings yet
Python Intro Tut 16 Jun
4 pages
ML 5
No ratings yet
ML 5
11 pages
Online Sales Data Analysis
No ratings yet
Online Sales Data Analysis
9 pages
Unit7 Working With Pandas - Solved
No ratings yet
Unit7 Working With Pandas - Solved
12 pages
GRL - EX - 4 (1) .Ipynb - Colaboratory
No ratings yet
GRL - EX - 4 (1) .Ipynb - Colaboratory
7 pages
Observation: Import As Import As Import As Import As
No ratings yet
Observation: Import As Import As Import As Import As
31 pages
Pandas Cheat Sheet
No ratings yet
Pandas Cheat Sheet
20 pages
1 Pandas Basics
No ratings yet
1 Pandas Basics
13 pages
Logistic Regression 007
No ratings yet
Logistic Regression 007
1 page
K Means Clustering For Customer Data
No ratings yet
K Means Clustering For Customer Data
6 pages
Data Analytics On Vechicle Insurance Data
No ratings yet
Data Analytics On Vechicle Insurance Data
22 pages
Student Notebook HR Analysis
No ratings yet
Student Notebook HR Analysis
11 pages
Prints
No ratings yet
Prints
43 pages
Python
No ratings yet
Python
32 pages
Predictive+Modelling+-+Logistic+Regression+-+Student+Version-New2.3.ipynb - Colaboratory
No ratings yet
Predictive+Modelling+-+Logistic+Regression+-+Student+Version-New2.3.ipynb - Colaboratory
12 pages
Exp 81
No ratings yet
Exp 81
7 pages
Supervised Decision Trees A Case Study For AllLife Bank
No ratings yet
Supervised Decision Trees A Case Study For AllLife Bank
50 pages
KPMG - Task 1
No ratings yet
KPMG - Task 1
22 pages
Exercise Univariate Analysis - Andoni Fikri - 13118111
No ratings yet
Exercise Univariate Analysis - Andoni Fikri - 13118111
9 pages
Data Wrangling - Jupyter Notebook
No ratings yet
Data Wrangling - Jupyter Notebook
5 pages
Outlook Module3
No ratings yet
Outlook Module3
21 pages
DevOps Session 3 Pandas
No ratings yet
DevOps Session 3 Pandas
33 pages
12 Pandas
No ratings yet
12 Pandas
14 pages
ML Practical 4D
No ratings yet
ML Practical 4D
11 pages
E-commerce Order Data Analysis
No ratings yet
E-commerce Order Data Analysis
6 pages
High Performance Pandas Notes
No ratings yet
High Performance Pandas Notes
2 pages
Pandas
No ratings yet
Pandas
21 pages
Dsbda Exp4 Part1
No ratings yet
Dsbda Exp4 Part1
39 pages
Pandas Cheat Sheet
No ratings yet
Pandas Cheat Sheet
2 pages
Android Flutter Layman Guide
No ratings yet
Android Flutter Layman Guide
2 pages
Android Kotlin Flutter Interview Guide
No ratings yet
Android Kotlin Flutter Interview Guide
3 pages
Unit - 5
No ratings yet
Unit - 5
132 pages
Unit 4
No ratings yet
Unit 4
103 pages
Unit 2
No ratings yet
Unit 2
132 pages
Unit-4 PPTs
No ratings yet
Unit-4 PPTs
20 pages
Unit 3
No ratings yet
Unit 3
136 pages
SOW102-Doing Social Research, 2nd Edition-Therese Baker-1994 - (Learnclax - Com) - Pages-200-235
No ratings yet
SOW102-Doing Social Research, 2nd Edition-Therese Baker-1994 - (Learnclax - Com) - Pages-200-235
36 pages
Graduands Convocation 2019 v2 PDF
No ratings yet
Graduands Convocation 2019 v2 PDF
53 pages
Faktor Pengeboran Sumur Make Up
No ratings yet
Faktor Pengeboran Sumur Make Up
16 pages
SKF3013 - Manual Amali PDF
No ratings yet
SKF3013 - Manual Amali PDF
26 pages
Python Datatypes
No ratings yet
Python Datatypes
6 pages
Dorothy Allison
No ratings yet
Dorothy Allison
2 pages
Kawai Indonesia Factory Report
No ratings yet
Kawai Indonesia Factory Report
5 pages
Procurement Documents
100% (1)
Procurement Documents
3 pages
(L6) - (JEE 2.0) - 3D Geometry - 28th Nov
No ratings yet
(L6) - (JEE 2.0) - 3D Geometry - 28th Nov
44 pages
U3 w22 Revision 4b (Handout)
No ratings yet
U3 w22 Revision 4b (Handout)
12 pages
Apr04 Seismic Forward Modeling
100% (1)
Apr04 Seismic Forward Modeling
12 pages
Relational Database Design by ER and EER To Relational Mapping PDF
No ratings yet
Relational Database Design by ER and EER To Relational Mapping PDF
10 pages
123 624 1 PB
No ratings yet
123 624 1 PB
14 pages
DataTables Export Guide
No ratings yet
DataTables Export Guide
2 pages
Physics Project
No ratings yet
Physics Project
15 pages
Shakeel Saleem File Albania
No ratings yet
Shakeel Saleem File Albania
27 pages
Harrington 1 Ton Hand Chain Hoist OM Manual
No ratings yet
Harrington 1 Ton Hand Chain Hoist OM Manual
55 pages
Types of False Ceilings: 1. Gypsum Plasterboard False Ceiling System
No ratings yet
Types of False Ceilings: 1. Gypsum Plasterboard False Ceiling System
15 pages
Biomimetics 06 00027 v3
No ratings yet
Biomimetics 06 00027 v3
16 pages
How Create A Document
No ratings yet
How Create A Document
9 pages
PRACTICAL5
No ratings yet
PRACTICAL5
2 pages
Institutional Theory Framework
No ratings yet
Institutional Theory Framework
9 pages
Peachtree Charter Middle School: Daily Lesson Plan For Monday
No ratings yet
Peachtree Charter Middle School: Daily Lesson Plan For Monday
3 pages
Otto Wagner
No ratings yet
Otto Wagner
15 pages
Introduction To Well Planning, GTO and Drilling Terms
No ratings yet
Introduction To Well Planning, GTO and Drilling Terms
73 pages
KUGWETSA Biology End of Term 1
100% (1)
KUGWETSA Biology End of Term 1
12 pages

Untitled0.ipynb - Colab

Uploaded by

Untitled0.ipynb - Colab

Uploaded by

import numpy as np

pen_spark Generate a slider using jupyter widgets search Close

df.drop(['Status', 'unnamed1'], axis=1)

0 1002903 Sanskriti P00125942 F 26-35 28 0 Maharashtra Western Healthcare Auto 1 23952.

3 1001425 Sudevi P00237842 M 0-17 16 0 Karnataka Southern Construction Auto 2 23912.

11251 rows × 1 columns

0 1002903 Sanskriti P00125942 F 26-35 28 0 Maharashtra Western Healthcare Auto 1 23952.

3 1001425 Sudevi P00237842 M 0-17 16 0 Karnataka Southern Construction Auto 2 23912.

11243 rows × 15 columns

11251 rows × 1 columns

User_ID Age Marital_Status Orders Amount Status unnamed1

count 1.125100e+04 11251.000000 11251.000000 11251.000000 11239.000000 0.0 0.0

mean 1.003004e+06 35.421207 0.420318 2.489290 9453.610858 NaN NaN

std 1.716125e+03 12.754122 0.493632 1.115047 5222.355869 NaN NaN

min 1.000001e+06 12.000000 0.000000 1.000000 188.000000 NaN NaN

25% 1.001492e+06 27.000000 0.000000 1.500000 5443.000000 NaN NaN

50% 1.003065e+06 33.000000 0.000000 2.000000 8109.000000 NaN NaN

75% 1.004430e+06 43.000000 1.000000 3.000000 12675.000000 NaN NaN

1 006040 06 92 000000 1 000000 4 000000 23952 000000 N N N N

df.drop(['Status', 'unnamed1'], axis=1, inplace=True)

count 1.125100e+04 11251.000000 11251.000000 11251.000000 11239.000000

mean 1.003004e+06 35.421207 0.420318 2.489290 9453.610858

std 1.716125e+03 12.754122 0.493632 1.115047 5222.355869

min 1.000001e+06 12.000000 0.000000 1.000000 188.000000

25% 1.001492e+06 27.000000 0.000000 1.500000 5443.000000

50% 1.003065e+06 33.000000 0.000000 2.000000 8109.000000

75% 1.004430e+06 43.000000 1.000000 3.000000 12675.000000

max 1.006040e+06 92.000000 1.000000 4.000000 23952.000000

add Code add Text

You might also like