0% found this document useful (0 votes)

20 views16 pages

MLLABDSA

ml lab assignment

Uploaded by

mahesh bochare

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as DOCX, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

20 views16 pages

MLLABDSA

ml lab assignment

Uploaded by

mahesh bochare

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as DOCX, PDF, TXT or read online on Scribd

You are on page 1/ 16

VISVESVARAYA TECHNOLOGICAL UNIVERSITY,

Jnana Sangama, Belgaum-590018

A PROJECT REPORT ON

“ANALYZING SPOTIFY STREAMING DATA”

An Activity Report Submitted in partial fulfillment of requirement for the award of 6th
semester of
BACHELOR OF ENGINEERING (B.E)
ARTIFICIAL INTELLIGENCE & MACHINE LEARNING ENGINEERING
SUBMITTED BY
Manjunath (3GN21AI016)
Amul (3GN21AI004)
Sai Kumar(3GN21AI045)

UNDER THE GUIDANCE OF

Prof. JASMINEET KAUR
ARORA DR. HARISH JOSHI

GURU NANAK DEV ENGINEERING COLLEGE, BIDAR

MAILOOR ROAD, BIDAR, KARNATAKA-585403
CHAPTER 1

PROBLEM STATEMENT

Analyze and predict ratings and popularity on Spotify using user reviews, attributes, and location data to
provide insights for diners seeking quality music experiences and to enhance service and reputation
management strategies.

STEPS TO BE FOLLOWED

Exploratory Data Analysis

 Installing Libraries and Modules

 Loading Data
 Data Inspection
 Understanding Variables
 Data Wrangling
 Feature Engineering

Data Visualization

 Histograms
 Scatter Plots
 Pair Plots

Hypothesis Testing
 Data Cleaning and Preparation
 Exploratory Data Analysis (EDA)
 Feature Selection
 Model Training and Evaluation
 Visualization

Machine Learning Models

 Random Forests
 Extra tree regression
 Decision Tree
 Linear regression
IMPORT LIBRARIES AND MODULES

The code snippet you've provided is used for various data analysis and natural language processing tasks in
Python. Let's break down what each part does:

1. Importing Libraries:

 import pandas as pd: Imports the Pandas library for data manipulation and analysis.

 import numpy as np: Imports the NumPy library for numerical operations.

 import matplotlib.pyplot as plt: Imports Matplotlib's pyplot module for creating visualizations.

 import seaborn as sns: Imports the Seaborn library for statistical data visualization.

 Sklearn: Scikit-learn is a library in Python that provides many unsupervised and supervised
learning algorithms.

2. Text Processing Libraries:

 from sklearn.linear_model import LinearRegression, LogisticRegression.

 from sklearn.model_selection import train_test_split

 from sklearn.metrics import r2_score, classification_report, confusion_matrix

 from sklearn.tree import DecisionTreeRegressor

 from sklearn.ensemble import RandomForestRegressor, ExtraTreesRegressor

Purpose:

The primary purpose of the code you provided is to analyze and predict restaurant ratings based on various
features from a Zomato dataset. The process involves several steps, including data cleaning, exploration,
transformation, and the implementation of machine learning models to understand the relationships between
the features and the restaurant ratings.

LET'S BEGIN!!!

# Importing Libraries

import numpy as
np import pandas
as pd
import matplotlib.pyplot as
plt import seaborn as sns
from sklearn.linear_model import
LinearRegression from sklearn.model_selection
import train_test_split from sklearn.metrics
import r2_score
from sklearn.tree import DecisionTreeRegressor
from sklearn.ensemble import RandomForestRegressor, ExtraTreesRegressor

# Reading the dataset

zomato_orgnl = pd.read_csv("zomato.csv")

# Data Cleaning

def clean_data(df):
df = df.drop(['url', 'dish_liked', 'phone'],
axis=1) df = df.drop_duplicates()
df = df.dropna(how='any')
df = df.rename(columns={'approx_cost(for two people)': 'cost', 'listed_in(type)':
'type', 'listed_in(city)': 'city'})
df['cost'] = df['cost'].astype(str).apply(lambda x: x.replace(',',
'.')).astype(float) df = df.loc[df.rate != 'NEW']
df = df.loc[df.rate != '-'].reset_index(drop=True)
df['rate'] = df['rate'].apply(lambda x: x.replace('/5', '') if type(x) == str else
x).str.strip().astype('float')
df['name'] = df['name'].apply(lambda x: x.title())
df.online_order.replace(('Yes', 'No'), (True, False),
inplace=True) df.book_table.replace(('Yes', 'No'), (True,
False), inplace=True) return df

zomato = clean_data(zomato_orgnl.copy())

o/p-
<class
'pandas.core.frame.DataFrame'>
Index: 43499 entries, 0 to 51716
Data columns (total 14 columns):
# Column Non-Null Count Dtype

0 address 43499 non- objec

null t
1 name 43499 non- objec
null t
2 online_order 43499 non- objec
null t
3 book_table 43499 non- objec
null t
4 rate 43499 non- objec
null t
5 votes 43499 non- int64
null
6 location 43499 non- objec
null t
7 rest_type 43499 non-null object
8 cuisines 43499 non-null object
9 approx_cost(for two people) 43499 non-null object
10 reviews_list 43499 non-null object

11 menu_item 43499 non-null object

12 listed_in(type) 43499 non-null object
13 listed_in(city) 43499 non-null
object dtypes: int64(1), object(13)
memory usage: 5.0+ MB

# Encode categorical variables

def encode_data(df):
for column in df.columns[~df.columns.isin(['rate', 'cost',
'votes'])]: df[column] = df[column].factorize()[0]
return df
zomato_en = encode_data(zomato.copy())

o/p-
Index(['address', 'name', 'online_order', 'book_table', 'rate',
'votes', 'location', 'rest_type', 'cuisines', 'cost',
'reviews_list', 'menu_item', 'type', 'city'],
dtype='object')

# Correlation Heatmap

corr =
zomato_en.corr(method='kendall')
plt.figure(figsize=(15, 8))
sns.heatmap(corr, annot=True)
plt.show()
o/p-
# Define features and target
x = zomato_en[['online_order', 'book_table', 'votes', 'location', 'rest_type', 'type',
'cost']] y = zomato_en['rate']

# Train and evaluate models

def evaluate_model(model, x_train, x_test, y_train,
y_test): model.fit(x_train, y_train)
y_pred =
model.predict(x_test) return
r2_score(y_test, y_pred)
o/p-
16950 3.9
767 3.7
6750 4.0
9471 3.8
25162 3.7
Name: rate, dtype:
float64

x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.1,

random_state=353)

# Linear Regression

reg=LinearRegression()
reg.fit(x_train,y_train)
y_pred=reg.predict(x_test)
from sklearn.metrics import
r2_score r2_score(y_test,y_pred)

o/p- 0.2736233722103949

# Decision Tree Regression

from sklearn.tree import DecisionTreeRegressor

x_train,x_test,y_train,y_test=train_test_split(x,y,test_size=.1,random_state=105)
DTree=DecisionTreeRegressor(min_samples_leaf=.0001)
DTree.fit(x_train,y_train)
y_predict=DTree.predict(x_test)
from sklearn.metrics import
r2_score
r2_score(y_test,y_predict)

o/p-0.857606513716891

# Random Forest Regression

from sklearn.ensemble import RandomForestRegressor

RForest=RandomForestRegressor(n_estimators=500,random_state=329,min_samples_leaf=.0001)
RForest.fit(x_train,y_train)
y_predict=RForest.predict(x_test)
from sklearn.metrics import
r2_score
r2_score(y_test,y_predict)

o/p-0.8774282743423502

# Extra Trees Regression

from sklearn.ensemble import ExtraTreesRegressor

ETree=ExtraTreesRegressor(n_estimators = 100)
ETree.fit(x_train,y_train)
y_predict=ETree.predict(x_test)
from sklearn.metrics import r2_score
r2_score(y_test,y_predict)
o/p-0.9402632984892167
# Visualization: Location

sns.countplot(zomato['city'])
sns.countplot(zomato['city']).set_xticklabels(sns.countplot(zomato['city']).get_xticklabel
s(), rotation=90, ha="right")
fig = plt.gcf()
fig.set_size_inches(13,13)
plt.title('Location')

o/p-
# Visualization: Location and Rating

loc_plt=pd.crosstab(zomato['rate'],zomato['city'])
loc_plt.plot(kind='bar',stacked=True);
plt.title('Location -
Rating',fontsize=15,fontweight='bold')
plt.ylabel('Location',fontsize=10,fontweight='bold')
plt.xlabel('Rating',fontsize=10,fontweight='bold')
plt.xticks(fontsize=10,fontweight='bold')
plt.yticks(fontsize=10,fontweight='bold');
plt.legend().remove();

o/p-
# Visualization: Spotify Type

sns.countplot(zomato['rest_type'])
sns.countplot(zomato['rest_type']).set_xticklabels(sns.countplot(zomato['rest_type'].
get_xticklabels(), rotation=90, ha="right")
fig = plt.gcf()
fig.set_size_inches(15,15)
plt.title('Restuarant Type')

o/p-
# Visualization: Types of Services

sns.countplot(zomato['type'])
sns.countplot(zomato['type']).set_xticklabels(sns.countplot(zomato['type']).get_xticklabel
s(), rotation=90, ha="right")
fig = plt.gcf()
fig.set_size_inches(15,15)
plt.title('Type of Service')

o/p-
# Visualization: Type and Rating

type_plt=pd.crosstab(spotify['rate'],spotify['type'])
type_plt.plot(kind='bar',stacked=True);
plt.title('Type -
Rating',fontsize=15,fontweight='bold')
plt.ylabel('Type',fontsize=10,fontweight='bold')
plt.xlabel('Rating',fontsize=10,fontweight='bold')
plt.xticks(fontsize=10,fontweight='bold')
plt.yticks(fontsize=10,fontweight='bold');

o/p-
import matplotlib.pyplot as
plt import seaborn as sns
import pandas as pd
zomato = pd.read_csv('zomato.csv')
plt.figure(figsize=(15,7))
chains=zomato['name'].value_counts()[:20]
sns.barplot(x=chains,y=chains.index,palette='Set1')
plt.title("Most famous restaurant chains in
Bangaluru",size=20,pad=20) plt.xlabel("Number of
outlets",size=15)

o/p-# Visualization: Table booking Rate vs Rate

plt.rcParams['figure.figsize'] = (13, 9)
Y = pd.crosstab(zomato['rate'], zomato['book_table'])
Y.div(Y.sum(1).astype(float), axis = 0).plot(kind = 'bar', stacked =
True,color=['red','yellow']) plt.title('table booking vs rate', fontweight = 30,
fontsize = 20)
plt.legend(loc="upper
right") plt.show()
o/p-
Conclusion
The code effectively cleans and prepares the spotify dataset by removing unnecessary columns,
handling duplicates and missing values, and transforming data types for analysis. Through exploratory data
analysis, it visualizes correlations and distributions of features like, and service type. The selected features,
such as online_order, book_table, votes, location, rest_type, type, and cost, are encoded and used to train
multiple regression models, including Linear Regression, Decision Tree, Random Forest, and Extra Trees,
each evaluated using the R-squared score. The visualizations provide insights into the distribution of
restaurants, types of services.

Data Mining
No ratings yet
Data Mining
10 pages
Regression Analysis - Cheatsheet
No ratings yet
Regression Analysis - Cheatsheet
9 pages
Zomato Restaurant Clustering & Sentiment Analysis - Ipynb - Colaboratory
No ratings yet
Zomato Restaurant Clustering & Sentiment Analysis - Ipynb - Colaboratory
27 pages
Model Evaluation and Selection Cheatsheet 1708023215
No ratings yet
Model Evaluation and Selection Cheatsheet 1708023215
7 pages
Girlfriend Ki Help Se Uski Sisters or Apni Sisters Ko Choda
65% (139)
Girlfriend Ki Help Se Uski Sisters or Apni Sisters Ko Choda
603 pages
Accomplishment Report of Project ICARE
100% (1)
Accomplishment Report of Project ICARE
10 pages
Peter Stockwell-Texture - A Cognitive Aesthetics of Reading-Edinburgh University Press (2005)
100% (1)
Peter Stockwell-Texture - A Cognitive Aesthetics of Reading-Edinburgh University Press (2005)
225 pages
BCA - Arithmetic Operations of Binary Numbers
No ratings yet
BCA - Arithmetic Operations of Binary Numbers
8 pages
810 in Voice 5010
100% (1)
810 in Voice 5010
54 pages
Humphries Language Anxiety
No ratings yet
Humphries Language Anxiety
13 pages
Restaurant Rating Prediction Study
No ratings yet
Restaurant Rating Prediction Study
4 pages
Zapotec Civilization
No ratings yet
Zapotec Civilization
8 pages
Unix IPC for Developers
No ratings yet
Unix IPC for Developers
15 pages
PM800 User Guide
No ratings yet
PM800 User Guide
122 pages
Lab 1. Boston House
No ratings yet
Lab 1. Boston House
7 pages
Restaurant Rating Prediction Using ML
No ratings yet
Restaurant Rating Prediction Using ML
4 pages
Yelp Vs Zomato Analysis
No ratings yet
Yelp Vs Zomato Analysis
8 pages
Engleza Clasa7
No ratings yet
Engleza Clasa7
4 pages
12 Ip
No ratings yet
12 Ip
4 pages
Mining and Visualising Real-World Data: About This Module
100% (1)
Mining and Visualising Real-World Data: About This Module
16 pages
Revenue Predictor - Udit Ennam PDF
No ratings yet
Revenue Predictor - Udit Ennam PDF
30 pages
Data Modeling - Cheatsheet
No ratings yet
Data Modeling - Cheatsheet
9 pages
Naturalizing Computer Science
No ratings yet
Naturalizing Computer Science
8 pages
Mysql Json Export
100% (1)
Mysql Json Export
7 pages
Academic Article Template
No ratings yet
Academic Article Template
2 pages
dn015f NOISE
No ratings yet
dn015f NOISE
2 pages
Compiler Token Separation Guide
No ratings yet
Compiler Token Separation Guide
5 pages
What'S New in This Version: Bugfix
No ratings yet
What'S New in This Version: Bugfix
10 pages
Microprocessors vs. Microcomputers
No ratings yet
Microprocessors vs. Microcomputers
2 pages
Zomato Data Analysis and Visualization
No ratings yet
Zomato Data Analysis and Visualization
3 pages
Predictive Modeling for Data Scientists
No ratings yet
Predictive Modeling for Data Scientists
16 pages
Teaching Grammar (II) : Unit 2
No ratings yet
Teaching Grammar (II) : Unit 2
25 pages
Ex 5.1 Customer Behaviour Prediction
No ratings yet
Ex 5.1 Customer Behaviour Prediction
8 pages
Lets Celebrate Diversity!: Actividad Stop Bullying (Día 2)
No ratings yet
Lets Celebrate Diversity!: Actividad Stop Bullying (Día 2)
5 pages
Articles Xgboost Classification With Smote-Enn Algorithm
No ratings yet
Articles Xgboost Classification With Smote-Enn Algorithm
11 pages
PA Lab2
No ratings yet
PA Lab2
11 pages
Mall Customer Segmentation Guide
No ratings yet
Mall Customer Segmentation Guide
8 pages
Random Forest Model
No ratings yet
Random Forest Model
16 pages
Coe Projects
No ratings yet
Coe Projects
7 pages
Zomato Rating Prediction Project
No ratings yet
Zomato Rating Prediction Project
9 pages
2324 BigData Lab3
No ratings yet
2324 BigData Lab3
6 pages
ML 1-10
No ratings yet
ML 1-10
53 pages
Combination of Diverse Ranking Models For Personalized Expedia Hotel Searches
No ratings yet
Combination of Diverse Ranking Models For Personalized Expedia Hotel Searches
6 pages
18CSL58 LAB Programs
No ratings yet
18CSL58 LAB Programs
52 pages
Is 621
No ratings yet
Is 621
8 pages
Sentimental
No ratings yet
Sentimental
11 pages
Python
No ratings yet
Python
4 pages
Updated Module 1
No ratings yet
Updated Module 1
67 pages
DWM Project
No ratings yet
DWM Project
16 pages
Each Stage of A Data Mining Project
No ratings yet
Each Stage of A Data Mining Project
5 pages
Exercise5 Solution
No ratings yet
Exercise5 Solution
22 pages
Slip
No ratings yet
Slip
5 pages
ML PDF
No ratings yet
ML PDF
30 pages
ML Code Output
No ratings yet
ML Code Output
38 pages
Stucor Ma3354 As
No ratings yet
Stucor Ma3354 As
229 pages
Personality Development Internship Report
No ratings yet
Personality Development Internship Report
12 pages
Cognizant Task1
No ratings yet
Cognizant Task1
366 pages
Swiggy Project PPT
No ratings yet
Swiggy Project PPT
13 pages
Pyspark MLlib
No ratings yet
Pyspark MLlib
8 pages
UNITIV BtechIot
No ratings yet
UNITIV BtechIot
43 pages
Python Interview Questions 1714477282
No ratings yet
Python Interview Questions 1714477282
26 pages
Bit) Bit Bit Bit Bit
No ratings yet
Bit) Bit Bit Bit Bit
4 pages
Cat-Themed Musical Score
No ratings yet
Cat-Themed Musical Score
9 pages
GA4 User-Provided Data
No ratings yet
GA4 User-Provided Data
41 pages
ITERATORS
No ratings yet
ITERATORS
8 pages
HET Ka FML
No ratings yet
HET Ka FML
13 pages
Bike Sharing Prediction Project Structure
No ratings yet
Bike Sharing Prediction Project Structure
37 pages
Phase 3 IBM
No ratings yet
Phase 3 IBM
7 pages
Politics and The Film
No ratings yet
Politics and The Film
19 pages
Python Code Kubota
No ratings yet
Python Code Kubota
6 pages
ML Complete Notes Hridoy
No ratings yet
ML Complete Notes Hridoy
5 pages
F 14
No ratings yet
F 14
3 pages
Maths Project File
No ratings yet
Maths Project File
9 pages
Data Analytics I
No ratings yet
Data Analytics I
4 pages
AI
No ratings yet
AI
16 pages
Medical Verified List-1-300mod
No ratings yet
Medical Verified List-1-300mod
471 pages
GA - Meet - Problem Statement & Methodology
No ratings yet
GA - Meet - Problem Statement & Methodology
19 pages
Lecture-1 Introduction To DATAWAREHOUSING
No ratings yet
Lecture-1 Introduction To DATAWAREHOUSING
19 pages
Daa 01
No ratings yet
Daa 01
11 pages
CC Report-1-12
No ratings yet
CC Report-1-12
13 pages
Mlinternal - Ipynb - Colab
No ratings yet
Mlinternal - Ipynb - Colab
18 pages
CC Report
No ratings yet
CC Report
21 pages
INN Hotels Project
No ratings yet
INN Hotels Project
26 pages
College Isy
No ratings yet
College Isy
46 pages
Zomato Data Analysis Presentation
No ratings yet
Zomato Data Analysis Presentation
16 pages
Sentence Types and Their Effects
100% (1)
Sentence Types and Their Effects
1 page
BUSI 652 Predictive Analytics - Ipynb - Colab
No ratings yet
BUSI 652 Predictive Analytics - Ipynb - Colab
12 pages
ML Lab-1
No ratings yet
ML Lab-1
32 pages
'Yelp - Project': Pandas PD Pyspark - SQL
No ratings yet
'Yelp - Project': Pandas PD Pyspark - SQL
5 pages
Day 4
No ratings yet
Day 4
62 pages
Mad Summer 2022 Mad Model Answer Paper
No ratings yet
Mad Summer 2022 Mad Model Answer Paper
40 pages
Data Preparation Guide
No ratings yet
Data Preparation Guide
6 pages
Project Report On Gold Price Prediction Using LSTM
No ratings yet
Project Report On Gold Price Prediction Using LSTM
15 pages
CODE
No ratings yet
CODE
24 pages
Nu 710321119522000
No ratings yet
Nu 710321119522000
2 pages
Machine Learning Cheat Sheet
No ratings yet
Machine Learning Cheat Sheet
15 pages
Unit 04 EDA 02
No ratings yet
Unit 04 EDA 02
7 pages
Zomato Project Documentation
No ratings yet
Zomato Project Documentation
3 pages
Machine Learning Cheat Sheet: Karn Singh
No ratings yet
Machine Learning Cheat Sheet: Karn Singh
13 pages

MLLABDSA

Uploaded by

MLLABDSA

Uploaded by

VISVESVARAYA TECHNOLOGICAL UNIVERSITY,

Jnana Sangama, Belgaum-590018

“ANALYZING SPOTIFY STREAMING DATA”

UNDER THE GUIDANCE OF

GURU NANAK DEV ENGINEERING COLLEGE, BIDAR

Exploratory Data Analysis

 Installing Libraries and Modules

Machine Learning Models

2. Text Processing Libraries:

 from sklearn.linear_model import LinearRegression, LogisticRegression.

 from sklearn.model_selection import train_test_split

 from sklearn.metrics import r2_score, classification_report, confusion_matrix

 from sklearn.tree import DecisionTreeRegressor

 from sklearn.ensemble import RandomForestRegressor, ExtraTreesRegressor

# Reading the dataset

0 address 43499 non- objec

11 menu_item 43499 non-null object

# Encode categorical variables

# Train and evaluate models

x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.1,

# Decision Tree Regression

from sklearn.tree import DecisionTreeRegressor

# Random Forest Regression

from sklearn.ensemble import RandomForestRegressor

# Extra Trees Regression

from sklearn.ensemble import ExtraTreesRegressor

o/p-# Visualization: Table booking Rate vs Rate

You might also like