0% found this document useful (0 votes)

30 views23 pages

Machine Learning Lab Assignment 2

The document contains multiple assignments involving machine learning techniques, including SVM and KNN classification, as well as data manipulation using pandas. It provides code snippets for each task, detailing steps such as data loading, preprocessing, model training, and evaluation. Additionally, it includes practice questions on data structures and handling missing values in datasets.

Uploaded by

tarlanavikas12

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as DOCX, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

30 views23 pages

Machine Learning Lab Assignment 2

Uploaded by

tarlanavikas12

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as DOCX, PDF, TXT or read online on Scribd

You are on page 1/ 23

ASSIGNMENT

1.SVM Classification on News Dataset

Code:
#SVM classification on News Dataset
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.svm import SVC
from sklearn.metrics import
accuracy_score,classification_report,confusion_matrix
from sklearn.preprocessing import StandardScaler
from scipy.sparse import hstack
#Load the dataset
file_path = "Google News.csv"
df = pd.read_csv(file_path)#encoding='ISO-8859-1'
#Drop missing values
df=df.dropna()
#Extract features and labels
X_text =
df[['title','publisher','date','keyword','country']].astype(str).agg(''.join,axis=1)
y = df['category']
#Convert text to numerical features using TF-IDF
vectorizer = TfidfVectorizer(stop_words='english',max_features=5000)
X_tfidf=vectorizer.fit_transform(X_text)
#Standardize the TF-IDF features
scaler = StandardScaler(with_mean=False)
X_tfidf_scaled=scaler.fit_transform(X_tfidf)
#Split into training and testing sets(80%train,20%test)
X_train,X_test,y_train,y_test=train_test_split(X_tfidf_scaled,y,test_size=0.2,ran
dom_state=42)
#Train SVM model
svm_model=SVC(kernel='linear',random_state=42)
svm_model.fit(X_train,y_train)
#Predict on test data
y_pred=svm_model.predict(X_test)
#Evaluate modell performance
accuracy=accuracy_score(y_test,y_pred)
report=classification_report(y_test,y_pred,zero_division=1)
#Compute confusion matrix
conf_matrix=confusion_matrix(y_test,y_pred)
#Plot confusion matrix
plt.figure(figsize=(10,7))
sns.heatmap(conf_matrix,annot=True,fmt='d',cmap='Blues',xticklabels=np.uniq
ue(y),yticklabels=np.unique(y))
plt.xlabel('Predicted Label')
plt.ylabel('Confusion Matrix')
plt.show()
#Print the results
print(f"Accuracy: {accuracy:.4f}")
print("Classification Report:")
print(report)

Dataset:

Input:
Output:
2.KNN Classification with Decision Boundary
Code:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import confusion_matrix,classification_report

#Load Dataset
df=pd.read_csv("student_pass.csv")

#Split into features (X) and target (y)

X = df[['Hours_Studied','Sleep_Hours']] #Features
y = df['Exam_Score'].map({'Fail':0,'Pass':1})

X_train,X_test,y_train,y_test=train_test_split(X,y,test_size=0.2,random_state=4
2)
#Train KNN model(K=3)
knn = KNeighborsClassifier(n_neighbors=3)
knn.fit(X_train,y_train)

#Predict on test data

y_pred=knn.predict(X_test)
cm=confusion_matrix(y_test,y_pred)
print("Confusion Matrix:\n",cm)
print("\nClassification Report:\n",classification_report(y_test,y_pred))

#Plotting the decision boundary

plt.figure(figsize=(10,6))

#Create a mesh grid for decision boundary

x_min,x_max=X["Hours_Studied"].min()-1,X["Hours_Studied"].max()+1
y_min,y_max=X["Sleep_Hours"].min()-1,X["Sleep_Hours"].max()+1
xx,yy=np.meshgrid(np.linspace(x_min,x_max,100),np.linspace(y_min,y_max,10
0))

#Predict for each point in the grid

Z=knn.predict(np.c_[xx.ravel(),yy.ravel()])
Z=Z.reshape(xx.shape)

#Plot the decision boundary using contour

plt.contourf(xx,yy,Z,alpha=0.3,cmap='coolwarm')

#Scatter plot of training data

sns.scatterplot(x=X_train["Hours_Studied"],y=X_train["Sleep_Hours"],hue=y_tr
ain,palette={0:'red',1:'green'},s=100,edgecolor='black')

#Scatter plot of test data

sns.scatterplot(x=X_test["Hours_Studied"],y=X_test["Sleep_Hours"],hue=y_pre
d,marker='s',palette={0:'orange',1:'blue'},s=150,edgecolor='black')

#Labels and title

plt.xlabel("Hours Studied")
plt.ylabel("Sleep Hours")
plt.title("KNN Classification with Decision Boundary")
plt.legend(title="Legend",labels=["Fail(Train)","Pass(Train)","Fail(Test)","Pass(Te
st)"])
plt.grid(True)
plt.show()
Dataset:

Input:
Output:
3.Practice Questions
3(a)
Code:
import pandas as pd
#Creating a series from a list
data = [10,20,30,40,50]
series1 = pd.Series(data)
print(series1)

Input:

Output:

3(b)
Code:
#Creating a pandas dataframe
import pandas as pd
#creating a dataframe froom a dictionary
data={
'Name':['Alice','Bob','Charlie'],
'Age':[25,30,35],
'Salary':[50000,60000,70000]
}
df=pd.DataFrame(data)
print(df)
Input:
Output:

3(c)
Code:
#From a list of lists
data = [
['Alice',25,50000],
['Bob',30,60000],
['Charlie',35,70000]
]
df = pd.DataFrame(data,columns=['Name','Age','Salary'])
print(df)
Input:

Output:
3(d)
Code:
#missing values
import pandas as pd
import numpy as np
#creating a dataset with some missing values
data = {
'Name': ['Alice','Bob','Charlie','David','Emma'],
'Age': [25,np.nan,30,35,np.nan],
'Salary': [50000,60000,np.nan,80000,75000],
'Department': ['HR','IT',np.nan,'Finance','IT']
}
df = pd.DataFrame(data)
print("Original Dataset with Missing Values:")
print(df)
Input:

Output:
3(e)
Code:
print("Missing Values in Each Column:")
print(df.isnull().sum()) #count missing values in each column
Input:

Output:

3(f)
Code:
import pandas as pd
import numpy as np
#Fill missing Age with the mean age
df['Age'].fillna(df['Age'].mean(),inplace=True)

#Fill missing salary with the median salary

df['Salary'].fillna(df['Salary'].median(),inplace=True)

#Fill missing department with the most frequent vzlue(mode)

df['Department'].fillna(df['Department'].mode()[0],inplace=True)

print("Dataset After filling missing values")

print(df)
Input:
Output:

3(g)
Code:
import pandas as pd
from sklearn.preprocessing import MinMaxScaler
#minmax normalization
#sample data
data = np.array([[1,2],[3,4],[5,6],[7,8]])
#initialize the scaler
scaler = MinMaxScaler()
#fit and transform the data
print(data)
normalized_data = scaler.fit_transform(data)
print("Normalized Data (Min-Max Scaling)")
print(normalized_data)
Input:
Output:

3(h)
Code:
import pandas as pd
import numpy as np

#dictionary
data={
'Name':['Geek1','Geek2','Geek3','Geek4'],
'Salary':[18000,20000,15000,35000]
}
#create a dataframe
data = pd.DataFrame(data,
columns=['Name',
'Salary'])
#show the dataframe
data
data['logarithm_base2'] = np.log2(data['Salary'])
#Show the dataframe
print(data)
Input:

Output:

3(i)
Code:
import pandas as pd
import numpy as np

#sample dataset
data = [50,60,70,80,90,100]

#convert to Pandas DataFrame

df = pd.DataFrame(data,columns=['Values'])
#compute mean and standard deviation
mean = df['Values'].mean()
std_dev = df['Values'].std()

#Apply Z-score normalization

df['Z-Score'] = (df['Values']-mean)/std_dev

#display the results

print(df)
Input:

Output:
4. Naïve Bayes Classification
Code:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder
from sklearn.naive_bayes import GaussianNB
from sklearn.metrics import
accuracy_score,classification_report,confusion_matrix
#Sample weather Dataset
data = pd.read_csv("weather.csv")
df=pd.DataFrame(data)
#Encoding categorical features
label_enc=LabelEncoder()
df['Outlook'] = label_enc.fit_transform(df['Outlook']) #Convert
#'Sunny','Rain' etc. to numbets
df['Wind'] = label_enc.fit_transform(df['Wind']) #Covert 'Yes'
#No' to 1,0
df['Humidity'] = label_enc.fit_transform(df['Humidity']) #Convert 'Yes'
df['Temperature'] = label_enc.fit_transform(df['Humidity'])
#Splitting features and target
X=df[['Outlook','Temperature','Humidity','Wind']]
y=df['PlayTennis']
#Train test split
X_train,X_test,y_train,y_test=train_test_split(X,y,test_size=0.3,random_state=4
2)
#Train Naive Bayes Classifier
model=GaussianNB()
model.fit(X_train,y_train)
#Predictions
y_pred=model.predict(X_test)
#Evaluate Model
print("Accuracy:",accuracy_score(y_test,y_pred))
print("Confusion Matrix:\n",confusion_matrix(y_test,y_pred))
print("Classification Report:\n",classification_report(y_test,y_pred))
Dataset:

Input:
Output:
5.EM-Model
Code:
#EM-Model
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.mixture import GaussianMixture
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import confusion_matrix,accuracy_score

#Load dataset
df = pd.read_csv("student_data.csv")
#Extraxt features(Math Score, Science Score)
X = df[["Math_Score","Science_Score"]].values
y_true = df["Category"].values #True labels(0 or 1)

#Standardize data for better clustering

scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

#Apply Gaussian Mixture Model(EM Algorithm)

gmm =
GaussianMixture(n_components=2,covariance_type='full',random_state=42)
gmm.fit(X_scaled)
y_pred=gmm.predict(X_scaled) #Predicted clusters
#Adjust cluster labels to match true labels
if np.mean(y_pred[y_true==1])< np.mean(y_pred[y_true==0]):
y_pred = 1-y_pred #swap labels if necessary
#Compute Accuracy & Confusion Matrix
accuracy = accuracy_score(y_true,y_pred)
conf_matrix = confusion_matrix(y_true,y_pred)
print("Accuracy:",accuracy)
print("Confusion Matrix:\n",conf_matrix)

#Plot the clusters

plt.figure(figsize=(8,6))
plt.scatter(X[:,0],X[:,1],c=y_pred,cmap='coolwarm',edgecolors='k',s=100)
plt.xlabel("Math Score")
plt.ylabel("Science Score")
plt.title("Student Clusters using EM(GMM)")
plt.colorbar(label="Cluster Label")
plt.show()
Dataset:
Input:
Output:

100 Days of Machine Learning
No ratings yet
100 Days of Machine Learning
14 pages
Data Analytics Lab Manual
No ratings yet
Data Analytics Lab Manual
47 pages
Kartik MLP 4-9prg
No ratings yet
Kartik MLP 4-9prg
10 pages
Data Analysis: Data Preparation
No ratings yet
Data Analysis: Data Preparation
9 pages
Name: Muhammad Sarfraz Seat: EP1850086 Section: A Course Code: 514 Course Name: Data Warehousing and Data Mining
No ratings yet
Name: Muhammad Sarfraz Seat: EP1850086 Section: A Course Code: 514 Course Name: Data Warehousing and Data Mining
39 pages
HIV Regression Source Code
No ratings yet
HIV Regression Source Code
26 pages
Department of Computer Engineering Academic Term: June-Nov 2021
No ratings yet
Department of Computer Engineering Academic Term: June-Nov 2021
6 pages
Abhiml ML File
No ratings yet
Abhiml ML File
74 pages
Manual
No ratings yet
Manual
48 pages
Lab File
No ratings yet
Lab File
96 pages
Ap Python
No ratings yet
Ap Python
12 pages
PW2 DataCleaning
No ratings yet
PW2 DataCleaning
6 pages
Data Mining with Python Lab Guide
No ratings yet
Data Mining with Python Lab Guide
39 pages
DS Practical
No ratings yet
DS Practical
30 pages
Addition Drill: 50 Problems
No ratings yet
Addition Drill: 50 Problems
2 pages
Lab 08 - Data Preprocessing
No ratings yet
Lab 08 - Data Preprocessing
9 pages
Handle Missing Data in Real-Time
No ratings yet
Handle Missing Data in Real-Time
5 pages
Building Good Training Sets UNIT 1 PART2
No ratings yet
Building Good Training Sets UNIT 1 PART2
46 pages
Dmdw-Lab Manual
No ratings yet
Dmdw-Lab Manual
61 pages
MACHINE LEARNING Manual
No ratings yet
MACHINE LEARNING Manual
36 pages
Data Pre Processing
No ratings yet
Data Pre Processing
2 pages
Practical File IP
No ratings yet
Practical File IP
27 pages
Machine Learning Lab
No ratings yet
Machine Learning Lab
43 pages
Jashan ML
No ratings yet
Jashan ML
20 pages
ML Final Prac
No ratings yet
ML Final Prac
47 pages
Lecture Material 10
No ratings yet
Lecture Material 10
9 pages
Machine File
No ratings yet
Machine File
27 pages
ML Journal
No ratings yet
ML Journal
53 pages
Train
No ratings yet
Train
17 pages
ModuleAr Merged
No ratings yet
ModuleAr Merged
42 pages
Python Basics Refresher
No ratings yet
Python Basics Refresher
19 pages
DA Programs
No ratings yet
DA Programs
44 pages
Ilovepdf Merged (2) Merged
No ratings yet
Ilovepdf Merged (2) Merged
65 pages
ML Book Notes
No ratings yet
ML Book Notes
9 pages
DA Lab
No ratings yet
DA Lab
27 pages
EDA - Exploratory Data Analysis
No ratings yet
EDA - Exploratory Data Analysis
16 pages
Data Science Practicals
No ratings yet
Data Science Practicals
47 pages
Umbrella Rental Vending Machine Documentation
No ratings yet
Umbrella Rental Vending Machine Documentation
23 pages
22K61A0654 2 Sasi Auto
No ratings yet
22K61A0654 2 Sasi Auto
24 pages
Machine Exercise 3
No ratings yet
Machine Exercise 3
22 pages
Unit 4 - Working With Graphs - Python
No ratings yet
Unit 4 - Working With Graphs - Python
49 pages
Flight of Dreams A Novel Lawhon PDF Download
No ratings yet
Flight of Dreams A Novel Lawhon PDF Download
102 pages
Machine Learning Record VR19
No ratings yet
Machine Learning Record VR19
46 pages
Air Drawing App Using Computer Vision Documentation
No ratings yet
Air Drawing App Using Computer Vision Documentation
25 pages
Rainfall Prediction Using Machine Learning
No ratings yet
Rainfall Prediction Using Machine Learning
9 pages
Project Paarth
No ratings yet
Project Paarth
21 pages
Udemy Business 2023 WorkplaceLearningTrends Report
No ratings yet
Udemy Business 2023 WorkplaceLearningTrends Report
34 pages
DataAnalytics Lab Manual
No ratings yet
DataAnalytics Lab Manual
35 pages
Dav Lab Manual
No ratings yet
Dav Lab Manual
28 pages
ML LAB Manual-1
No ratings yet
ML LAB Manual-1
33 pages
FDS Record-1-4
No ratings yet
FDS Record-1-4
18 pages
Data Preprocessing Example Programs1
No ratings yet
Data Preprocessing Example Programs1
9 pages
Class Xii PDF For Practical
No ratings yet
Class Xii PDF For Practical
24 pages
Openlab 1
No ratings yet
Openlab 1
17 pages
Term 1 IP AK
No ratings yet
Term 1 IP AK
6 pages
Management Information Systems 1st Edition Heather Gray Download PDF
100% (1)
Management Information Systems 1st Edition Heather Gray Download PDF
82 pages
Da Program Upto 6
No ratings yet
Da Program Upto 6
20 pages
DSC Lab Programs
No ratings yet
DSC Lab Programs
24 pages
Data Preprocessing 1
No ratings yet
Data Preprocessing 1
6 pages
AI Practical 2025
No ratings yet
AI Practical 2025
14 pages
AI&ML
No ratings yet
AI&ML
9 pages
Data Preprocessing 2
No ratings yet
Data Preprocessing 2
5 pages
Modern Physics Lab 10 Experiments
No ratings yet
Modern Physics Lab 10 Experiments
75 pages
C CPP Language Complete Practice Assignment
No ratings yet
C CPP Language Complete Practice Assignment
63 pages
Data Mining Using Python Manual
No ratings yet
Data Mining Using Python Manual
69 pages
Radiod Master
0% (1)
Radiod Master
149 pages
Data - Analytics Lab - Manual JNTUH R22 Regulation
No ratings yet
Data - Analytics Lab - Manual JNTUH R22 Regulation
26 pages
DSBDA Practicals
No ratings yet
DSBDA Practicals
16 pages
Calculus For Engineers Lab Report
No ratings yet
Calculus For Engineers Lab Report
39 pages
Slat Result
No ratings yet
Slat Result
1 page
Supply Chain Management System Documentation
No ratings yet
Supply Chain Management System Documentation
31 pages
Course File Sviet
No ratings yet
Course File Sviet
6 pages
Online Exam Registration System UML SRS Document
No ratings yet
Online Exam Registration System UML SRS Document
14 pages
General Mathematics Exam 2019-2020
No ratings yet
General Mathematics Exam 2019-2020
5 pages
Grade 6 Quiz Bee Guidelines 2023
No ratings yet
Grade 6 Quiz Bee Guidelines 2023
3 pages
Thesis Writing Help for Students
75% (4)
Thesis Writing Help for Students
5 pages
MBOSE Class 10 IT - ITES (Vocational Course) Question Paper 2021
No ratings yet
MBOSE Class 10 IT - ITES (Vocational Course) Question Paper 2021
4 pages
E Ticketing System UML SRS Document
No ratings yet
E Ticketing System UML SRS Document
11 pages
Intermediate Relational Database Certificate
No ratings yet
Intermediate Relational Database Certificate
1 page
Empower Illiterate UML SRS Document
No ratings yet
Empower Illiterate UML SRS Document
14 pages
Resume Help for Job Seekers
100% (1)
Resume Help for Job Seekers
4 pages
Multimodal AI On Wound Images and Clinical Notes For Home Patient Referral
No ratings yet
Multimodal AI On Wound Images and Clinical Notes For Home Patient Referral
11 pages
Air Drawing App Using Computer Vision Presentation
No ratings yet
Air Drawing App Using Computer Vision Presentation
12 pages
Binary Search and Time Complexity
No ratings yet
Binary Search and Time Complexity
4 pages
Assessing Quality of Education: in Perspective With Continuous Assessment and Learners' Performance in Adwa College, Ethiopia
No ratings yet
Assessing Quality of Education: in Perspective With Continuous Assessment and Learners' Performance in Adwa College, Ethiopia
11 pages
Digital Logic Design Lab 1
No ratings yet
Digital Logic Design Lab 1
7 pages
XXX Ref E-BOT Brochure
No ratings yet
XXX Ref E-BOT Brochure
8 pages
Cambridge Homeschooling Guide
No ratings yet
Cambridge Homeschooling Guide
12 pages
AI 900 Microsoft Azure AI Fundamentals 7a1efce5d1
No ratings yet
AI 900 Microsoft Azure AI Fundamentals 7a1efce5d1
4 pages
Selenia Quality Control (MAN-01476) English Rev - 002 09 - 14
No ratings yet
Selenia Quality Control (MAN-01476) English Rev - 002 09 - 14
168 pages
Form Renewal PEPC Final
No ratings yet
Form Renewal PEPC Final
7 pages
BracU Scholarship - Financial Aid Policy (Undergraduate) Jan 27 2020
No ratings yet
BracU Scholarship - Financial Aid Policy (Undergraduate) Jan 27 2020
7 pages
Understanding Literature Review in Research
No ratings yet
Understanding Literature Review in Research
9 pages
Measures To Control Population Growth in India
No ratings yet
Measures To Control Population Growth in India
4 pages
(PDF) The Elusive Definition of Knowledge
0% (1)
(PDF) The Elusive Definition of Knowledge
13 pages
3RD PT Eng3 Tos
No ratings yet
3RD PT Eng3 Tos
2 pages
Curvitaeko Updated
No ratings yet
Curvitaeko Updated
4 pages
12570
No ratings yet
12570
2 pages
Vocational Skills Championships
No ratings yet
Vocational Skills Championships
1 page
Application Form Status Details Pandey
No ratings yet
Application Form Status Details Pandey
1 page
Line Rockets Lesson Plan k-2nd
No ratings yet
Line Rockets Lesson Plan k-2nd
11 pages