0% found this document useful (0 votes)

15 views8 pages

SanatKulkarni - AP22110010183 - Assignment5

The document outlines a machine learning assignment involving the creation of a classification dataset using sklearn, followed by the training and evaluation of a K-Nearest Neighbors (KNN) model. It includes saving datasets and the model, calculating accuracy for different values of K, and visualizing results through graphs and confusion matrices. The best K value determined from cross-validation is 7, while the accuracy analysis suggests that K=15 performed best on the test dataset.

Uploaded by

Sanat Kulkarni

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

15 views8 pages

SanatKulkarni - AP22110010183 - Assignment5

Uploaded by

Sanat Kulkarni

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 8

bqb96k8bx

February 18, 2025

1 AP22110010183 - Sanat Kulkarni - Assignment 5

[4]: from sklearn.datasets import make_classification
import pandas as pd

X, y = make_classification(n_samples=500, n_features=10, n_informative=5,

n_redundant=2, n_classes=2, random_state=42)
df = pd.DataFrame(X, columns=[f'feature_{i+1}' for i in range(10)])
df['target'] = y
df.to_csv('classification_dataset.csv', index=False)
print("Dataset saved as 'classification_dataset.csv'")

Dataset saved as 'classification_dataset.csv'

[5]: from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2,␣

↪random_state=42)

train_df = pd.DataFrame(X_train, columns=[f'feature_{i+1}' for i in range(10)])

train_df['target'] = y_train
train_df.to_csv('train_dataset.csv', index=False)

test_df = pd.DataFrame(X_test, columns=[f'feature_{i+1}' for i in range(10)])

test_df['target'] = y_test
test_df.to_csv('test_dataset.csv', index=False)

print("Training and testing datasets saved as 'train_dataset.csv' and␣

↪'test_dataset.csv'")

Training and testing datasets saved as 'train_dataset.csv' and

'test_dataset.csv'

[7]: from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)

1
X_test = scaler.transform(X_test)

[14]: import joblib

knn = KNeighborsClassifier()
knn.fit(X_train, y_train)
joblib.dump(knn, 'knn_model.pkl')
print("Model saved as 'knn_model.pkl'")

Model saved as 'knn_model.pkl'

[15]: import joblib

from sklearn.metrics import accuracy_score

knn = joblib.load('knn_model.pkl')

for k in range(1, 21):

knn.n_neighbors = k
y_pred = knn.predict(X_test)
accuracy = accuracy_score(y_test, y_pred)
print(f"Accuracy for k={k}: {accuracy:.4f}")

Accuracy for k=1: 0.8500

Accuracy for k=2: 0.8100
Accuracy for k=3: 0.8600
Accuracy for k=4: 0.8300
Accuracy for k=5: 0.8600
Accuracy for k=6: 0.8500
Accuracy for k=7: 0.8500
Accuracy for k=8: 0.8400
Accuracy for k=9: 0.8500
Accuracy for k=10: 0.8500
Accuracy for k=11: 0.8600
Accuracy for k=12: 0.8600
Accuracy for k=13: 0.8700
Accuracy for k=14: 0.8700
Accuracy for k=15: 0.8800
Accuracy for k=16: 0.8500
Accuracy for k=17: 0.8600
Accuracy for k=18: 0.8500
Accuracy for k=19: 0.8700
Accuracy for k=20: 0.8600

[16]: import matplotlib.pyplot as plt

import joblib

knn = joblib.load('knn_model.pkl')

2
accuracies = []

for k in range(1, 21):

knn.n_neighbors = k
y_pred = knn.predict(X_test)
accuracy = accuracy_score(y_test, y_pred)
accuracies.append(accuracy)

plt.figure(figsize=(10, 6))
plt.plot(range(1, 21), accuracies, marker='o', color='b', linestyle='-',␣
↪markersize=6)

plt.title('K vs Accuracy for KNN Classifier')

plt.xlabel('Number of Neighbors (K)')
plt.ylabel('Accuracy')
plt.xticks(range(1, 21))
plt.grid(True)
plt.show()

[21]: import matplotlib.pyplot as plt

from sklearn.metrics import classification_report
import pandas as pd

y_pred = knn.predict(X_test)

3
report = classification_report(y_test, y_pred, output_dict=True)
print(report)

metrics = {
'accuracy': report['accuracy'],
'precision': report['weighted avg']['precision'],
'recall': report['weighted avg']['recall'],
'f1-score': report['weighted avg']['f1-score']
}

metrics_df = pd.DataFrame(list(metrics.items()), columns=['Metric', 'Score'])

plt.figure(figsize=(8, 6))
plt.bar(metrics_df['Metric'], metrics_df['Score'], color='grey')

plt.title('Classification Metrics')
plt.xlabel('Metric')
plt.ylabel('Score')
plt.ylim(0, 1)
plt.grid(True, axis='y', linestyle='--', alpha=0.7)
plt.tight_layout()

plt.show()

{'0': {'precision': 0.8103448275862069, 'recall': 0.94, 'f1-score':

0.8703703703703703, 'support': 50.0}, '1': {'precision': 0.9285714285714286,
'recall': 0.78, 'f1-score': 0.8478260869565217, 'support': 50.0}, 'accuracy':
0.86, 'macro avg': {'precision': 0.8694581280788177, 'recall': 0.86, 'f1-score':
0.8590982286634461, 'support': 100.0}, 'weighted avg': {'precision':
0.8694581280788176, 'recall': 0.86, 'f1-score': 0.859098228663446, 'support':
100.0}}

4
[23]: from sklearn.metrics import confusion_matrix
import seaborn as sns
import matplotlib.pyplot as plt

knn_best = KNeighborsClassifier(n_neighbors=15)
knn_best.fit(X_train, y_train)

y_pred_best = knn_best.predict(X_test)

cm = confusion_matrix(y_test, y_pred_best)

tn, fp, fn, tp = cm.ravel()

print(f"True Negatives (TN): {tn}")

print(f"False Positives (FP): {fp}")
print(f"False Negatives (FN): {fn}")
print(f"True Positives (TP): {tp}")

plt.figure(figsize=(8, 6))
sns.heatmap(cm, annot=True, fmt='d', cmap='Blues', xticklabels=['Class 0',␣
↪'Class 1'], yticklabels=['Class 0', 'Class 1'])

5
plt.title('Confusion Matrix for K=15')
plt.xlabel('Predicted')
plt.ylabel('Actual')
plt.tight_layout()

plt.show()

True Negatives (TN): 46

False Positives (FP): 4
False Negatives (FN): 8
True Positives (TP): 42

[24]: from sklearn.model_selection import cross_val_score

import numpy as np

k_values = range(1, 21)

cv_scores = []

6
for k in k_values:
knn = KNeighborsClassifier(n_neighbors=k)
scores = cross_val_score(knn, X_train, y_train, cv=5, scoring='accuracy')
cv_scores.append(np.mean(scores))

best_k = k_values[np.argmax(cv_scores)]
print(f"Best K value from cross-validation: {best_k}")

plt.figure(figsize=(10, 6))
plt.plot(k_values, cv_scores, marker='o', color='b', linestyle='-',␣
↪markersize=6)

plt.title('K vs Cross-Validation Accuracy')

plt.xlabel('Number of Neighbors (K)')
plt.ylabel('Cross-Validation Accuracy')
plt.xticks(k_values)
plt.grid(True)
plt.show()

Best K value from cross-validation: 7

From the K vs Accuracy Graph and Results, we can conclude that the best K value for the model
and the dataset is reached at K=15.
According to the cross validation applied on the datasets, The Best K-Value would be 7.

7
This is due to the K vs Accuracy results only accounting for the test dataset. In cross, validation,
dataset is split into multiple folds thus giving a different K value.

Data Scientists' Guide to Metrics
No ratings yet
Data Scientists' Guide to Metrics
70 pages
Naive Bayes Gaussian Table Tennis - Jupyter Notebook
No ratings yet
Naive Bayes Gaussian Table Tennis - Jupyter Notebook
6 pages
ML Internal Answers
No ratings yet
ML Internal Answers
9 pages
23BCE7199 ML Lab Assignment
No ratings yet
23BCE7199 ML Lab Assignment
15 pages
Professional Machine Learning
No ratings yet
Professional Machine Learning
67 pages
ML Functions
No ratings yet
ML Functions
12 pages
Student Abandonment Classification in Brazil
No ratings yet
Student Abandonment Classification in Brazil
59 pages
NF Assighment4
No ratings yet
NF Assighment4
5 pages
ML Lab3 PGM
No ratings yet
ML Lab3 PGM
3 pages
Binary Classifier Evaluation Guide
No ratings yet
Binary Classifier Evaluation Guide
12 pages
Dsbda 10
No ratings yet
Dsbda 10
5 pages
Deep Learning Techniques
No ratings yet
Deep Learning Techniques
9 pages
Text Classification with ML Algorithms
No ratings yet
Text Classification with ML Algorithms
5 pages
23BCE7092 ML Lab Assignment
No ratings yet
23BCE7092 ML Lab Assignment
14 pages
Mnbnmnbnnmbbhhuyrgh
No ratings yet
Mnbnmnbnnmbbhhuyrgh
3 pages
Case Study - Classifier
No ratings yet
Case Study - Classifier
5 pages
MLfull
No ratings yet
MLfull
29 pages
Import As Import As From Import From Import From Import From Import
No ratings yet
Import As Import As From Import From Import From Import From Import
4 pages
Synopsis 6 Extra
No ratings yet
Synopsis 6 Extra
5 pages
Machine Learning Assignment
No ratings yet
Machine Learning Assignment
8 pages
Bi 6 New
No ratings yet
Bi 6 New
6 pages
Ann Experiential Learning
No ratings yet
Ann Experiential Learning
43 pages
I Avaliação Parcial - 25.0 PTS - Gabarito
No ratings yet
I Avaliação Parcial - 25.0 PTS - Gabarito
9 pages
Python Code For KNN Classifier 1. Initial Message
No ratings yet
Python Code For KNN Classifier 1. Initial Message
7 pages
EX - NO:3: Algorithm
No ratings yet
EX - NO:3: Algorithm
11 pages
AIML Project
No ratings yet
AIML Project
4 pages
Telecom Churn Proj
No ratings yet
Telecom Churn Proj
4 pages
ML 4
No ratings yet
ML 4
2 pages
Naive Bayes Classification
No ratings yet
Naive Bayes Classification
8 pages
ML Lab
No ratings yet
ML Lab
29 pages
05 E RandomForest LoanData
No ratings yet
05 E RandomForest LoanData
8 pages
Code Examples in Space
No ratings yet
Code Examples in Space
13 pages
TASK 8: Deploy Support Vector Machine, Apriori Algorithm: BTCS619-18
No ratings yet
TASK 8: Deploy Support Vector Machine, Apriori Algorithm: BTCS619-18
5 pages
Import As Import As From Import From Import From Import From Import
No ratings yet
Import As Import As From Import From Import From Import From Import
6 pages
Medical Data ML
No ratings yet
Medical Data ML
6 pages
22K61A0654 2 Sasi Auto
No ratings yet
22K61A0654 2 Sasi Auto
24 pages
Machine Learning Assignment
No ratings yet
Machine Learning Assignment
7 pages
ML Lab6
No ratings yet
ML Lab6
4 pages
Machine Learning
No ratings yet
Machine Learning
3 pages
Dsbda 5
No ratings yet
Dsbda 5
4 pages
Slip
No ratings yet
Slip
5 pages
AI Assignment-6
No ratings yet
AI Assignment-6
7 pages
Python Essential Methods in Machine Learning
No ratings yet
Python Essential Methods in Machine Learning
6 pages
6 - Steps of The Classification Algorithm in Supervised Learning
No ratings yet
6 - Steps of The Classification Algorithm in Supervised Learning
15 pages
ML Lab Manual
No ratings yet
ML Lab Manual
17 pages
AIML Practical 02 22105A2021
No ratings yet
AIML Practical 02 22105A2021
8 pages
Supervised Classi & Regression
No ratings yet
Supervised Classi & Regression
5 pages
ADS - Phase 3
No ratings yet
ADS - Phase 3
34 pages
Machine Learning Lab Assignment 1
No ratings yet
Machine Learning Lab Assignment 1
23 pages
Aiml Ex 4-7
No ratings yet
Aiml Ex 4-7
8 pages
1
No ratings yet
1
13 pages
ML Lab Manual
No ratings yet
ML Lab Manual
12 pages
Python ML Algorithms Guide
No ratings yet
Python ML Algorithms Guide
7 pages
21bit0706 VL2024250106861 Da
No ratings yet
21bit0706 VL2024250106861 Da
7 pages
SPPUML5
No ratings yet
SPPUML5
4 pages
Progress of GRADIENT BOOSTING ALGORITHM FOR ELECTRICITY THEFT DETECTION IN POWER UTILITIES
No ratings yet
Progress of GRADIENT BOOSTING ALGORITHM FOR ELECTRICITY THEFT DETECTION IN POWER UTILITIES
10 pages
Decision Tree
No ratings yet
Decision Tree
6 pages
ML Yogesh
No ratings yet
ML Yogesh
23 pages
Lab Week 7
No ratings yet
Lab Week 7
3 pages
Unit 2
No ratings yet
Unit 2
105 pages
SanatKulkarni - AP22110010183 - Assignment3-2
No ratings yet
SanatKulkarni - AP22110010183 - Assignment3-2
5 pages
SanatKulkarni - AP22110010183 - Assignment4
No ratings yet
SanatKulkarni - AP22110010183 - Assignment4
10 pages
SanatKulkarni - AP22110010183 - Assignment1
No ratings yet
SanatKulkarni - AP22110010183 - Assignment1
5 pages
PR2 Module 5 Lesson 3
No ratings yet
PR2 Module 5 Lesson 3
30 pages
Tugas Skill Lab Ebm Dr. Muhammad Fikri Aulia
No ratings yet
Tugas Skill Lab Ebm Dr. Muhammad Fikri Aulia
26 pages
Machine Learning Terminology
No ratings yet
Machine Learning Terminology
16 pages
History of Regression: Dr. Deepak Mehta Associate Professor Ait Cse
No ratings yet
History of Regression: Dr. Deepak Mehta Associate Professor Ait Cse
16 pages
67LGT3-05-Do Quynh Chi-BT02
No ratings yet
67LGT3-05-Do Quynh Chi-BT02
29 pages
Time Series Analysis Course Intro
No ratings yet
Time Series Analysis Course Intro
38 pages
Correlation and Regression Notes
No ratings yet
Correlation and Regression Notes
5 pages
Jurnal Zafran New
No ratings yet
Jurnal Zafran New
15 pages
Confusion Matrix
No ratings yet
Confusion Matrix
13 pages
Advanced Multiple Regression
No ratings yet
Advanced Multiple Regression
28 pages
Mrinali Bhiwapurkar 1062212449 SPDDT
No ratings yet
Mrinali Bhiwapurkar 1062212449 SPDDT
23 pages
Uji Validitas SPSS - SPV (Document5)
No ratings yet
Uji Validitas SPSS - SPV (Document5)
6 pages
Measuring Relationship Via Regression Analysis and Correlation
No ratings yet
Measuring Relationship Via Regression Analysis and Correlation
9 pages
Peramalan Penjualan Bulanan
No ratings yet
Peramalan Penjualan Bulanan
24 pages
Model and Submission Sheets
No ratings yet
Model and Submission Sheets
1,101 pages
Title 3
No ratings yet
Title 3
19 pages
Advanced Econometrics Guide
No ratings yet
Advanced Econometrics Guide
164 pages
Slide 2
No ratings yet
Slide 2
6 pages
50 Startups
No ratings yet
50 Startups
23 pages
Department of Education: Learning Activity Sheet
100% (1)
Department of Education: Learning Activity Sheet
3 pages
Detecting and Addressing Heteroscedasticity
No ratings yet
Detecting and Addressing Heteroscedasticity
16 pages
Bcom Part 2 Ae Business Statistics e 3041 2021
No ratings yet
Bcom Part 2 Ae Business Statistics e 3041 2021
8 pages
Linear Regression Analysis Report
No ratings yet
Linear Regression Analysis Report
12 pages
Linear Regression Assumptions Impact
No ratings yet
Linear Regression Assumptions Impact
21 pages
Component of Genetic Variance
No ratings yet
Component of Genetic Variance
12 pages
SML Assignment: 2) For Ridge Regression, If The Regularization Parameter 0, What Does It Mean?
No ratings yet
SML Assignment: 2) For Ridge Regression, If The Regularization Parameter 0, What Does It Mean?
5 pages
ch4 3
No ratings yet
ch4 3
25 pages
Regression & Correlation Analysis
No ratings yet
Regression & Correlation Analysis
9 pages
Spss Fahriani
No ratings yet
Spss Fahriani
15 pages
Ch03題庫
No ratings yet
Ch03題庫
14 pages

SanatKulkarni - AP22110010183 - Assignment5

Uploaded by

SanatKulkarni - AP22110010183 - Assignment5

Uploaded by

bqb96k8bx

February 18, 2025

1 AP22110010183 - Sanat Kulkarni - Assignment 5

X, y = make_classification(n_samples=500, n_features=10, n_informative=5,

Dataset saved as 'classification_dataset.csv'

[5]: from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2,␣

train_df = pd.DataFrame(X_train, columns=[f'feature_{i+1}' for i in range(10)])

test_df = pd.DataFrame(X_test, columns=[f'feature_{i+1}' for i in range(10)])

print("Training and testing datasets saved as 'train_dataset.csv' and␣

Training and testing datasets saved as 'train_dataset.csv' and

[7]: from sklearn.preprocessing import StandardScaler

[14]: import joblib

Model saved as 'knn_model.pkl'

[15]: import joblib

for k in range(1, 21):

Accuracy for k=1: 0.8500

[16]: import matplotlib.pyplot as plt

for k in range(1, 21):

plt.title('K vs Accuracy for KNN Classifier')

[21]: import matplotlib.pyplot as plt

metrics_df = pd.DataFrame(list(metrics.items()), columns=['Metric', 'Score'])

{'0': {'precision': 0.8103448275862069, 'recall': 0.94, 'f1-score':

tn, fp, fn, tp = cm.ravel()

print(f"True Negatives (TN): {tn}")

True Negatives (TN): 46

[24]: from sklearn.model_selection import cross_val_score

k_values = range(1, 21)

plt.title('K vs Cross-Validation Accuracy')

Best K value from cross-validation: 7

You might also like