0% found this document useful (0 votes)

5 views10 pages

ML Lab

The document contains multiple sets of machine learning examples using various datasets including Titanic, Iris, Pima Diabetes, Stock Prices, MNIST, Bayesian Belief Network, House Prices, and Flights. Each set demonstrates different algorithms and techniques such as classification, regression, dimensionality reduction, and clustering. Additionally, it includes a summary of key machine learning concepts and terminologies.

Uploaded by

adityauniverse369

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

5 views10 pages

ML Lab

Uploaded by

adityauniverse369

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 10

Set 1 – Titanic Dataset (Seaborn)

import seaborn as sns

import pandas as pd

from sklearn.model_selection import train_test_split

from sklearn.preprocessing import StandardScaler, LabelEncoder

from sklearn.ensemble import RandomForestClassifier

from sklearn.svm import SVC

from sklearn.metrics import classification_report, ConfusionMatrixDisplay

import matplotlib.pyplot as plt

# Load dataset

df = sns.load_dataset('titanic')

# Preprocessing

df.drop(['deck', 'embark_town', 'alive'], axis=1, inplace=True)

df.dropna(inplace=True)

label_cols = df.select_dtypes(include=['object', 'category']).columns

df[label_cols] = df[label_cols].apply(LabelEncoder().fit_transform)

# Feature selection

X = df.drop('survived', axis=1)

y = df['survived']

X = StandardScaler().fit_transform(X)

# Train/test split

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Random Forest

rf = RandomForestClassifier()

rf.fit(X_train, y_train)

y_pred_rf = rf.predict(X_test)
# SVM

svm = SVC()

svm.fit(X_train, y_train)

y_pred_svm = svm.predict(X_test)

# Evaluation

print("Random Forest:\n", classification_report(y_test, y_pred_rf))

print("SVM:\n", classification_report(y_test, y_pred_svm))

# Plot

fig, ax = plt.subplots(1, 2, figsize=(12, 5))

ConfusionMatrixDisplay.from_estimator(rf, X_test, y_test, ax=ax[0], cmap='Blues')

ax[0].title.set_text('Random Forest')

ConfusionMatrixDisplay.from_estimator(svm, X_test, y_test, ax=ax[1], cmap='Oranges')

ax[1].title.set_text('SVM')

plt.tight_layout()

plt.show()

Set 2 – Iris Dataset

from sklearn.datasets import load_iris

from sklearn.tree import DecisionTreeClassifier

from sklearn.decomposition import PCA

from sklearn.metrics import precision_score, f1_score

# Load and split

iris = load_iris()

X, y = iris.data, iris.target

# Step A – Decision Tree on full features

clf = DecisionTreeClassifier()
clf.fit(X, y)

y_pred = clf.predict(X)

print("Full Features:\nPrecision:", precision_score(y, y_pred, average='macro'), "F1:", f1_score(y,

y_pred, average='macro'))

# Step B – PCA reduced features

pca = PCA(n_components=2)

X_reduced = pca.fit_transform(X)

clf_pca = DecisionTreeClassifier()

clf_pca.fit(X_reduced, y)

y_pred_pca = clf_pca.predict(X_reduced)

print("Reduced Features:\nPrecision:", precision_score(y, y_pred_pca, average='macro'), "F1:",

f1_score(y, y_pred_pca, average='macro'))

# Visualization

plt.figure(figsize=(10, 4))

plt.subplot(1, 2, 1)

plt.scatter(X[:, 0], X[:, 1], c=y)

plt.title("Original Features")

plt.subplot(1, 2, 2)

plt.scatter(X_reduced[:, 0], X_reduced[:, 1], c=y)

plt.title("PCA Reduced Features")

plt.tight_layout()

plt.show()

Set 3 – Indian Pima Diabetes Dataset

import pandas as pd

from sklearn.ensemble import RandomForestClassifier

from sklearn.svm import SVC

from sklearn.preprocessing import StandardScaler

from sklearn.model_selection import train_test_split

from sklearn.metrics import classification_report

# Load dataset

url = "https://raw.githubusercontent.com/jbrownlee/Datasets/master/pima-indians-
diabetes.data.csv"

col_names = ['Preg', 'Glucose', 'BP', 'SkinThick', 'Insulin', 'BMI', 'DPF', 'Age', 'Outcome']

df = pd.read_csv(url, names=col_names)

# Preprocessing

X = df.drop('Outcome', axis=1)

y = df['Outcome']

X = StandardScaler().fit_transform(X)

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Models

rf = RandomForestClassifier()

rf.fit(X_train, y_train)

print("Random Forest:\n", classification_report(y_test, rf.predict(X_test)))

svm = SVC()

svm.fit(X_train, y_train)

print("SVM:\n", classification_report(y_test, svm.predict(X_test)))

Set 4 – Stock Price Dataset (Linear Regression & Random Forest)

import pandas as pd

from sklearn.linear_model import LinearRegression

from sklearn.ensemble import RandomForestRegressor

from sklearn.model_selection import train_test_split

from sklearn.metrics import mean_squared_error, r2_score

import matplotlib.pyplot as plt

# Load a stock dataset (using Yahoo Finance via pandas_datareader or a CSV file)
df = pd.read_csv("https://raw.githubusercontent.com/selva86/datasets/master/a10.csv") # Replace
with actual stock data

df['date'] = pd.to_datetime(df['date'])

df['month'] = df['date'].dt.month

df['year'] = df['date'].dt.year

X = df[['month', 'year']]

y = df['value']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Linear Regression

lr = LinearRegression()

lr.fit(X_train, y_train)

y_pred_lr = lr.predict(X_test)

# Random Forest

rf = RandomForestRegressor()

rf.fit(X_train, y_train)

y_pred_rf = rf.predict(X_test)

# Evaluation

print("Linear Regression R2:", r2_score(y_test, y_pred_lr))

print("Random Forest R2:", r2_score(y_test, y_pred_rf))

# Plot

plt.plot(y_test.values, label='Actual')

plt.plot(y_pred_lr, label='Linear Regression')

plt.plot(y_pred_rf, label='Random Forest')

plt.legend()

plt.title("Stock Price Prediction")

plt.show()

Set 5 – MNIST Neural Network & KNN

import tensorflow as tf

from tensorflow.keras.layers import Dense, Flatten

from tensorflow.keras.models import Sequential

from tensorflow.keras.datasets import mnist

from sklearn.neighbors import KNeighborsClassifier

from sklearn.metrics import accuracy_score

# Load dataset

(x_train, y_train), (x_test, y_test) = mnist.load_data()

x_train_nn, x_test_nn = x_train / 255.0, x_test / 255.0

# Neural Network

model = Sequential([

Flatten(input_shape=(28, 28)),

Dense(128, activation='relu'),

Dense(256, activation='relu'),

Dense(512, activation='relu'),

Dense(1024, activation='relu'),

Dense(10, activation='softmax')

])

model.compile(optimizer='adam', loss='sparse_categorical_crossentropy', metrics=['accuracy'])

history = model.fit(x_train_nn, y_train, epochs=100, validation_split=0.2, verbose=0)

# Accuracy

val_acc = history.history['val_accuracy'][-1]

print("Validation Accuracy after 100 epochs:", val_acc)

# KNN

x_train_flat = x_train.reshape((x_train.shape[0], -1)) / 255.0

x_test_flat = x_test.reshape((x_test.shape[0], -1)) / 255.0

knn = KNeighborsClassifier()

knn.fit(x_train_flat, y_train)

y_pred_knn = knn.predict(x_test_flat)

print("KNN Accuracy:", accuracy_score(y_test, y_pred_knn))

Set 6 – Bayesian Belief Network & EM Algorithm

# Bayesian Belief Network using pgmpy

from pgmpy.models import BayesianModel

from pgmpy.estimators import MaximumLikelihoodEstimator

from pgmpy.inference import VariableElimination

import pandas as pd

data = pd.DataFrame([

['sunny', 'hot', 'high', 'FALSE', 'no'],

['sunny', 'hot', 'high', 'TRUE', 'no'],

['overcast', 'hot', 'high', 'FALSE', 'yes'],

['rainy', 'mild', 'high', 'FALSE', 'yes'],

], columns=['outlook', 'temperature', 'humidity', 'windy', 'play'])

model = BayesianModel([('outlook', 'play'), ('humidity', 'play'), ('windy', 'play')])

model.fit(data, estimator=MaximumLikelihoodEstimator)

infer = VariableElimination(model)

print(infer.map_query(['play'], evidence={'outlook': 'sunny'}))

# EM Clustering

from sklearn.mixture import GaussianMixture

from sklearn.datasets import make_blobs

import matplotlib.pyplot as plt

X, _ = make_blobs(n_samples=300, centers=3, cluster_std=0.60)

gmm = GaussianMixture(n_components=3)

gmm.fit(X)

labels = gmm.predict(X)

plt.scatter(X[:, 0], X[:, 1], c=labels, cmap='viridis')

plt.title("EM Clustering")

plt.show()

Set 7 – House Price Dataset (Multiple Algorithms)

import pandas as pd

from sklearn.model_selection import train_test_split

from sklearn.linear_model import LinearRegression

from sklearn.tree import DecisionTreeRegressor

from sklearn.svm import SVR

from sklearn.ensemble import RandomForestRegressor

from sklearn.metrics import r2_score

import matplotlib.pyplot as plt

df = pd.read_csv("https://raw.githubusercontent.com/selva86/datasets/master/BostonHousing.csv")

X = df.drop('medv', axis=1)

y = df['medv']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

models = {

"Linear": LinearRegression(),

"DecisionTree": DecisionTreeRegressor(),

"SVM": SVR(),

"RandomForest": RandomForestRegressor()
}

results = {}

for name, model in models.items():

model.fit(X_train, y_train)

pred = model.predict(X_test)

results[name] = r2_score(y_test, pred)

plt.bar(results.keys(), results.values())

plt.ylabel("R2 Score")

plt.title("Model Comparison - House Prices")

plt.show()

Set 8 – Flights Dataset from Seaborn

import seaborn as sns

from sklearn.linear_model import LinearRegression

from sklearn.model_selection import train_test_split

from sklearn.preprocessing import LabelEncoder

import matplotlib.pyplot as plt

df = sns.load_dataset("flights")

df['month'] = LabelEncoder().fit_transform(df['month'])

X = df[['month', 'year']]

y = df['passengers']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

lr = LinearRegression()

lr.fit(X_train, y_train)

y_pred = lr.predict(X_test)

plt.scatter(y_test, y_pred)
plt.xlabel("Actual")

plt.ylabel("Predicted")

plt.title("Flights Prediction (Linear Regression)")

plt.show()

Viva Question Answers Summary

1. Machine Learning: Field of AI that enables systems to learn from data.

2. Supervised vs Unsupervised: Labeled data vs unlabeled data learning.

3. Classification vs Regression: Discrete labels vs continuous output.

4. Underfitting/Overfitting: Too simple vs too complex models.

5. Feature Selection/Extraction: Choosing vs transforming features.

6. Dimensionality Reduction: Reducing feature space (e.g., PCA).

7. Bias-Variance Tradeoff: Balance between model simplicity and complexity.

8. Entropy/Information Gain: Measures used in decision trees.

9. Bagging/Boosting: Ensemble methods to improve performance.

10. Support Vectors: Key data points used in SVM.

11. K-Means Disadvantages: Need for k, poor with noise, non-convex clusters.

12. Core/Border/Noise in DBSCAN: Density-based clustering points.

13. Lazy Learning: Delays learning until prediction (e.g., KNN).

14. Distance-Based ML: KNN, K-means.

15. Activation Functions: ReLU, Sigmoid, Tanh, Leaky ReLU, Softmax.

16. Naive Bayes Applications: Spam filtering, sentiment analysis, text classification.

Thinking Systems
100% (1)
Thinking Systems
29 pages
Additional Program
No ratings yet
Additional Program
573 pages
Lecture5 - Clustering (K Means and K Medoids)
No ratings yet
Lecture5 - Clustering (K Means and K Medoids)
36 pages
Confusion Matrix in Machine Learning
No ratings yet
Confusion Matrix in Machine Learning
10 pages
Machine Learning Evaluation Guide
100% (1)
Machine Learning Evaluation Guide
504 pages
Iii Aid - ML
No ratings yet
Iii Aid - ML
30 pages
Machine Learning Cheat Sheet
No ratings yet
Machine Learning Cheat Sheet
15 pages
Opportunities For NPTEL Stars &toppers
No ratings yet
Opportunities For NPTEL Stars &toppers
10 pages
1
No ratings yet
1
13 pages
Medical Data ML
No ratings yet
Medical Data ML
6 pages
AIML Project
No ratings yet
AIML Project
4 pages
Practicalpgm ML
No ratings yet
Practicalpgm ML
33 pages
ML5 Implementation
No ratings yet
ML5 Implementation
32 pages
ML Regression & Classification Guide
100% (1)
ML Regression & Classification Guide
45 pages
Aml Lab
No ratings yet
Aml Lab
6 pages
ML Minimized Programs
No ratings yet
ML Minimized Programs
9 pages
ML Lab
No ratings yet
ML Lab
20 pages
ML Journal External
No ratings yet
ML Journal External
14 pages
ML
No ratings yet
ML
11 pages
Programs Lab Bca
No ratings yet
Programs Lab Bca
16 pages
Final ML Programs 075005
No ratings yet
Final ML Programs 075005
15 pages
Big Data Practical
No ratings yet
Big Data Practical
20 pages
ML Programs
No ratings yet
ML Programs
14 pages
ML II Lab
No ratings yet
ML II Lab
5 pages
Prathamesh KRAI
No ratings yet
Prathamesh KRAI
38 pages
Shobit Sharma (2124399) ML Lab File PDF
No ratings yet
Shobit Sharma (2124399) ML Lab File PDF
19 pages
ML PDF
No ratings yet
ML PDF
30 pages
All in One
No ratings yet
All in One
13 pages
Machine Learning Lab Assignment 1
No ratings yet
Machine Learning Lab Assignment 1
23 pages
Building, Tuning, and Deploying Models
No ratings yet
Building, Tuning, and Deploying Models
11 pages
ML Manual
No ratings yet
ML Manual
9 pages
ML Lab
No ratings yet
ML Lab
5 pages
Machine Learning
No ratings yet
Machine Learning
8 pages
ML Lab 4,5,6,7,8,9,10
No ratings yet
ML Lab 4,5,6,7,8,9,10
7 pages
V
No ratings yet
V
8 pages
MlLabManualdocx 2024 09 04 22 02 58
No ratings yet
MlLabManualdocx 2024 09 04 22 02 58
19 pages
Aam Codes
No ratings yet
Aam Codes
8 pages
ML
No ratings yet
ML
5 pages
AI ML - Cycle 2 Programs
No ratings yet
AI ML - Cycle 2 Programs
15 pages
Aiml Practicals
No ratings yet
Aiml Practicals
22 pages
ML Short Code - Under Updating
No ratings yet
ML Short Code - Under Updating
4 pages
23BCE7092 ML Lab Assignment
No ratings yet
23BCE7092 ML Lab Assignment
14 pages
ATCD Unit 1.2
No ratings yet
ATCD Unit 1.2
14 pages
ML Lab 01999676272
No ratings yet
ML Lab 01999676272
12 pages
ML External Xerox
No ratings yet
ML External Xerox
1 page
ML Internal Answers
No ratings yet
ML Internal Answers
9 pages
Linearregression SVM
No ratings yet
Linearregression SVM
3 pages
AML Lab
No ratings yet
AML Lab
14 pages
Earthquake Prediction Models
No ratings yet
Earthquake Prediction Models
21 pages
3 Classification
No ratings yet
3 Classification
16 pages
Im Prove Your Chess Pat Tern Rec Og Ni Tion: Key Moves and Mo Tifs in The Middlegame
No ratings yet
Im Prove Your Chess Pat Tern Rec Og Ni Tion: Key Moves and Mo Tifs in The Middlegame
10 pages
Import Pandas As PD DF PD - Read - CSV ("Titanic - Train - CSV") DF - Head
No ratings yet
Import Pandas As PD DF PD - Read - CSV ("Titanic - Train - CSV") DF - Head
20 pages
ML Brefing
No ratings yet
ML Brefing
28 pages
Decision Tree
No ratings yet
Decision Tree
2 pages
ML Codes
No ratings yet
ML Codes
9 pages
ML Lab Manual
No ratings yet
ML Lab Manual
12 pages
Structured Data Classification MCQ's
No ratings yet
Structured Data Classification MCQ's
6 pages
ML Shristi File
No ratings yet
ML Shristi File
49 pages
Data Mining - Lab 2
No ratings yet
Data Mining - Lab 2
5 pages
Coe Projects
No ratings yet
Coe Projects
7 pages
Unit2 ML Programs
No ratings yet
Unit2 ML Programs
7 pages
MSc Machine Learning Exam
No ratings yet
MSc Machine Learning Exam
25 pages
ML Lab Experiment Shortened With Same Output
No ratings yet
ML Lab Experiment Shortened With Same Output
6 pages
Aiml Ex 4-7
No ratings yet
Aiml Ex 4-7
8 pages
Machine Learning Algorithms Guide
No ratings yet
Machine Learning Algorithms Guide
34 pages
Python ML Algorithms Guide
No ratings yet
Python ML Algorithms Guide
7 pages
16BCB0126 VL2018195002535 Pe003
No ratings yet
16BCB0126 VL2018195002535 Pe003
40 pages
KNN Classifier
No ratings yet
KNN Classifier
5 pages
SVM K NN MLP With Sklearn Jupyter NoteBo
No ratings yet
SVM K NN MLP With Sklearn Jupyter NoteBo
22 pages
Data Mining Lesson Plan-Revised Syllabus
No ratings yet
Data Mining Lesson Plan-Revised Syllabus
4 pages
Unsupervised Learning
No ratings yet
Unsupervised Learning
24 pages
Email Candidate Name Course ID Course Name Actual Date Final Exam Date City LC Id
No ratings yet
Email Candidate Name Course ID Course Name Actual Date Final Exam Date City LC Id
15 pages
Chem
No ratings yet
Chem
8 pages
Lec 6
No ratings yet
Lec 6
39 pages
Deep Learning Basics Lecture 1 Feedforward
No ratings yet
Deep Learning Basics Lecture 1 Feedforward
31 pages
ML Unit-Ii Notes
No ratings yet
ML Unit-Ii Notes
17 pages
User Guideline Skill Graph
No ratings yet
User Guideline Skill Graph
2 pages
WQD7005 Final Exam - 17219402
No ratings yet
WQD7005 Final Exam - 17219402
12 pages
MLL
No ratings yet
MLL
2 pages
How To Run Cluster Analysis in Excel
No ratings yet
How To Run Cluster Analysis in Excel
9 pages
1 s2.0 S0167404821003230 Main
No ratings yet
1 s2.0 S0167404821003230 Main
21 pages
Camm 4e Ch09 PPT
No ratings yet
Camm 4e Ch09 PPT
71 pages
Reg. No.: 39110009 Colab Notebook Link: Name: Abivirshan Suresh
No ratings yet
Reg. No.: 39110009 Colab Notebook Link: Name: Abivirshan Suresh
27 pages
Batch 10 Home Assignment-1
No ratings yet
Batch 10 Home Assignment-1
1 page
Certificate Dladitya276 Gmail Com b69049c2 4967 46cd 87e8 F5abe7b6f5ec
No ratings yet
Certificate Dladitya276 Gmail Com b69049c2 4967 46cd 87e8 F5abe7b6f5ec
1 page
Scikit Learn
No ratings yet
Scikit Learn
10 pages
Rainfall - Prediction - Ipynb - Colaboratory
No ratings yet
Rainfall - Prediction - Ipynb - Colaboratory
10 pages
Data Analytics Quiz Results
No ratings yet
Data Analytics Quiz Results
9 pages
Untitled
No ratings yet
Untitled
8 pages
Comparative Study On Spoken Language Identification Based On Deep Learning
No ratings yet
Comparative Study On Spoken Language Identification Based On Deep Learning
5 pages
Lec 05 - K-Means
No ratings yet
Lec 05 - K-Means
4 pages
Machine Learning Course Guide
No ratings yet
Machine Learning Course Guide
3 pages
What Is Considered A Good AUC Score
No ratings yet
What Is Considered A Good AUC Score
5 pages
6.outlier Code - Jupyter Notebook
No ratings yet
6.outlier Code - Jupyter Notebook
5 pages
4343 11393 1 PB
No ratings yet
4343 11393 1 PB
4 pages
Machine Learning Interview Prep
No ratings yet
Machine Learning Interview Prep
2 pages
Data Mining P9-SVM
No ratings yet
Data Mining P9-SVM
30 pages
Machine Learning Dec 2023
No ratings yet
Machine Learning Dec 2023
1 page