0% found this document useful (0 votes)

24 views9 pages

Python CA 4

This document summarizes a student's Python project on SMS spam detection. The student loads and cleans a SMS text dataset, applies natural language processing techniques like tokenization and stemming, then builds and compares various classification models including Naive Bayes, Logistic Regression, Random Forest and XGBoost. The best performing models are then ensemble using voting and stacking classifiers to further improve accuracy and precision of spam detection. The models are saved using pickle for future use.

Uploaded by

subham patra

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

24 views9 pages

Python CA 4

Uploaded by

subham patra

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 9

Python CA 4

Name : Subham Patra

REG NO : 12215814

# SMS SPAM DETECTION

import numpy as np

import pandas as pd

import warnings

warnings.filterwarnings('ignore')

df = pd.read_csv('spam.csv',encoding='latin1')

df.sample(5)

df.shape

## Data Cleaning

df.info()

# drop last 3 columns

df.drop(columns=['Unnamed: 2','Unnamed: 3','Unnamed: 4'],inplace=True)

# rename columns

df.rename(columns={'v1':'target','v2':'text'},inplace=True)

df.head()

# change target into binary

from sklearn.preprocessing import LabelEncoder as LE

encoder=LE()

df['target']=encoder.fit_transform(df['target'])

df.head()

# null values

df.isnull().sum()
#check duplicates

df.duplicated().sum()

#drop duplicates

df=df.drop_duplicates(keep='first')

df.duplicated().sum()

df.shape

# EDA

df['target'].value_counts()

import matplotlib.pyplot as plt

plt.pie(df['target'].value_counts(),labels=['ham','spam'],autopct="%0.2f")

plt.show()

#making new columns(no. of chars,words and sentences) for better analyzing

import nltk

!pip install nltk

nltk.download('punkt')

df['num_chars']=df['text'].apply(len)

df.sample(3)

#num of words

df['num_words']=df['text'].apply(lambda x:len(nltk.word_tokenize(x)))

df['num_sentences']=df['text'].apply(lambda x:len(nltk.sent_tokenize(x)))

df.head()

df[['num_chars','num_words','num_sentences']].describe()

#hams

df[df['target']==0][['num_chars','num_words','num_sentences']].describe()

#spams

df[df['target']==1][['num_chars','num_words','num_sentences']].describe()

import seaborn as sns

sns.histplot(df[df['target']==0]['num_chars'])

sns.histplot(df[df['target']==1]['num_chars'],color='red')

sns.histplot(df[df['target']==0]['num_words'])
sns.histplot(df[df['target']==1]['num_words'],color='red')

sns.pairplot(df,hue='target')

sns.heatmap(df.corr(),annot=True)

# Data Preprocessing

### Lower case

### Tokenization

### Removing special characters

### Removing stop words and punctuation

### Stemming

import nltk

from nltk.corpus import stopwords

nltk.download('stopwords')

stopwords=stopwords.words('english')

import string

puncs=string.punctuation

from nltk.stem.porter import PorterStemmer

ps=PorterStemmer()

def transform_text(text):

text=text.lower()

text=nltk.word_tokenize(text)

y=[]

for i in text:

if i.isalnum():

y.append(i)

text=y[:]

y.clear()

for i in text:
if i not in stopwords+list(puncs):

y.append(i)

text=y[:]

y.clear()

for i in text:

y.append(ps.stem(i))

return " ".join(y)

df['transformed_text']=df['text'].apply(transform_text)

df.sample(5)

# !pip install wordcloud

from wordcloud import WordCloud

wc=WordCloud(width=500,height=500,min_font_size=10,background_color='white')

spam_wc=wc.generate(df[df['target']==1]['transformed_text'].str.cat(sep=" "))

# plt.figure(figsize=(15,6))

plt.imshow(spam_wc)

ham_wc=wc.generate(df[df['target']==0]['transformed_text'].str.cat(sep=" "))

# plt.figure(figsize=(15,6))

plt.imshow(ham_wc)

spam_words=[]

for msg in df[df['target']==1]['transformed_text'].tolist():

for word in msg.split():

spam_words.append(word)

len(spam_words)

from collections import Counter

plt.bar(pd.DataFrame(Counter(spam_words).most_common(30))[0],pd.DataFrame(Counter(spam_w
ords).most_common(30))[1])

plt.xticks(rotation='vertical')

plt.show()
ham_words=[]

for msg in df[df['target']==0]['transformed_text'].tolist():

for word in msg.split():

ham_words.append(word)

len(ham_words)

from collections import Counter

plt.bar(pd.DataFrame(Counter(ham_words).most_common(30))[0],pd.DataFrame(Counter(ham_wor
ds).most_common(30))[1])

plt.xticks(rotation='vertical')

plt.show()

# MODEL BUILDING->naive bayes start

from sklearn.feature_extraction.text import CountVectorizer,TfidfVectorizer

cv = CountVectorizer()

tfidf = TfidfVectorizer(max_features=3000)

X = tfidf.fit_transform(df['transformed_text']).toarray()

X.shape

y = df['target'].values

from sklearn.model_selection import train_test_split

X_train,X_test,y_train,y_test = train_test_split(X,y,test_size=0.2,random_state=2)

from sklearn.naive_bayes import GaussianNB,MultinomialNB,BernoulliNB

from sklearn.metrics import accuracy_score,confusion_matrix,precision_score

gnb = GaussianNB()

mnb = MultinomialNB()

bnb = BernoulliNB()

gnb.fit(X_train,y_train)
y_pred1 = gnb.predict(X_test)

print(accuracy_score(y_test,y_pred1))

print(confusion_matrix(y_test,y_pred1))

print(precision_score(y_test,y_pred1))

mnb.fit(X_train,y_train)

y_pred2 = mnb.predict(X_test)

print(accuracy_score(y_test,y_pred2))

print(confusion_matrix(y_test,y_pred2))

print(precision_score(y_test,y_pred2))

bnb.fit(X_train,y_train)

y_pred3 = bnb.predict(X_test)

print(accuracy_score(y_test,y_pred3))

print(confusion_matrix(y_test,y_pred3))

print(precision_score(y_test,y_pred3))

from sklearn.linear_model import LogisticRegression

from sklearn.svm import SVC

from sklearn.naive_bayes import MultinomialNB

from sklearn.tree import DecisionTreeClassifier

from sklearn.neighbors import KNeighborsClassifier

from sklearn.ensemble import RandomForestClassifier

from sklearn.ensemble import AdaBoostClassifier

from sklearn.ensemble import BaggingClassifier

from sklearn.ensemble import ExtraTreesClassifier

from sklearn.ensemble import GradientBoostingClassifier

!pip install xgboost

from xgboost import XGBClassifier

svc = SVC(kernel='sigmoid', gamma=1.0)

knc = KNeighborsClassifier()

mnb = MultinomialNB()

dtc = DecisionTreeClassifier(max_depth=5)
lrc = LogisticRegression(solver='liblinear', penalty='l1')

rfc = RandomForestClassifier(n_estimators=50, random_state=2)

abc = AdaBoostClassifier(n_estimators=50, random_state=2)

bc = BaggingClassifier(n_estimators=50, random_state=2)

etc = ExtraTreesClassifier(n_estimators=50, random_state=2)

gbdt = GradientBoostingClassifier(n_estimators=50,random_state=2)

xgb = XGBClassifier(n_estimators=50,random_state=2)

def train_classifier(clf,X_train,y_train,X_test,y_test):

clf.fit(X_train,y_train)

y_pred = clf.predict(X_test)

accuracy = accuracy_score(y_test,y_pred)

precision = precision_score(y_test,y_pred)

return accuracy,precision

train_classifier(svc,X_train,y_train,X_test,y_test)

clfs = {

'SVC' : svc,

'KN' : knc,

'NB': mnb,

'DT': dtc,

'LR': lrc,

'RF': rfc,

'AdaBoost': abc,

'BgC': bc,

'ETC': etc,

'GBDT':gbdt,

'xgb':xgb

# accuracy_scores = []

# precision_scores = []
# for name,clf in clfs.items():

# current_accuracy,current_precision = train_classifier(clf, X_train,y_train,X_test,y_test)

# print("For ",name)

# print("Accuracy - ",current_accuracy)

# print("Precision - ",current_precision)

# accuracy_scores.append(current_accuracy)

# precision_scores.append(current_precision)

# performance_df =
pd.DataFrame({'Algorithm':clfs.keys(),'Accuracy':accuracy_scores,'Precision':precision_scores}).sort_
values('Precision',ascending=False)

# performance_df

# performance_df1 = pd.melt(performance_df, id_vars = "Algorithm")

# performance_df1

# sns.catplot(x = 'Algorithm', y='value', hue = 'variable',data=performance_df1, kind='bar',height=5)

# plt.ylim(0.5,1.0)

# plt.xticks(rotation='vertical')

# plt.show()

# model improve

# 1. Change the max_features parameter of TfIdf

temp_df =
pd.DataFrame({'Algorithm':clfs.keys(),'Accuracy_max_ft_3000':accuracy_scores,'Precision_max_ft_3
000':precision_scores}).sort_values('Precision_max_ft_3000',ascending=False)

temp_df =
pd.DataFrame({'Algorithm':clfs.keys(),'Accuracy_scaling':accuracy_scores,'Precision_scaling':precisio
n_scores}).sort_values('Precision_scaling',ascending=False)

new_df = performance_df.merge(temp_df,on='Algorithm')

new_df_scaled = new_df.merge(temp_df,on='Algorithm')
temp_df =
pd.DataFrame({'Algorithm':clfs.keys(),'Accuracy_num_chars':accuracy_scores,'Precision_num_chars':
precision_scores}).sort_values('Precision_num_chars',ascending=False)

# new_df_scaled.merge(temp_df,on='Algorithm')

# Voting Classifier

svc = SVC(kernel='sigmoid', gamma=1.0,probability=True)

mnb = MultinomialNB()

etc = ExtraTreesClassifier(n_estimators=50, random_state=2)

from sklearn.ensemble import VotingClassifier

voting = VotingClassifier(estimators=[('svm', svc), ('nb', mnb), ('et', etc)],voting='soft')

voting.fit(X_train,y_train)

y_pred = voting.predict(X_test)

print("Accuracy",accuracy_score(y_test,y_pred))

print("Precision",precision_score(y_test,y_pred))

# Applying stacking

estimators=[('svm', svc), ('nb', mnb), ('et', etc)]

final_estimator=RandomForestClassifier()

# from sklearn.ensemble import StackingClassifier

# clf = StackingClassifier(estimators=estimators, final_estimator=final_estimator)

# clf.fit(X_train,y_train)

# y_pred = clf.predict(X_test)

# print("Accuracy",accuracy_score(y_test,y_pred))

# print("Precision",precision_score(y_test,y_pred))

import pickle

pickle.dump(tfidf,open('vectorizer.pkl','wb'))

pickle.dump(mnb,open('model.pkl','wb'))

Girlfriend Ki Help Se Uski Sisters or Apni Sisters Ko Choda
65% (139)
Girlfriend Ki Help Se Uski Sisters or Apni Sisters Ko Choda
603 pages
CTI Record
No ratings yet
CTI Record
49 pages
Complex Sentence
75% (4)
Complex Sentence
19 pages
Complete ML File Word File
No ratings yet
Complete ML File Word File
64 pages
Foundations of Python For AI
No ratings yet
Foundations of Python For AI
67 pages
Work BRITISH Council
No ratings yet
Work BRITISH Council
2 pages
Extra Grammar Exercises (Unit 3, Page 29) LESSON 1 The Simple Present Tense: Review
No ratings yet
Extra Grammar Exercises (Unit 3, Page 29) LESSON 1 The Simple Present Tense: Review
4 pages
Code
No ratings yet
Code
6 pages
Machine Learning Code Explanation
No ratings yet
Machine Learning Code Explanation
33 pages
Email Spam Detection
No ratings yet
Email Spam Detection
3 pages
Class Xii PDF For Practical
No ratings yet
Class Xii PDF For Practical
24 pages
Email Spam Detection Final Presentation-21BSCHH010002
No ratings yet
Email Spam Detection Final Presentation-21BSCHH010002
17 pages
Email Spam Classifier
No ratings yet
Email Spam Classifier
22 pages
Pricing Mercari
No ratings yet
Pricing Mercari
41 pages
ML Week10.1
No ratings yet
ML Week10.1
5 pages
Comparative and Superlative 1-Páginas-1
0% (1)
Comparative and Superlative 1-Páginas-1
1 page
Multi Classification - Py (For 1 Class TP, TN, FP, FN)
No ratings yet
Multi Classification - Py (For 1 Class TP, TN, FP, FN)
25 pages
Manual
No ratings yet
Manual
48 pages
Information Retrival
No ratings yet
Information Retrival
43 pages
Cyberbullying Code
No ratings yet
Cyberbullying Code
6 pages
Public Speaking Judging Rubric
No ratings yet
Public Speaking Judging Rubric
4 pages
Report On - Social Media Research Topic Modeling
No ratings yet
Report On - Social Media Research Topic Modeling
26 pages
Hatespeech Code Ipynb
No ratings yet
Hatespeech Code Ipynb
31 pages
ML Lab Report
No ratings yet
ML Lab Report
8 pages
Chp1-3 Design and Implementation of A Web Based Payment Verification and Receipts System School Fees
No ratings yet
Chp1-3 Design and Implementation of A Web Based Payment Verification and Receipts System School Fees
26 pages
Implemention of Sms Spam Filtering
No ratings yet
Implemention of Sms Spam Filtering
27 pages
Cambridge Checkpoint Science Student's Book 1 Riley Peter Download
100% (2)
Cambridge Checkpoint Science Student's Book 1 Riley Peter Download
31 pages
Atul MLT Exp 4-11
No ratings yet
Atul MLT Exp 4-11
17 pages
ML - Lab Manual With Woad File
No ratings yet
ML - Lab Manual With Woad File
12 pages
Sma Exp 10 Code Print
No ratings yet
Sma Exp 10 Code Print
7 pages
AI&ML
No ratings yet
AI&ML
9 pages
Import As Import As Import As Import As From Import From Import From Import From Import From Import From Import From Import From Import From Import
No ratings yet
Import As Import As Import As Import As From Import From Import From Import From Import From Import From Import From Import From Import From Import
8 pages
Naive Bayes Classification
No ratings yet
Naive Bayes Classification
8 pages
Sample Code
No ratings yet
Sample Code
9 pages
Text Classification with ML Algorithms
No ratings yet
Text Classification with ML Algorithms
5 pages
Shreya Srivastava-27
No ratings yet
Shreya Srivastava-27
3 pages
17 - Source Code - nlp-2-5
No ratings yet
17 - Source Code - nlp-2-5
4 pages
Aiml 5-8
No ratings yet
Aiml 5-8
19 pages
Task04 Emailspamdetectionwithmachinelearning 1752340927
No ratings yet
Task04 Emailspamdetectionwithmachinelearning 1752340927
2 pages
Toxic Comment Classification
No ratings yet
Toxic Comment Classification
11 pages
7 Aiml
No ratings yet
7 Aiml
4 pages
Ml-Exp-2 - Jupyter Notebook
No ratings yet
Ml-Exp-2 - Jupyter Notebook
2 pages
Drew English - 2024 Poetry Revision Booklet
No ratings yet
Drew English - 2024 Poetry Revision Booklet
82 pages
Lab Report 8
No ratings yet
Lab Report 8
11 pages
Apply Logistic Regression To Amazon Reviews Data Set (M)
No ratings yet
Apply Logistic Regression To Amazon Reviews Data Set (M)
11 pages
Instruction Manual 862 Interface-Thermo-Element
100% (1)
Instruction Manual 862 Interface-Thermo-Element
16 pages
ML Lab Manual
No ratings yet
ML Lab Manual
12 pages
DL 5
No ratings yet
DL 5
7 pages
Email Spam Detection Guide
No ratings yet
Email Spam Detection Guide
4 pages
Bi 6 New
No ratings yet
Bi 6 New
6 pages
Code Text
No ratings yet
Code Text
4 pages
ML Lab Prgms Split
No ratings yet
ML Lab Prgms Split
3 pages
Data Preprocessing
No ratings yet
Data Preprocessing
9 pages
Sample
No ratings yet
Sample
6 pages
Hospital
100% (1)
Hospital
161 pages
Untitled 10
No ratings yet
Untitled 10
6 pages
ML Lab Programs
No ratings yet
ML Lab Programs
8 pages
Lab 78
No ratings yet
Lab 78
6 pages
AI Phase4
No ratings yet
AI Phase4
11 pages
Machine Learning Algorithms Lab
No ratings yet
Machine Learning Algorithms Lab
48 pages
Workshop - NLP - Ipynb - Colaboratory
No ratings yet
Workshop - NLP - Ipynb - Colaboratory
5 pages
Sentimental
No ratings yet
Sentimental
11 pages
Sentence Embedding Code
No ratings yet
Sentence Embedding Code
9 pages
Lab5 Example Fall 23
No ratings yet
Lab5 Example Fall 23
4 pages
Fall Semester 2020-21 AI With Python ECE-4031
No ratings yet
Fall Semester 2020-21 AI With Python ECE-4031
5 pages
Spam Detection Using Tensorflow
No ratings yet
Spam Detection Using Tensorflow
13 pages
School of Engineering: Lab Manual On Machine Learning Lab
No ratings yet
School of Engineering: Lab Manual On Machine Learning Lab
23 pages
Identifying The Firmware of A Qlogic or Emulex FC HBA
No ratings yet
Identifying The Firmware of A Qlogic or Emulex FC HBA
2 pages
Mercedes-Benz Greener Manufacturing Ai
0% (1)
Mercedes-Benz Greener Manufacturing Ai
16 pages
Error and Solution Ls Retail
No ratings yet
Error and Solution Ls Retail
10 pages
City Life
No ratings yet
City Life
4 pages
Luxury Living at Sainamaha Panvel
No ratings yet
Luxury Living at Sainamaha Panvel
9 pages
Tutorial Letter 302/4/2024: Presenting Assignment Answers and Referencing
No ratings yet
Tutorial Letter 302/4/2024: Presenting Assignment Answers and Referencing
46 pages
Preserving Mangyan Poetry
No ratings yet
Preserving Mangyan Poetry
1 page
A Schedule Is Said To Be Conflict-Serializable When The Schedule Is Conflict-Equivalent To One or More Serial Schedules
No ratings yet
A Schedule Is Said To Be Conflict-Serializable When The Schedule Is Conflict-Equivalent To One or More Serial Schedules
9 pages
Introduction To Critical Reasoning - Week-01
No ratings yet
Introduction To Critical Reasoning - Week-01
27 pages
Machine Learning Algorithms Guide
No ratings yet
Machine Learning Algorithms Guide
9 pages
Zapotec Civilization
No ratings yet
Zapotec Civilization
8 pages
About Illustrator Theory
No ratings yet
About Illustrator Theory
3 pages
Stucor Ma3354 As
No ratings yet
Stucor Ma3354 As
229 pages
Daily Accomplishment Report: Wendy C. Manatad
No ratings yet
Daily Accomplishment Report: Wendy C. Manatad
2 pages
(@bohring - Bot) Pks Electrostats
No ratings yet
(@bohring - Bot) Pks Electrostats
10 pages
Understanding The Times
No ratings yet
Understanding The Times
21 pages
Studentsco: English First Language
No ratings yet
Studentsco: English First Language
7 pages
Allusions
No ratings yet
Allusions
5 pages
Processor Organization: Module-3 Part-2
No ratings yet
Processor Organization: Module-3 Part-2
88 pages
Accessing The Storage System
No ratings yet
Accessing The Storage System
25 pages
Ruijie RG-S5300-E Series Gigabit 1
No ratings yet
Ruijie RG-S5300-E Series Gigabit 1
16 pages

Python CA 4

Uploaded by

Python CA 4

Uploaded by

Python CA 4

Name : Subham Patra

# SMS SPAM DETECTION

# drop last 3 columns

df.drop(columns=['Unnamed: 2','Unnamed: 3','Unnamed: 4'],inplace=True)

# change target into binary

from sklearn.preprocessing import LabelEncoder as LE

import matplotlib.pyplot as plt

#making new columns(no. of chars,words and sentences) for better analyzing

!pip install nltk

import seaborn as sns

### Lower case

### Removing special characters

### Removing stop words and punctuation

from nltk.corpus import stopwords

from nltk.stem.porter import PorterStemmer

return " ".join(y)

# !pip install wordcloud

from wordcloud import WordCloud

for msg in df[df['target']==1]['transformed_text'].tolist():

for word in msg.split():

from collections import Counter

for msg in df[df['target']==0]['transformed_text'].tolist():

for word in msg.split():

from collections import Counter

# MODEL BUILDING->naive bayes start

from sklearn.feature_extraction.text import CountVectorizer,TfidfVectorizer

from sklearn.model_selection import train_test_split

from sklearn.naive_bayes import GaussianNB,MultinomialNB,BernoulliNB

from sklearn.metrics import accuracy_score,confusion_matrix,precision_score

from sklearn.linear_model import LogisticRegression

from sklearn.svm import SVC

from sklearn.naive_bayes import MultinomialNB

from sklearn.tree import DecisionTreeClassifier

from sklearn.neighbors import KNeighborsClassifier

from sklearn.ensemble import RandomForestClassifier

from sklearn.ensemble import AdaBoostClassifier

from sklearn.ensemble import BaggingClassifier

from sklearn.ensemble import ExtraTreesClassifier

from sklearn.ensemble import GradientBoostingClassifier

!pip install xgboost

from xgboost import XGBClassifier

svc = SVC(kernel='sigmoid', gamma=1.0)

rfc = RandomForestClassifier(n_estimators=50, random_state=2)

abc = AdaBoostClassifier(n_estimators=50, random_state=2)

etc = ExtraTreesClassifier(n_estimators=50, random_state=2)

# current_accuracy,current_precision = train_classifier(clf, X_train,y_train,X_test,y_test)

# performance_df1 = pd.melt(performance_df, id_vars = "Algorithm")

# sns.catplot(x = 'Algorithm', y='value', hue = 'variable',data=performance_df1, kind='bar',height=5)

# 1. Change the max_features parameter of TfIdf

svc = SVC(kernel='sigmoid', gamma=1.0,probability=True)

etc = ExtraTreesClassifier(n_estimators=50, random_state=2)

from sklearn.ensemble import VotingClassifier

voting = VotingClassifier(estimators=[('svm', svc), ('nb', mnb), ('et', etc)],voting='soft')

estimators=[('svm', svc), ('nb', mnb), ('et', etc)]

# from sklearn.ensemble import StackingClassifier

# clf = StackingClassifier(estimators=estimators, final_estimator=final_estimator)

You might also like