0% found this document useful (0 votes)

24 views5 pages

Natural Language Processing

This document discusses natural language processing and sentiment analysis of restaurant reviews. It imports data, preprocesses text by removing stopwords and applying stemming, creates bag-of-words representations, trains naive bayes and decision tree classifiers on the data, and evaluates the models using accuracy on a held-out test set. Key steps include loading and cleaning a dataset of restaurant reviews, vectorizing the text into feature vectors, training classifiers on 80% of the data and evaluating on the remaining 20%, and reporting the confusion matrices and accuracies of the naive bayes and decision tree models.

Uploaded by

shivaybhargava33

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as DOCX, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

24 views5 pages

Natural Language Processing

Uploaded by

shivaybhargava33

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as DOCX, PDF, TXT or read online on Scribd

You are on page 1/ 5

Natural Language Processing

Install nltk
conda install -c anaconda nltk

Data Set: Restaurant_Reviews.tsv (Tab Separated File)

Import Libraries
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
import os

Import Data Set

os.chdir('C:\\Noble\\Training\\Deep Learning\\Training\Data\\')
os.getcwd()
# \t – for tab separated
# quoting = 3 – ignore “” from processing
dataset = pd.read_csv('Restaurant_Reviews.tsv', delimiter = '\t', quoting = 3)
dataset

Get one row from data set – example line 5

dataset['Review'][5]

To Print / View all stop words

import nltk # for stop words
from nltk.corpus import stopwords
nltk.download('stopwords')
all_stopwords = stopwords.words('english')
print (all_stopwords)

Cleaning the Data Set

import re
# re – Regular expression - https://docs.python.org/3/library/re.html
import nltk # for stop words
nltk.download('stopwords') # importing all stopwords
from nltk.corpus import stopwords
from nltk.stem.porter import PorterStemmer # For applying steming in the
dataset , to get the root of the word
corpus = [] # create a list to store all cleaned words
for i in range(0, 1000):
# dataset['Review'][i] - source data to prcess - i th record in the data
review = re.sub('[^a-zA-Z]', ' ', dataset['Review'][i]) # Replace punctuations
with space, other than letters replace with space
review = review.lower()
review = review.split() # split into different words
ps = PorterStemmer() # get root words
all_stopwords = stopwords.words('english') # get english stop words
all_stopwords.remove('not') # Remove “not” from stop words
review = [ps.stem(word) for word in review if not word in set(all_stopwords)]
review = ' '.join(review)
corpus.append(review)

Print Corpus
print (corpus)

To check Number of Distinct Words

from sklearn.feature_extraction.text import CountVectorizer
cv = CountVectorizer() # 1500 is decided by statement len(X[0]). Fist execute
without max features
X = cv.fit_transform(corpus).toarray()
len(X[0])

Create a Bag of Words (tokenization)

from sklearn.feature_extraction.text import CountVectorizer
cv = CountVectorizer(max_features = 1500) # 1500 is decided by statement
len(X[0]). Fist execute without max features
X = cv.fit_transform(corpus).toarray()
y = dataset.iloc[:, -1].values # this is dependent variable
print(len(X[0])) # this gives me the max_features count
print (X)
print (y)

Train Test Split

from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.20,
random_state = 0)

Print Size
print (X.shape)
print (X_train.shape)
print (X_test.shape)

Create Naïve Bayce Algorithms

from sklearn.naive_bayes import GaussianNB
classifier = GaussianNB()
classifier.fit(X_train, y_train)

Prediction
y_pred = classifier.predict(X_test)
Print Result Actual and Predict
print(np.concatenate((y_pred.reshape(len(y_pred),1),
y_test.reshape(len(y_test),1)),1))

Confusion Matrix to print Accuracy

from sklearn.metrics import confusion_matrix, accuracy_score
cm = confusion_matrix(y_test, y_pred)
print(cm)
accuracy_score(y_test, y_pred)

Create Decision Tree Classifier

from sklearn.tree import DecisionTreeClassifier

dt= DecisionTreeClassifier()
dt.fit(X_train, y_train)
dt_pred = dt.predict(X_test)
cm = confusion_matrix(y_test,dt_pred)
print(cm)
accuracy_score(y_test,dt_pred)

Energymetabolism Chinchilla
100% (4)
Energymetabolism Chinchilla
7 pages
Lecture 1 - Introduction To ML
No ratings yet
Lecture 1 - Introduction To ML
25 pages
New Criticism and Formalism PPT - PPT - 20240224 - 120834 - 0000
No ratings yet
New Criticism and Formalism PPT - PPT - 20240224 - 120834 - 0000
23 pages
Natural Language Processing
No ratings yet
Natural Language Processing
22 pages
Joseph Matthews - The Renegade Rapport
No ratings yet
Joseph Matthews - The Renegade Rapport
21 pages
Glove
100% (1)
Glove
10 pages
Wsma Final Manual
No ratings yet
Wsma Final Manual
58 pages
Ebook Monitoring Can Help Make Tailings Dams Safer
No ratings yet
Ebook Monitoring Can Help Make Tailings Dams Safer
17 pages
NLTK Tutorial
No ratings yet
NLTK Tutorial
33 pages
NLP Tushar
No ratings yet
NLP Tushar
21 pages
Python NLP Techniques Guide
No ratings yet
Python NLP Techniques Guide
18 pages
QMS Internal Audit - 1 Day Trainng
100% (2)
QMS Internal Audit - 1 Day Trainng
104 pages
NLP Lab Manual for B.E. Students
No ratings yet
NLP Lab Manual for B.E. Students
21 pages
Python Project
No ratings yet
Python Project
2 pages
Lab2 IR
No ratings yet
Lab2 IR
16 pages
Importing The Libraries
No ratings yet
Importing The Libraries
3 pages
EIL Participates in India Energy Week 2024
No ratings yet
EIL Participates in India Energy Week 2024
9 pages
Report On - Social Media Research Topic Modeling
No ratings yet
Report On - Social Media Research Topic Modeling
26 pages
Ment Analysis Text Classification
No ratings yet
Ment Analysis Text Classification
9 pages
Liquid Coating Resins and Additives
No ratings yet
Liquid Coating Resins and Additives
12 pages
03 The-Different-Methods-Deal-Text-Data-Predictive-Python
No ratings yet
03 The-Different-Methods-Deal-Text-Data-Predictive-Python
16 pages
Shreya Srivastava-27
No ratings yet
Shreya Srivastava-27
3 pages
NLP Lab
No ratings yet
NLP Lab
18 pages
Group 4 MovieReview
No ratings yet
Group 4 MovieReview
10 pages
Beginner's Guide To Data Cleaning and Feature Extraction in NLP - by Enes Gokce - Towards Data Science
No ratings yet
Beginner's Guide To Data Cleaning and Feature Extraction in NLP - by Enes Gokce - Towards Data Science
20 pages
Ir Lab 2 Ir Learning Outcomes: Pyterrier
No ratings yet
Ir Lab 2 Ir Learning Outcomes: Pyterrier
7 pages
Self Evaluation Exercises
No ratings yet
Self Evaluation Exercises
12 pages
Experiment 7 ML
No ratings yet
Experiment 7 ML
3 pages
LT 1083RCU FX 3500RCU Installation Manual
No ratings yet
LT 1083RCU FX 3500RCU Installation Manual
103 pages
AI Lab Manual Aktu
No ratings yet
AI Lab Manual Aktu
11 pages
NLP Lab Manual
No ratings yet
NLP Lab Manual
15 pages
Catalogo Juntas Rotativas DEUBLIN
100% (1)
Catalogo Juntas Rotativas DEUBLIN
32 pages
NLP Lab - Manual
No ratings yet
NLP Lab - Manual
33 pages
Tokenization (Breaking Text Into Words) : Import From Import From Import From Import
No ratings yet
Tokenization (Breaking Text Into Words) : Import From Import From Import From Import
7 pages
DSBD 7 Ass
No ratings yet
DSBD 7 Ass
9 pages
NLTK - N-Gram LM
No ratings yet
NLTK - N-Gram LM
13 pages
NLP Lab Manual
No ratings yet
NLP Lab Manual
21 pages
Harrington 1 Ton Hand Chain Hoist OM Manual
No ratings yet
Harrington 1 Ton Hand Chain Hoist OM Manual
55 pages
Parts of Speech Tagger
No ratings yet
Parts of Speech Tagger
12 pages
RGS404 Rpa2030 Ep 1
No ratings yet
RGS404 Rpa2030 Ep 1
37 pages
Basenlp
No ratings yet
Basenlp
5 pages
Foundations of Python For AI
No ratings yet
Foundations of Python For AI
67 pages
Deep Learning Questions 1701781891
No ratings yet
Deep Learning Questions 1701781891
17 pages
NLP Lab Manual
No ratings yet
NLP Lab Manual
17 pages
Bộ đề kiểm tra định kì - lớp 6 - global success
No ratings yet
Bộ đề kiểm tra định kì - lớp 6 - global success
38 pages
Sumati
No ratings yet
Sumati
10 pages
For Assignment-10 (Machine Learning With Python - NLP-2)
No ratings yet
For Assignment-10 (Machine Learning With Python - NLP-2)
37 pages
1a NLTK
No ratings yet
1a NLTK
10 pages
Classic 500
No ratings yet
Classic 500
86 pages
NLP Assignment (917722H031)
No ratings yet
NLP Assignment (917722H031)
18 pages
7 TextAnalysis
No ratings yet
7 TextAnalysis
3 pages
R22 NLP Python Programs
No ratings yet
R22 NLP Python Programs
15 pages
Record
No ratings yet
Record
6 pages
Improvised Mist Fan
No ratings yet
Improvised Mist Fan
32 pages
British Airways Forage Report
No ratings yet
British Airways Forage Report
12 pages
Assignment
No ratings yet
Assignment
6 pages
Science 10 Lesson Plan
100% (1)
Science 10 Lesson Plan
7 pages
DSBA+Master+Codebook+ +Text+Mining+&+TSF
No ratings yet
DSBA+Master+Codebook+ +Text+Mining+&+TSF
11 pages
Unit 19 Transaction Costs, Institutions, and Economic History
No ratings yet
Unit 19 Transaction Costs, Institutions, and Economic History
19 pages
NLP Lab Manual
No ratings yet
NLP Lab Manual
19 pages
Methodology
No ratings yet
Methodology
9 pages
NLP 1 Week Tutorial NLTK
No ratings yet
NLP 1 Week Tutorial NLTK
15 pages
Machine Learning Project Presentation
No ratings yet
Machine Learning Project Presentation
14 pages
Lab 2
No ratings yet
Lab 2
4 pages
NLPPractical
No ratings yet
NLPPractical
12 pages
Application Code
No ratings yet
Application Code
3 pages
Matplotlib For Data Science..
No ratings yet
Matplotlib For Data Science..
11 pages
DSBDA Practical 7 Tutorial
No ratings yet
DSBDA Practical 7 Tutorial
11 pages
NLP PRGRM-1
No ratings yet
NLP PRGRM-1
7 pages
Fluid Mechanics Practice Problems
No ratings yet
Fluid Mechanics Practice Problems
8 pages
10253.exp 5
No ratings yet
10253.exp 5
12 pages
TSA Lab Manual New
No ratings yet
TSA Lab Manual New
14 pages
Token Ization
No ratings yet
Token Ization
5 pages
Air Cadet Pumps Manual
No ratings yet
Air Cadet Pumps Manual
12 pages
SPE 101937-STU: Determining Cutting Transport Parameter in A Horizontal Coiled Tubing Underbalanced Drilling Operation
No ratings yet
SPE 101937-STU: Determining Cutting Transport Parameter in A Horizontal Coiled Tubing Underbalanced Drilling Operation
11 pages
10 1016@j Cemconres 2020 106196
No ratings yet
10 1016@j Cemconres 2020 106196
8 pages
PRJ Movie Recommendation Data Science..
No ratings yet
PRJ Movie Recommendation Data Science..
7 pages
Tokenization (Breaking Text Into Words) : Import From Import From Import From Import
No ratings yet
Tokenization (Breaking Text Into Words) : Import From Import From Import From Import
11 pages
NLP - Practical-7 - 22012531023 - Colab
No ratings yet
NLP - Practical-7 - 22012531023 - Colab
9 pages
Natural Langauage Processing (NLP) : Tokenization of Words
No ratings yet
Natural Langauage Processing (NLP) : Tokenization of Words
8 pages
Associations Between Social Responsibility Disclosure and Characteristics of Companies
No ratings yet
Associations Between Social Responsibility Disclosure and Characteristics of Companies
8 pages
E-Invoicing in Malaysia Client Data Request Through Know-Your-Client (KYC) Form
No ratings yet
E-Invoicing in Malaysia Client Data Request Through Know-Your-Client (KYC) Form
4 pages
Exercise 40
No ratings yet
Exercise 40
5 pages
Anderson Peter Chapter 5 Two
No ratings yet
Anderson Peter Chapter 5 Two
4 pages
Written Assignment Unit 4
No ratings yet
Written Assignment Unit 4
5 pages
Digital Innovations Exam UiTM
No ratings yet
Digital Innovations Exam UiTM
6 pages
Naive Bayes for Data Scientists
No ratings yet
Naive Bayes for Data Scientists
4 pages
Cadenas, Bandas y Piñones
No ratings yet
Cadenas, Bandas y Piñones
0 pages
Audit of Shareholder's Equity (Roque) PDF
No ratings yet
Audit of Shareholder's Equity (Roque) PDF
1 page
IDEALS Essay Framework
No ratings yet
IDEALS Essay Framework
1 page
Python NLP Tasks with NLTK
No ratings yet
Python NLP Tasks with NLTK
17 pages

Natural Language Processing

Uploaded by

Natural Language Processing

Uploaded by

Natural Language Processing

Data Set: Restaurant_Reviews.tsv (Tab Separated File)

Import Data Set

Get one row from data set – example line 5

To Print / View all stop words

Cleaning the Data Set

To check Number of Distinct Words

Create a Bag of Words (tokenization)

Train Test Split

Create Naïve Bayce Algorithms

Confusion Matrix to print Accuracy

Create Decision Tree Classifier

from sklearn.tree import DecisionTreeClassifier

You might also like