Code R

The document outlines a data analysis process for a water potability dataset, including data cleaning, handling missing values, and calculating statistical measures like mean, median, and standard deviation. It also includes the creation of histograms and scatter plots to visualize relationships between various water quality parameters and potability. Finally, logistic regression models are built to predict water potability based on the features in the dataset.

Uploaded by

thaingan090304

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as DOCX, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

15 views3 pages

Code R

Uploaded by

thaingan090304

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as DOCX, PDF, TXT or read online on Scribd

You are on page 1/ 3

setwd("C:/")

dt<-read.csv("water_potability.csv")

apply(is.na(dt),2,which)

dt <- na.omit(dt)
dt$ph[is.na(dt$ph)] <- mean(dt$ph, na.rm = TRUE)
dt <- na.omit(dt)
dt$Sulfate[is.na(dt$Sulfate)] <- mean(dt$Sulfate, na.rm = TRUE)
dt <- na.omit(dt)
dt$Trihalomethanes[is.na(dt$Trihalomethanes)] <- mean(dt$Trihalomethanes, na.rm =
TRUE)
mean<-apply(dt,2,mean)
sd<-apply(dt,2,sd)
median<-apply(dt,2,median)
Q1<-apply(dt,2,quantile,probs=0.25)
Q3<-apply(dt,2,quantile,probs=0.75)
max<-apply(dt,2,max)
min<-apply(dt,2,min)
otput<-cbind(mean,median,sd,min,max,Q1,Q3)
hist(dt$ph,xlab="ph",main="Histogram of ph",ylim=c(0,600),col="blue",labels=T)
hist(dt$Hardness,xlab="Hardness",main="Histogram of
Hardness",ylim=c(0,600),col="blue",labels=T)
hist(dt$Solids,xlab="Solids",main="Histogram of
Solids",ylim=c(0,600),col="blue",labels=T)
hist(dt$Chloramines,xlab="Chloramines",main="Histogram of
Chloramines",ylim=c(0,600),col="blue",labels=T)
hist(dt$Sulfate,xlab="Sulfate",main="Histogram of
Sulfate",ylim=c(0,600),col="blue",labels=T)
hist(dt$Conductivity,xlab="Conductivity",main="Histogram of
Conductivity",ylim=c(0,600),col="blue",labels=T)
hist(dt$Organic_carbon,xlab="Organic_carbon",main="Histogram of
Organic_carbon",ylim=c(0,600),col="blue",labels=T)
hist(dt$Trihalomethanes,xlab="Trihalomethanes",main="Histogram of
Trihalomethanes",ylim=c(0,600),col="blue",labels=T)
hist(dt$Turbidity,xlab="Turbidity",main="Histogram of
Turbidity",ylim=c(0,600),col="blue",labels=T)
hist(dt$Potability,xlab="Potability",main="Histogram of
Potability",ylim=c(0,1500),col="blue",labels=T)
plot(Potability~ph,data=dt,xlab="ph",ylab="Potability",main="Plot of ph and Potability
",col="blue")
plot(Potability~Hardness,data=dt,xlab="Hardness",ylab="Potability",main="Plot of
Hardness and Potability ",col="blue")
plot(Potability~Solids,data=dt,xlab="Solids",ylab="Potability",main="Plot of Solids and
Potability ",col="blue")
plot(Potability~Chloramines,data=dt,xlab="Chloramines",ylab="Potability",main="Plot
of Chloramines and Potability ",col="blue")
plot(Potability~Sulfate,data=dt,xlab="Sulfate",ylab="Potability",main="Plot of Sulfate
and Potability ",col="blue")
plot(Potability~Conductivity,data=dt,xlab="Conductivity",ylab="Potability",main="Plot
of Conductivity and Potability ",col="blue")
plot(Potability~Organic_carbon,data=dt,xlab="Organic_carbon",ylab="Potability",main=
"Plot of Organic_carbon and Potability ",col="blue")
plot(Potability~Trihalomethanes,data=dt,xlab="Trihalomethanes",ylab="Potability",main
="Plot of Trihalomethanes and Potability ",col="blue")
plot(Potability~Turbidity,data=dt,xlab="Turbidity",ylab="Potability",main="Plot of
Turbidity and Potability ",col="blue")
set.seed(100)
split= sample.split(dt$Potability,SplitRatio = 0.65)
mauxaydung = subset(dt,split==TRUE)
maukiemdinh = subset(dt,split==FALSE)
mohinh = glm(Potability~.,data=mauxaydung,family = binomial)
summary(mohinh)
dubaokiemdinh = predict(mohinh,type="response",newdata= maukiemdinh)
summary(dubaokiemdinh)
table(maukiemdinh$Potability,dubaokiemdinh>0.5)
(2+3)/nrow(maukiemdinh)

cor_matrix <- cor(dt)

print(cor_matrix)

dt$interaction1 <- dt$ph * dt$Hardness

set.seed(100)
split= sample.split(dt$Potability,SplitRatio = 0.65)
mauxaydung = subset(dt,split==TRUE)
maukiemdinh = subset(dt,split==FALSE)
mohinh2<-
glm(Potability~ph+Hardness+Solids+Chloramines+Sulfate+Conductivity+Organic_carb
on+Trihalomethanes+Turbidity+interaction1 ,data=dt)
summary(mohinh2)
dubaokiemdinh = predict(mohinh2,type="response",newdata= maukiemdinh)
summary(dubaokiemdinh)
table(maukiemdinh$Potability,dubaokiemdinh>0.5)
(3+5)/nrow(maukiemdinh)

CODER
No ratings yet
CODER
18 pages
phần code r tới câu f của phần 4
No ratings yet
phần code r tới câu f của phần 4
9 pages
Water Quality Data Analysis
No ratings yet
Water Quality Data Analysis
4 pages
Code Analysis
No ratings yet
Code Analysis
6 pages
Coding An
No ratings yet
Coding An
19 pages
Caderno 2 - Exercícios 5 A 11
No ratings yet
Caderno 2 - Exercícios 5 A 11
16 pages
Learning Concepts Hackers Realm
No ratings yet
Learning Concepts Hackers Realm
78 pages
Name: Reg. No.: Lab Exercise:: Shivam Batra 19BPS1131
100% (1)
Name: Reg. No.: Lab Exercise:: Shivam Batra 19BPS1131
10 pages
Escript Com Rede de Correlação
No ratings yet
Escript Com Rede de Correlação
2 pages
Water Quality Data Analysis
No ratings yet
Water Quality Data Analysis
30 pages
Water - Qualit (2) - JupyterLab
No ratings yet
Water - Qualit (2) - JupyterLab
10 pages
Descriptive Stats and Visualization
No ratings yet
Descriptive Stats and Visualization
16 pages
Water Potablity Detection
No ratings yet
Water Potablity Detection
29 pages
Hmwu R EDA
No ratings yet
Hmwu R EDA
78 pages
14-May - Jupyter Notebook
No ratings yet
14-May - Jupyter Notebook
15 pages
Presentation Final Thesis Surobhi Deb
No ratings yet
Presentation Final Thesis Surobhi Deb
18 pages
Testing The Hardness of Drinking Water at School
No ratings yet
Testing The Hardness of Drinking Water at School
14 pages
Code
No ratings yet
Code
5 pages
Exploratory Analysis
No ratings yet
Exploratory Analysis
4 pages
10.1 KNN Assignment
No ratings yet
10.1 KNN Assignment
4 pages
File Code BTL
No ratings yet
File Code BTL
2 pages
Water Quality Analysis
No ratings yet
Water Quality Analysis
4 pages
PRJ
No ratings yet
PRJ
17 pages
2020 - Applied Statistics For Environmental Science With R
No ratings yet
2020 - Applied Statistics For Environmental Science With R
3 pages
Aditi Project
No ratings yet
Aditi Project
12 pages
Muestra Agua Potable ITM20181030-160549-774
No ratings yet
Muestra Agua Potable ITM20181030-160549-774
5 pages
R Class 10
No ratings yet
R Class 10
7 pages
Step 1
No ratings yet
Step 1
8 pages
CC08 Group 07 Probability and Statistics Assignment Report PDF
No ratings yet
CC08 Group 07 Probability and Statistics Assignment Report PDF
36 pages
Lab 1 - Python - Excel
No ratings yet
Lab 1 - Python - Excel
14 pages
Plant Growth Analysis
No ratings yet
Plant Growth Analysis
6 pages
ADV Exp 6 2022301014
No ratings yet
ADV Exp 6 2022301014
6 pages
Import As From Import From Import Import As
No ratings yet
Import As From Import From Import Import As
5 pages
Solutions - Lab 6 - Factorial Designs
No ratings yet
Solutions - Lab 6 - Factorial Designs
23 pages
Lab Techniques Chemical
No ratings yet
Lab Techniques Chemical
4 pages
02 Pca
No ratings yet
02 Pca
14 pages
Wine DS
No ratings yet
Wine DS
14 pages
Final Report
No ratings yet
Final Report
29 pages
MicroArray Analysis - 201
No ratings yet
MicroArray Analysis - 201
13 pages
Analysis of Shallow Well Water Quality
No ratings yet
Analysis of Shallow Well Water Quality
48 pages
R Code
No ratings yet
R Code
9 pages
Data Introduction
No ratings yet
Data Introduction
10 pages
DATA INTRODUCTION - Phong
No ratings yet
DATA INTRODUCTION - Phong
5 pages
Wine
No ratings yet
Wine
15 pages
4eae864b8a051b00562fe573d9b9993b
No ratings yet
4eae864b8a051b00562fe573d9b9993b
3 pages
Kakora Column Graphs
No ratings yet
Kakora Column Graphs
6 pages
Exercise#9 Instructions 2021
No ratings yet
Exercise#9 Instructions 2021
5 pages
Empirical Crop Suitability Model 1694688954
No ratings yet
Empirical Crop Suitability Model 1694688954
24 pages
Code
No ratings yet
Code
25 pages
Research - Potable Drinking Water
No ratings yet
Research - Potable Drinking Water
11 pages
IMPLEMENTATION
No ratings yet
IMPLEMENTATION
6 pages
Assignment Food and Nutrition
No ratings yet
Assignment Food and Nutrition
3 pages
Trend Detection 35050
No ratings yet
Trend Detection 35050
27 pages
Unit 02A
No ratings yet
Unit 02A
17 pages
Unit 02 Complete
No ratings yet
Unit 02 Complete
70 pages
Pandas Usefull Code
No ratings yet
Pandas Usefull Code
2 pages
Zhao Et Al 2025 Exposome Scale Investigation of CL BR Containing Chemicals Using High Resolution Mass Spectrometry
No ratings yet
Zhao Et Al 2025 Exposome Scale Investigation of CL BR Containing Chemicals Using High Resolution Mass Spectrometry
11 pages
Code 22102017
No ratings yet
Code 22102017
5 pages

Code R

Uploaded by

Code R

Uploaded by

setwd("C:/")

cor_matrix <- cor(dt)

dt$interaction1 <- dt$ph * dt$Hardness

You might also like