0% found this document useful (0 votes)

10 views11 pages

L1 MultivDescriptive

Multivariate Data Analysis

Uploaded by

zeliawillscumberg

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

10 views11 pages

L1 MultivDescriptive

Multivariate Data Analysis

Uploaded by

zeliawillscumberg

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 11

Basic description and visualisation of multivariate data in R

Categorical variates

Contingency tables

Load the Titanic data set from a csv file (note that dots were used to represent missing data).
Titanic <- read.csv("Titanic.csv",na.strings=".")
#
# Define Sex as factor (0 = Female, 1 = Male)
#
Titanic$Sex <- factor(Titanic$Sex,levels=c(0,1),labels=c("Female","Male"))

Joint distribution table (contingency table, cross tab, 2-way table): absolute frequencies.
table(Titanic$Sex,Titanic$Survived)

No Yes
Female 154 308
Male 708 142
Joint distribution table (contingency table): relative frequencies.
table(Titanic$Sex,Titanic$Survived)/nrow(Titanic)

No Yes
Female 0.1172887 0.2345773
Male 0.5392232 0.1081493
See also ftable function.

Marginal distributions

Given two variates x, which takes values x1 , x2 , . . . , xn , and y, which takes values y1 , y2 , . . . , yn , the marginal
frequency distributions can be obtained as:

n
X n
X
f r(xi ) = f r(xi , yj ) f r(yj ) = f r(xi , yj )
j=1 i=1

Option 1: using table separately for each variate.

# Relative frequencies
table(Titanic$Survived)/length(Titanic$Survived)

No Yes
0.6565118 0.3427266
table(Titanic$Sex)/length(Titanic$Sex)

Female Male
0.3518660 0.6473724

1
Option 2: using addmargin on a contingency table.
tableTitanic <- table(Titanic$Sex,Titanic$Survived)/nrow(Titanic)
addmargins(tableTitanic)

No Yes Sum
Female 0.1172887 0.2345773 0.3518660
Male 0.5392232 0.1081493 0.6473724
Sum 0.6565118 0.3427266 0.9992384

Conditional distributions

f r(xi , yj )
f r(xi |yj ) =
f r(yj )

Example: relative frequency of survival being a woman.

rel.f r(Survived = Y es, Sex = F emale)

rel.f r(Survived = Y es|Sex = F emale) = = 0.1671
rel.f r(Sex = F emale)

Conditional distributions of Survived given Sex:

prop.table(tableTitanic,1)

No Yes
Female 0.3333333 0.6666667
Male 0.8329412 0.1670588
The second argument of prop.table sets the dimension of the table which the conditioning variate is located
at. In this case Sex is located in the first dimension (rows).
Conditional distributions of Sex given Survived:
prop.table(tableTitanic,2)

No Yes
Female 0.1786543 0.6844444
Male 0.8213457 0.3155556

Relationship between pairs of categorical variates

The summary function can be used on a table class object in order to perform a Chi-square test of independence.
The null hypothesis is independence, no association.
summary(table(Titanic$Sex,Titanic$Survived))

Number of cases in table: 1312

Number of factors: 2
Test for independence of all factors:
Chisq = 331.5, df = 1, p-value = 4.444e-74
The p-value results to be extremely low and, hence, it provides support to conclude statistically significant
association between sex and survival.

2
Some graphical representations for categorical variates

Mosaics
plot(tableTitanic,main="Titanic",ylab="Survived",xlab="Sex",col=rainbow(2))

Titanic

Female Male
No
Survived

Yes

Sex
Using the HairEyeColor dataset included in R:
a <- as.table(HairEyeColor[,,"Male"]) # Extract table for Male category
a

Eye
Hair Brown Blue Hazel Green
Black 32 11 10 3
Brown 53 50 25 15
Red 10 10 7 7
Blond 3 30 5 8
plot(a,main="Hair and eye colour (Male)",ylab="Eye",xlab="Hair",col=rainbow(4))

3
Hair and eye colour (Male)

Black Brown Red Blond

Brown
Eye

Blue
Green Hazel

Hair
b <- as.table(HairEyeColor[,,"Female"]) # Extract table for Female category
b

Eye
Hair Brown Blue Hazel Green
Black 36 9 5 2
Brown 66 34 29 14
Red 16 7 7 7
Blond 4 64 5 8
plot(b,main="Hair and eye colour (Female)",ylab="Eye",xlab="Hair",col=rainbow(4))

Hair and eye colour (Female)

Black Brown Red Blond

Brown
Eye

BlueHazel
Green

Hair

4
Combined barplots
barplot(t(b),main="Hair and eye colour (Female)",col=rainbow(4),beside=T,xlab="Hair color",
legend=T,args.legend=list(x="topleft",bty="n"))

Hair and eye colour (Female)

Brown
60

Blue
Hazel
50

Green
40
30
20
10
0

Black Brown Red Blond

Hair color

Multi-way tables for categorical variates

The ftable function provides a neat format for contingency tables involving more than two variates. It
works on both raw data matrices and table objects. For example, using the HairEyeColor dataset, which is
a list of two tables (Male, Female), we obtain:
ftable(HairEyeColor)

Sex Male Female

Hair Eye
Black Brown 32 36
Blue 11 9
Hazel 10 5
Green 3 2
Brown Brown 53 66
Blue 50 34
Hazel 25 29
Green 15 14
Red Brown 10 16
Blue 10 7
Hazel 7 7
Green 7 7
Blond Brown 3 4
Blue 30 64
Hazel 5 5

5
Green 8 8
From raw data (personal.csv file):
Personal <- read.table("personal.csv",sep=",",header=T)
head(Personal)

Sex Status Education City

1 Female Married University Glasgow
2 Female Married Primary Edinburgh
3 Female Married Secondary Dundee
4 Female Married Primary Glasgow
5 Female Married Secondary Glasgow
6 Female Married Secondary Glasgow
ftable(Personal)

City Dundee Edinburgh Glasgow

Sex Status Education
Female Couple Primary 0 0 0
Secondary 0 0 0
University 0 0 0
Divorced Primary 0 0 0
Secondary 0 0 0
University 0 0 0
Married Primary 0 3 2
Secondary 1 2 5
University 0 1 1
Single Primary 0 2 1
Secondary 0 1 1
University 0 2 0
Male Couple Primary 1 0 0
Secondary 1 0 0
University 1 0 0
Divorced Primary 0 0 0
Secondary 0 1 0
University 0 1 0
Married Primary 0 1 0
Secondary 0 0 0
University 0 0 0
Single Primary 4 0 0
Secondary 2 0 1
University 4 0 2
The variates can be arranged in different ways by the arguments row.vars and col.vars:
ftable(Personal,row.vars=c("Status","Education"))

Sex Female Male

City Dundee Edinburgh Glasgow Dundee Edinburgh Glasgow
Status Education
Couple Primary 0 0 0 1 0 0
Secondary 0 0 0 1 0 0
University 0 0 0 1 0 0
Divorced Primary 0 0 0 0 0 0
Secondary 0 0 0 0 1 0
University 0 0 0 0 1 0

6
Married Primary 0 3 2 0 1 0
Secondary 1 2 5 0 0 0
University 0 1 1 0 0 0
Single Primary 0 2 1 4 0 0
Secondary 0 1 1 2 0 1
University 0 2 0 4 0 2
ftable(Personal,row.vars=c("Status","Education"),col.vars="City")

City Dundee Edinburgh Glasgow

Status Education
Couple Primary 1 0 0
Secondary 1 0 0
University 1 0 0
Divorced Primary 0 0 0
Secondary 0 1 0
University 0 1 0
Married Primary 0 4 2
Secondary 1 2 5
University 0 1 1
Single Primary 4 2 1
Secondary 2 1 2
University 4 2 2

Numerical variates

Linear relationship measures: covariance and correlation

Sample covariance and correlation between two variates x and y:

Pn
i=1 (xi − x̄)(yi − ȳ) Sxy
Sxy = rxy =
n Sx Sy

Using the airquality dataset in R:

help(airquality)
air <- airquality[,1:4] # We focus on experimental measurements

Descriptive measures:
(tip: explore options to deal with missing data when using the following functions)
colMeans(air) # Mean vector

Ozone Solar.R Wind Temp

NA NA 9.957516 77.882353
colMeans(air,na.rm=T) # Mean vector omiting missing values (NA)

Ozone Solar.R Wind Temp

42.129310 185.931507 9.957516 77.882353
apply(air,2,var,na.rm=T) # Variances

Ozone Solar.R Wind Temp

1088.20052 8110.51941 12.41154 89.59133

7
apply(air,2,sd,na.rm=T) # Standard deviations

Ozone Solar.R Wind Temp

32.987885 90.058422 3.523001 9.465270
var(air,na.rm=T) # Covariance matrix

Ozone Solar.R Wind Temp

Ozone 1107.29009 1056.5835 -72.51124 221.52072
Solar.R 1056.58346 8308.7422 -41.24480 255.46765
Wind -72.51124 -41.2448 12.65732 -16.85717
Temp 221.52072 255.4676 -16.85717 90.82031
cov(air,use="complete.obs") # Covariance matrix

Ozone Solar.R Wind Temp

Ozone 1.0000000 0.3483417 -0.6124966 0.6985414
Solar.R 0.3483417 1.0000000 -0.1271835 0.2940876
Wind -0.6124966 -0.1271835 1.0000000 -0.4971897
Temp 0.6985414 0.2940876 -0.4971897 1.0000000
cov2cor(cov(air,use="complete.obs")) # Convert covariance matrix into correlation matrix

Ozone Solar.R Wind Temp

Ozone 1.0000000 0.3483417 -0.6124966 0.6985414
Solar.R 0.3483417 1.0000000 -0.1271835 0.2940876
Wind -0.6124966 -0.1271835 1.0000000 -0.4971897
Temp 0.6985414 0.2940876 -0.4971897 1.0000000

Visualisation of relationships

Scatter plot
Reveals variables which are positively and negatively correlated, extreme observations, clusters, unusual
patterns, . . .
Plotting multivariate data is imperative before carrying out a formal statistical analysis.
plot(air$Temp,air$Wind,ylab="Wind",xlab="Temperature (ªF)")

8
20
15
Wind

10
5

60 70 80 90

Temperature (ªF)
# Adding smooth loess curve
scatter.smooth(air$Temp,air$Wind,ylab="Wind",xlab="Temperature (ªF)",lpars=list(col="red"))
20
15
Wind

10
5

60 70 80 90

Temperature (ªF)
Matrix of pairwise scatter plots:
plot(air) # (same as using pairs())

9
0 100 200 300 60 70 80 90

150
Ozone

0 50
300

Solar.R
150
0

15
Wind

5
80

Temp
60

0 50 100 150 5 10 15 20

3D scatter plot:
#install.packages("scatterplot3d")
library(scatterplot3d)
scatterplot3d(air$Temp,air$Wind,air$Solar.R,color="blue")
0 50 100 150 200 250 300 350
air$Solar.R

air$Wind

25
20
15
10
5
0
50 60 70 80 90 100

air$Temp
# Using the `iris` dataset in R
scatterplot3d(iris$Sepal.Length,iris$Sepal.Width,iris$Petal.Width,color=as.numeric(iris$Species))

10
iris$Petal.Width

0.0 0.5 1.0 1.5 2.0 2.5

4
5
6

iris$Sepal.Length
7

11
8
2.0
2.5
3.0
3.5
4.0
4.5

iris$Sepal.Width

Speed Up Rubik's Cube Solving: CFOP Guide
60% (5)
Speed Up Rubik's Cube Solving: CFOP Guide
4 pages
11.1.1.7 Repository JT
0% (1)
11.1.1.7 Repository JT
204 pages
Summarising Categorical Variables in R
No ratings yet
Summarising Categorical Variables in R
4 pages
VCD Tutorial
No ratings yet
VCD Tutorial
37 pages
VCD Tutorial PDF
No ratings yet
VCD Tutorial PDF
37 pages
93 ChiSquare
No ratings yet
93 ChiSquare
4 pages
cs446 - Tool Summarizing and Visualizing Numerical Variables in Bbivariate and Multivariate Analyses
No ratings yet
cs446 - Tool Summarizing and Visualizing Numerical Variables in Bbivariate and Multivariate Analyses
14 pages
Stats 1, Lecture
No ratings yet
Stats 1, Lecture
11 pages
R
No ratings yet
R
6 pages
Descriptive Statistics
No ratings yet
Descriptive Statistics
23 pages
C01 Introduction S
No ratings yet
C01 Introduction S
20 pages
Test 1 Notes
No ratings yet
Test 1 Notes
6 pages
Chapter 9
No ratings yet
Chapter 9
4 pages
Notes 3
No ratings yet
Notes 3
19 pages
Data Analysis with R: Tables & Plots
No ratings yet
Data Analysis with R: Tables & Plots
13 pages
Department of Statistics: Course Stats 330
No ratings yet
Department of Statistics: Course Stats 330
7 pages
R Cheat Sheet
No ratings yet
R Cheat Sheet
9 pages
Lab Manual - DSR
No ratings yet
Lab Manual - DSR
32 pages
Cs446 Tool Using Formulas Within Functions
No ratings yet
Cs446 Tool Using Formulas Within Functions
3 pages
DATA202-02 - Descriptive Statistics (Part 2)
No ratings yet
DATA202-02 - Descriptive Statistics (Part 2)
18 pages
Source: Pllnu4Dk9H04Wqyrebvzx4?Fr Yfp-T-701-S &toggle 1&cop Mss&Ei Utf8&Fp - Ip PH&P Types of Descriptive Statistics
No ratings yet
Source: Pllnu4Dk9H04Wqyrebvzx4?Fr Yfp-T-701-S &toggle 1&cop Mss&Ei Utf8&Fp - Ip PH&P Types of Descriptive Statistics
51 pages
7CCMMS61 Statistics For Data Analysis: Francisco Javier Rubio Department of Mathematics
No ratings yet
7CCMMS61 Statistics For Data Analysis: Francisco Javier Rubio Department of Mathematics
13 pages
R-Training For Print
No ratings yet
R-Training For Print
11 pages
3 Bivariate Data
No ratings yet
3 Bivariate Data
33 pages
Quantitative Analysis Draft
No ratings yet
Quantitative Analysis Draft
168 pages
Ns Statistics 2022
No ratings yet
Ns Statistics 2022
70 pages
Topic 1 Descriptive Statistics SV
No ratings yet
Topic 1 Descriptive Statistics SV
113 pages
03 UnderstandData
No ratings yet
03 UnderstandData
29 pages
Introduction To Data and Statistics With R
No ratings yet
Introduction To Data and Statistics With R
45 pages
Lecture 2
No ratings yet
Lecture 2
50 pages
Multilevel Models in R Presente and Future
No ratings yet
Multilevel Models in R Presente and Future
8 pages
Ex 2
No ratings yet
Ex 2
5 pages
Rstudio Cours
No ratings yet
Rstudio Cours
11 pages
Variables & Chart
No ratings yet
Variables & Chart
60 pages
Intro to Univariate Data Analysis
No ratings yet
Intro to Univariate Data Analysis
87 pages
Unit 2. Teoria
No ratings yet
Unit 2. Teoria
86 pages
1.1 NOTES Ada
No ratings yet
1.1 NOTES Ada
15 pages
Basic Concepts in Statistics
No ratings yet
Basic Concepts in Statistics
42 pages
SPSS and Statistics
No ratings yet
SPSS and Statistics
18 pages
Lecture 1 Intro
No ratings yet
Lecture 1 Intro
61 pages
CM05 DescStats
No ratings yet
CM05 DescStats
27 pages
Day1 Descriptive and Summary
No ratings yet
Day1 Descriptive and Summary
36 pages
Chapter 1 Mathematics
No ratings yet
Chapter 1 Mathematics
2 pages
Unit 3
No ratings yet
Unit 3
45 pages
1.1 - Statistics Refresher
No ratings yet
1.1 - Statistics Refresher
34 pages
Practical2 3
No ratings yet
Practical2 3
6 pages
BioStats CIA1
No ratings yet
BioStats CIA1
10 pages
Advanced Statistics
No ratings yet
Advanced Statistics
259 pages
Commands For Data Analysis Using R
No ratings yet
Commands For Data Analysis Using R
11 pages
3 - Bidimensional Statistics
No ratings yet
3 - Bidimensional Statistics
41 pages
R ANOVA Tutorial for Data Analysts
No ratings yet
R ANOVA Tutorial for Data Analysts
9 pages
Unit 3 Data Analysis
No ratings yet
Unit 3 Data Analysis
3 pages
Programming For AI: Exploratory Data Analysis
No ratings yet
Programming For AI: Exploratory Data Analysis
52 pages
New Chapter 13 Elementary Statistics
No ratings yet
New Chapter 13 Elementary Statistics
15 pages
1 Introduction To Statistics and Sampling
No ratings yet
1 Introduction To Statistics and Sampling
14 pages
Experiment No 9
No ratings yet
Experiment No 9
13 pages
Descriptive Statistics
No ratings yet
Descriptive Statistics
30 pages
Award in Education and Training Sample
No ratings yet
Award in Education and Training Sample
9 pages
Biological Data Science Lecture6
No ratings yet
Biological Data Science Lecture6
29 pages
w2c Central Limit
No ratings yet
w2c Central Limit
1 page
Master of Science in Renewable Energy and Management
No ratings yet
Master of Science in Renewable Energy and Management
1 page
BDS 2016-17
No ratings yet
BDS 2016-17
4 pages
Doing Business in Hungary
No ratings yet
Doing Business in Hungary
22 pages
MDA3S
No ratings yet
MDA3S
22 pages
W2e Multivariate Gaussian
No ratings yet
W2e Multivariate Gaussian
6 pages
BDS 2018-19
No ratings yet
BDS 2018-19
6 pages
Biological Data Science Lecture4
No ratings yet
Biological Data Science Lecture4
21 pages
Week 2 Naive Bayes
No ratings yet
Week 2 Naive Bayes
15 pages
Part 4
No ratings yet
Part 4
24 pages
MATH11183 Week 1-Part 2
No ratings yet
MATH11183 Week 1-Part 2
18 pages
Part 5
No ratings yet
Part 5
31 pages
Week 8 Pca
No ratings yet
Week 8 Pca
26 pages
MLPR w0f - Machine Learning and Pattern Recognition
No ratings yet
MLPR w0f - Machine Learning and Pattern Recognition
3 pages
Slides 03 A
No ratings yet
Slides 03 A
21 pages
TS Part2
No ratings yet
TS Part2
62 pages
PMRslides 02
No ratings yet
PMRslides 02
13 pages
Part 3
No ratings yet
Part 3
29 pages
w9b Netflix Prize
No ratings yet
w9b Netflix Prize
3 pages
PMRslides 03 B
No ratings yet
PMRslides 03 B
45 pages
W6a Gaussian Process Kernels
No ratings yet
W6a Gaussian Process Kernels
6 pages
Bayesian Workshop1 Solution
No ratings yet
Bayesian Workshop1 Solution
3 pages
2019 AMAM Exam Paper
No ratings yet
2019 AMAM Exam Paper
3 pages
Bio Statslectures
No ratings yet
Bio Statslectures
60 pages
Bayesian Week4 LectureNotes
No ratings yet
Bayesian Week4 LectureNotes
15 pages
Heat Advection
No ratings yet
Heat Advection
12 pages
Laplace Approximation in Bayesian Logistic Regression
No ratings yet
Laplace Approximation in Bayesian Logistic Regression
4 pages
2017 AMAM Exam Paper
No ratings yet
2017 AMAM Exam Paper
6 pages
Payment Confirmation for Tickets
No ratings yet
Payment Confirmation for Tickets
3 pages
Yoder Schrag Nassi - Schart
No ratings yet
Yoder Schrag Nassi - Schart
8 pages
Online Bus Booking System
100% (1)
Online Bus Booking System
69 pages
Educational Management and A
No ratings yet
Educational Management and A
21 pages
Time Duration Calculator
No ratings yet
Time Duration Calculator
1 page
C# Programming Language Overview
No ratings yet
C# Programming Language Overview
20 pages
Pathloss 5
No ratings yet
Pathloss 5
32 pages
Casino Eq Interface-Recommended Setup
No ratings yet
Casino Eq Interface-Recommended Setup
13 pages
Sylla CISP43010 F
No ratings yet
Sylla CISP43010 F
6 pages
Dot Printer Command Guide
No ratings yet
Dot Printer Command Guide
104 pages
Introduction To Data Science
No ratings yet
Introduction To Data Science
255 pages
Network Safety Test
100% (1)
Network Safety Test
7 pages
3D Archicad Training: Module 1 Guide
No ratings yet
3D Archicad Training: Module 1 Guide
3 pages
Ax 25proctocol
No ratings yet
Ax 25proctocol
13 pages
Troubleshooting IP Addressing: 1. Open A DOS Window and Ping 127.0.0.1
No ratings yet
Troubleshooting IP Addressing: 1. Open A DOS Window and Ping 127.0.0.1
20 pages
MVTS Manual v2
No ratings yet
MVTS Manual v2
12 pages
Sylvester Maurus, Aristotelis Opera Omnia, I (Logica, Rhetorica, Poetica), Roma, 1668
100% (1)
Sylvester Maurus, Aristotelis Opera Omnia, I (Logica, Rhetorica, Poetica), Roma, 1668
999 pages
CS 135 Discrete Structures Syllabus: Text Books
No ratings yet
CS 135 Discrete Structures Syllabus: Text Books
1 page
Cryptographic Hash Functions Guide
No ratings yet
Cryptographic Hash Functions Guide
56 pages
Engineering Project Report
No ratings yet
Engineering Project Report
14 pages
Samsung t100 Secret Codes
No ratings yet
Samsung t100 Secret Codes
4 pages
Activity Cost and Step Definitions
No ratings yet
Activity Cost and Step Definitions
5 pages
Introduction To Cadence Orcad Capture Cis
No ratings yet
Introduction To Cadence Orcad Capture Cis
11 pages
User's Manual: Release 3.0
No ratings yet
User's Manual: Release 3.0
126 pages
AMS Machinery Manager: Version 5.7 Software Installation Guide
No ratings yet
AMS Machinery Manager: Version 5.7 Software Installation Guide
68 pages
Transaction Statement: Account Number: 0455104000134361 Date: 2023-03-02 Currency: INR
No ratings yet
Transaction Statement: Account Number: 0455104000134361 Date: 2023-03-02 Currency: INR
7 pages
万能密码fuzz
No ratings yet
万能密码fuzz
4 pages
Trending Topic Analysis Using Novel Sub Topic Detection Model
No ratings yet
Trending Topic Analysis Using Novel Sub Topic Detection Model
5 pages

L1 MultivDescriptive

Uploaded by

L1 MultivDescriptive

Uploaded by

Basic description and visualisation of multivariate data in R

Option 1: using table separately for each variate.

Example: relative frequency of survival being a woman.

rel.f r(Survived = Y es, Sex = F emale)

Conditional distributions of Survived given Sex:

Relationship between pairs of categorical variates

Number of cases in table: 1312

Black Brown Red Blond

Hair and eye colour (Female)

Black Brown Red Blond

Hair and eye colour (Female)

Black Brown Red Blond

Multi-way tables for categorical variates

Sex Male Female

Sex Status Education City

City Dundee Edinburgh Glasgow

Sex Female Male

City Dundee Edinburgh Glasgow

Linear relationship measures: covariance and correlation

Sample covariance and correlation between two variates x and y:

Using the airquality dataset in R:

Ozone Solar.R Wind Temp

Ozone Solar.R Wind Temp

Ozone Solar.R Wind Temp

Ozone Solar.R Wind Temp

Ozone Solar.R Wind Temp

Ozone Solar.R Wind Temp

Ozone Solar.R Wind Temp

Ozone Solar.R Wind Temp

0.0 0.5 1.0 1.5 2.0 2.5

You might also like