Thanks to visit codestin.com
Credit goes to www.scribd.com

Open navigation menu

Scribd

0% found this document useful (0 votes)

12 views12 pages

Swe370 Data Mining

Uploaded by

Copyright

© © All Rights Reserved

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

12 views12 pages

Swe370 Data Mining

Uploaded by

Copyright

© © All Rights Reserved

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 12

Data Mining

1 Homework+ 1 midterm =
-
% 60

final Exam =- 10 %

KDD
O LAB
D ala Warehouse
Data Cube

Object Relational Databases

Temporal Database
Data base
Sequence
time series Database

Data Mining

X
DescriptivePredictive

must be now
Chapter z : cas function less
variances
standard deviation and

= (x-X

Wavele
Transformation
2 .
5:4 Numerosity Reduction

t
Name : Mohamed Osman Hassan
Student Number: 210 S13737

department : Software Engineering

Signature :
At
Question L answer : We can
find mean by adding all

data and dividing in with the number data

of
=

= E Xi
83 31.
= =

14 18 19 00 20
, ,
16 , 16
, , , ,
21 , 22 , 22 23
, ,
25, 25 25 30,
, , 33 , 33, 35, 35
, ,35, 36, 40, 45, 46, 52
35
,
70 , 85

Median 27 5
230
= = .

Question 10 : The
highest frequency of data set

and only
there
mode.
is 35
modality is unimodal Win one

Question 1c :
Midrange ishighest
value + lowest valued
2

+ 149 5 .

Question 1D
firs quartile (o) is
14 18 16 , 16 19 00 20
, 21 , 22 , 22 23 25, 25 as
, , , , , , , ,

average =

(2) = 20 .

5
Q3 is : 30, 33
, 33, 35, 35, 35;35, 36, 40 45
, ,
46, 52 ,
70 , 85

Q3
average
(336) 35:5
= = -

Question -E ; it menus we have to write Min

, R , median and=
= 14 20 . 5 27 5 35 5
.
.
, , ,

Question If :

: 18
E

Question 19 : Grantile plac Ordersalata from smallest to

largest .

Quantile-Qantile Plot : Calculates the quarties of

dow data sets

One theoretical one dataset .

,
Question 2 a : cosine similarity
ddek
equation
dini = = 0 .
0660 = co
similaritie

correlation

equation
,
*
=
8 375
j
:
2+ 2 = 1 5
20
+
.
=

2 (xi - *
) (yij) (0) (0 5) + 0 (-1 5) + 0
=
. . :
.

00 5) + . 0. 10 .

5) = 0

0 .

[10 2s)
. + 12 253 + (0 25) + 20
. .
. 25)]
Of undefined
=
=
correlation

-
Sodedian distance : Jaxi-yi)2 =
J(1-2 + 11-0+ 11-2)+ (1-252 = 2

02(b)
= did = =
0 . 516 = Cosine
Similarity

T = 0 . 75
2 (xi - <
) (y ,j) = (0 - 0. 75)(1-0 75) + 21 -0 75710
.
. -
0 .

75) +
y = 0 . 75

(0 -0 75) (1-0 75) . .

+ 12 -
0 .
75)(1-0 75) :

=
- 0 .
1875 -0 1875 -
-
0. 1875 + 0 3175 .

= -
0 75
75)"(0 29)
.

(xi <y [ (yi j7 7592(8 25)2 + (0 2572( 07512 + 1- 0

.

= ( 0
-
- - :
- . . .

↑ (102512 (0 25)2 .

195
-0
.

C-0110-11Tar
Zocedian distance :
J + = 2

Jaccard Similarity :y ==

Ge() y
=

t
=
0408

=
zocedian distance
F : Th to = Je = 1 752
.

Jaccard Similarity
:
God
No
Cosine similarity
==
0

T
= = 0 ,
83 = 0
a

=
correlation
0 343

&=
.

Jaccard Similarity
: 2
= 0 .
667

Q2e

No
Cosine similarity =
=
correlation 0

T = 0

Y = 2

Jaccard Similarity
:= 0

Py(a) Evclidean distance = (18-201+ (213+ (42 37) + 16-4) -

=
n + 4 + 25 + y 557 6 08 = = .

Manhattan distance 118-201

= + (21 + 142 371 + 16-41
-

= 11

Minhowski distance = 18-20 23

+ 42-37'+ 6-13
=
+ 8 + 8 + 125 + 8 = "Sing = 5. 30

Supremum distance = Max (2 , 2 , S 2) = 5

,
data

Cluster
OutpuDie darnational
analysis
a dann cubes
Multidimensional data tables
Outlier
mining

Support (x = y) P(Xuy)
=

Confidence (x -y) P(Y(X)

= =

parallel and distributed data mining algorimms .

Loose
coupling
Semitight coupling
fight coupling
& IAP -- Online
analytical processing

Chapter & Data

processing
Data reduction

Data cleaning -
> Data Integration
Data transformation Q5-Q
Interquartile range (IQR)
- distance between ,

Distributive Measure
Algebraic Measure

weighted arimmatic
trimmed Mean
mean

I wi or weightedaverage

Holistic Measure

Median = L
+fat) wide

>
-
unimodal
& Sima
al
dispersion or variance

quartile I
as

like

first quartile Q
Boxplots for visualizing
Variance N X ,, Xz XN
of
. ...

= [Evi-Y(Exi)]
mean Value

Quantile plot

fi =

o 5
.

quantile-quantile plow or
giq put
Scatter
plot
Loes curve

data
smooring &
BinningMenodeion
Clustering

field overloading

uniqueeve re

entity identification problem

correlation analys is
Correlation
Chi
crefficient (Pearson's product moment) =

rAB = )

=
T
square
Contingency table

invert
Data traformation can

constrative
Win-max normalization transform
z-score normalization
/DAT) -
* worde
i
C
Decision
C1 5
tree
and Cort
distrate
wavelet transforms
ID3
:

Dimensionality Reduction - principal components analysis

Pyramid algorithm
Principal components analysis
Info(D) = Entropy (D + Entropy (D

Entropy (D , ) =
= pilry(pi) .
3-1-S' rule

Large Software Can be

developed
by following

↑
Waterfall
Mush
a
Spin

~ 44)2
using 4432 + (23 - 46 .

+ 127 - 42 .

19511824
1476 1
78 +

44)" + (39-46 44)

-4 6 (41-16 443
. · .

121 54
.
-us . um)2+ 149-usun) + (so-usunsh

18 &

24
24706 gyz5 96 +1011
.

4477 22 .

-
min-Mad X = X-minx)
-
(manmin) + min

max(X) -
minD)

z-scoremeanStandard deviation
z-score normalization = Mean absolute deviation (MaD) =

↑ xi-y
mean
largest
number digic
Normalization decimal DX
by =
=/ 0
2x1000 = 3

equi-wide bin-min( new (min + u (eq)(

number
of bing
k-means- >
clustering
Given datax : S 10 11
, , ,
13 15, 35 , 50
, ,
55
; 72 , 92, 201, 215

Step 1 initial Gues

Take one number ative

beginning mid und
If 50 doo

Step
2 make a table and measure distance

X Distance to 10 Distance to 50 Distance to 200 Cluster Assignment

g S 45 195 Cluster I

10 8 48 198 Cluster 1

11 I 39 189 Cluster 1

13 3 37 187 Cluster I

Is S 35 189 Cluster 1
35 25 IS 16S Cluster z

So 40 J Iso cluster z

SS YS S 14S Cluster
72 62 22 128 Cluster z

92 82 42 10s Cluster 2

201 194 154 4 Cluster 3

215- 205 165 Is Cluster]

closter 1 :
,,
5 10 11 ,
13 , 15

Cluster 2 : 35, so 55 72
, , , 92

Cluster 3 : 201 His

,

You might also like

MR 20 Nissan PDF
88% (8)
MR 20 Nissan PDF
1,639 pages
AutoCAD and Its Applications - Capítulo 5
100% (1)
AutoCAD and Its Applications - Capítulo 5
26 pages
Data Preprocessing
No ratings yet
Data Preprocessing
39 pages
Assignment 2
No ratings yet
Assignment 2
6 pages
Quiz2 Source
No ratings yet
Quiz2 Source
8 pages
PS2 Sol
No ratings yet
PS2 Sol
7 pages
Data Mining for Analysts
No ratings yet
Data Mining for Analysts
43 pages
Rsfinal
No ratings yet
Rsfinal
30 pages
21CS63 - Unit1 Practice Questions
No ratings yet
21CS63 - Unit1 Practice Questions
3 pages
DS5 Statistics
No ratings yet
DS5 Statistics
67 pages
Data Similarity
0% (1)
Data Similarity
18 pages
Lec 5
No ratings yet
Lec 5
24 pages
Basic Statistical Descriptions of Data
No ratings yet
Basic Statistical Descriptions of Data
26 pages
Eda Final Reviewer
No ratings yet
Eda Final Reviewer
5 pages
Lecture 5
No ratings yet
Lecture 5
27 pages
Formulas at A Glance - IDS
No ratings yet
Formulas at A Glance - IDS
5 pages
QB 2
No ratings yet
QB 2
3 pages
Formula Book 1-1
No ratings yet
Formula Book 1-1
7 pages
DM Lec03
No ratings yet
DM Lec03
37 pages
Homework Index: To See If The Questions Have Been Changed, or If You Are Required To Use Different Data or Examples
No ratings yet
Homework Index: To See If The Questions Have Been Changed, or If You Are Required To Use Different Data or Examples
86 pages
Class-Data Preprocessing-IV
No ratings yet
Class-Data Preprocessing-IV
28 pages
Data Science Pyqdata Science Pyqdata Science Pyq
No ratings yet
Data Science Pyqdata Science Pyqdata Science Pyq
6 pages
Factor Analysis2
No ratings yet
Factor Analysis2
51 pages
Important Questions Related To Module-1 & Module-2
No ratings yet
Important Questions Related To Module-1 & Module-2
2 pages
Class11-Descriptive STATISTICS
No ratings yet
Class11-Descriptive STATISTICS
3 pages
Cluster Analysis Introduction (Unit-6)
No ratings yet
Cluster Analysis Introduction (Unit-6)
20 pages
Cluster Analysis in Construction
No ratings yet
Cluster Analysis in Construction
23 pages
CS361 FA23 Lec2 Post
No ratings yet
CS361 FA23 Lec2 Post
67 pages
Chapter3 DataPreprocessing
No ratings yet
Chapter3 DataPreprocessing
50 pages
Chapter - 2 Data Mining
No ratings yet
Chapter - 2 Data Mining
21 pages
Class 1c - DataFundamentals
No ratings yet
Class 1c - DataFundamentals
27 pages
DM Practice Midterm Set-1
No ratings yet
DM Practice Midterm Set-1
2 pages
9-2 Data Analysis and Pre-Processing Part 2 PDF
No ratings yet
9-2 Data Analysis and Pre-Processing Part 2 PDF
27 pages
02 Tinh Khoang Cach - Compatibility Mode
No ratings yet
02 Tinh Khoang Cach - Compatibility Mode
14 pages
Unit 4
No ratings yet
Unit 4
55 pages
Mod 4 Types of Data in Cluster Analysis
No ratings yet
Mod 4 Types of Data in Cluster Analysis
31 pages
Business Statistics Practice Questions
No ratings yet
Business Statistics Practice Questions
8 pages
Answer Midterm Exam Data Mining1 2021 - 2022
100% (2)
Answer Midterm Exam Data Mining1 2021 - 2022
4 pages
2 Similarity Disimilarity Measure
No ratings yet
2 Similarity Disimilarity Measure
35 pages
27 (10a-Ds) Rayyan Khan 1
No ratings yet
27 (10a-Ds) Rayyan Khan 1
14 pages
FDS Important Q
No ratings yet
FDS Important Q
5 pages
4 Preprocessing
No ratings yet
4 Preprocessing
72 pages
DM&DW Individual Assignment (50%)
No ratings yet
DM&DW Individual Assignment (50%)
4 pages
Week3 - Data Preprocessing, Extraction and Preparation
No ratings yet
Week3 - Data Preprocessing, Extraction and Preparation
34 pages
CSC 452 DM Lecture02 Know Your Data B 13102020 014200pm
No ratings yet
CSC 452 DM Lecture02 Know Your Data B 13102020 014200pm
26 pages
Correlation and Regression...
No ratings yet
Correlation and Regression...
39 pages
Important Questions - DM
No ratings yet
Important Questions - DM
4 pages
Margin 6794edf99eb1f 6794ede66a47f
No ratings yet
Margin 6794edf99eb1f 6794ede66a47f
2 pages
Data Mining Assignment
No ratings yet
Data Mining Assignment
13 pages
2CSOE03-O IR December 2023
No ratings yet
2CSOE03-O IR December 2023
4 pages
Data Mining Homework 1
100% (1)
Data Mining Homework 1
2 pages
No 2
No ratings yet
No 2
2 pages
Data Similarity and Dissimilarity
No ratings yet
Data Similarity and Dissimilarity
3 pages
DM LAQs (CT 1)
No ratings yet
DM LAQs (CT 1)
40 pages
Getting To Know Your Data: 2.1 Exercises
100% (1)
Getting To Know Your Data: 2.1 Exercises
8 pages
Data Mining and Predictive Modeling: Lecture 13: Measuring Data Similarity
No ratings yet
Data Mining and Predictive Modeling: Lecture 13: Measuring Data Similarity
19 pages
2 2 Data
No ratings yet
2 2 Data
27 pages
Predictive Numericals 20 Questions
No ratings yet
Predictive Numericals 20 Questions
4 pages
Unit 1 Ganeshk e
No ratings yet
Unit 1 Ganeshk e
24 pages
Explicit Solutions For Critical and Normal Depths in Trapezoidal and Parabolic Open Channels
No ratings yet
Explicit Solutions For Critical and Normal Depths in Trapezoidal and Parabolic Open Channels
7 pages
Diborane: Properties and Applications
No ratings yet
Diborane: Properties and Applications
36 pages
3-in-1 Transducer Install Guide
No ratings yet
3-in-1 Transducer Install Guide
2 pages
Non-Invasive Cylicon (Cylinder and Cone) Antenna For Blood Glucose Monitoring
No ratings yet
Non-Invasive Cylicon (Cylinder and Cone) Antenna For Blood Glucose Monitoring
5 pages
Proplem Chapter 2.pdf - 2023.02.03 - 12.38.41pm
No ratings yet
Proplem Chapter 2.pdf - 2023.02.03 - 12.38.41pm
7 pages
Physics of Fusion Power
No ratings yet
Physics of Fusion Power
22 pages
032-066 Biotech2e Lab Ch03
No ratings yet
032-066 Biotech2e Lab Ch03
35 pages
Section 2.0 - Specifications Square Drive Tools: W ENG-5525-056 AD) Page 6 of 40 Eng Us
No ratings yet
Section 2.0 - Specifications Square Drive Tools: W ENG-5525-056 AD) Page 6 of 40 Eng Us
3 pages
Holy City Audio Forum: Modulated Delay
No ratings yet
Holy City Audio Forum: Modulated Delay
3 pages
Volvo Penta Air Heater Guide
No ratings yet
Volvo Penta Air Heater Guide
2 pages
Geotechnical Study for Baghdad Site
No ratings yet
Geotechnical Study for Baghdad Site
20 pages
Solenoid Valve 2/2 Way N.O. Direct Acting - Dampness-Proof IP 67
No ratings yet
Solenoid Valve 2/2 Way N.O. Direct Acting - Dampness-Proof IP 67
2 pages
C++ Data Types
100% (1)
C++ Data Types
8 pages
CPX27xx-0010: Installation and Operating Instructions - EN
No ratings yet
CPX27xx-0010: Installation and Operating Instructions - EN
39 pages
ADARSH Physics-1
No ratings yet
ADARSH Physics-1
19 pages
Chemistry for Students
No ratings yet
Chemistry for Students
17 pages
MODULE - Range and Kernel
No ratings yet
MODULE - Range and Kernel
23 pages
Reviewer
No ratings yet
Reviewer
5 pages
Exp 2 (Homemade Ice Cream)
No ratings yet
Exp 2 (Homemade Ice Cream)
8 pages
Theoretical and Experimental Determination of Cell Constants of Planar-Interdigitated Electrolyte Conductivity Sensors
No ratings yet
Theoretical and Experimental Determination of Cell Constants of Planar-Interdigitated Electrolyte Conductivity Sensors
5 pages
Physics 1.1
No ratings yet
Physics 1.1
3 pages
Nigerian Audit Impact on Reporting
No ratings yet
Nigerian Audit Impact on Reporting
121 pages
Gr-7 Term 1 & 2 Annual Planner 2024-25
No ratings yet
Gr-7 Term 1 & 2 Annual Planner 2024-25
11 pages
CSEC Technical Drawing June 2010 P032
No ratings yet
CSEC Technical Drawing June 2010 P032
6 pages
Preparation PLM 11
No ratings yet
Preparation PLM 11
18 pages
ONGC Spce Tube Product
No ratings yet
ONGC Spce Tube Product
2 pages
Fresh Water Generator Guide
No ratings yet
Fresh Water Generator Guide
6 pages