0% found this document useful (0 votes)

23 views6 pages

2 (C) - Jaccard and Cosine Method

The document explains the Jaccard and Cosine methods for measuring similarity between sets and vectors, respectively. Jaccard Similarity is calculated based on common and unique items, while Cosine Similarity considers the frequency of items. Applications for both methods include document comparison, recommendation systems, and data analysis in various fields.

Uploaded by

sushilkpal9457

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as DOCX, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

23 views6 pages

2 (C) - Jaccard and Cosine Method

Uploaded by

sushilkpal9457

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as DOCX, PDF, TXT or read online on Scribd

You are on page 1/ 6

Jaccard Method 🧩

Imagine you and your friend each have a basket of fruits:

 Your basket: Apple, Banana, Grape

 Friend’s basket: Apple, Orange, Grape

The Jaccard method helps answer this question: "How similar are these two baskets?"

Here’s how it works:

1. Find what’s common in both baskets: Apple, Grape

2. List all unique fruits from both baskets (without repeating): Apple, Banana, Grape, Orange

3. Formula:
Jaccard Similarity = (Number of common fruits) ÷ (Total unique fruits)

For these baskets:

Jaccard Similarity = 2 ÷ 4 = 0.5

So, the similarity is 50%. The bigger the fraction, the more similar the baskets!

Cosine Method 📐

Now, imagine you and your friend make lists of how many of each fruit you have in your baskets:

 Your list:
Apple = 1, Banana = 1, Grape = 1, Orange = 0

 Friend’s list:
Apple = 1, Banana = 0, Grape = 1, Orange = 1

The Cosine method helps measure how similar these lists are, like comparing their "angles."

Here’s how it works:

1. Multiply the matching fruit counts from both lists:

(Apple × Apple) + (Banana × Banana) + (Grape × Grape) + (Orange × Orange)
=1×1+1×0+1×1+0×1=2

2. Calculate the "strength" of each list:

o Your strength = √(1² + 1² + 1² + 0²) = √3

o Friend’s strength = √(1² + 0² + 1² + 1²) = √3

3. Formula:
Cosine Similarity = (Matching fruit counts) ÷ (Your strength × Friend’s strength)

For these lists:

Cosine Similarity = 2 ÷ (√3 × √3) = 2 ÷ 3 ≈ 0.67

So, the similarity is 67%.

Key Difference:

 Jaccard looks at shared fruits as a percentage of all unique fruits.

 Cosine compares the amount of matching fruits and their "strengths."

That’s it—now you can compare fruit baskets in two different ways!

Question: Comparing Documents Using Jaccard and Cosine Similarity

You are given two documents represented as sets of words (for Jaccard similarity) and word
frequencies (for Cosine similarity):

 Document 1 (D1):
Words: {information, retrieval, system, data, search}
Word Frequencies: {information: 2, retrieval: 1, system: 1, data: 1, search: 1}

 Document 2 (D2):
Words: {information, retrieval, search, engine, web}
Word Frequencies: {information: 1, retrieval: 1, search: 2, engine: 1, web: 1}

Tasks:

1. Jaccard Similarity:
Compute the Jaccard similarity between the two documents based on their word sets.

2. Cosine Similarity:
Compute the Cosine similarity between the two documents based on their word
frequencies.

Hints:

1. For Jaccard similarity:

o Formula:
Jaccard Similarity = (Number of common words) ÷ (Total unique words)

2. For Cosine similarity:

o Formula:
Cosine Similarity = (Sum of product of matching word frequencies) ÷ (√(Sum of
squares of D1 frequencies) × √(Sum of squares of D2 frequencies))
Example: Calculating Jaccard and Cosine Similarity

Consider two documents represented as sets of words and word frequencies:

 Document 1 (D1):
Words: {apple, banana, grape, orange}
Word Frequencies: {apple: 2, banana: 1, grape: 1, orange: 1}

 Document 2 (D2):
Words: {apple, banana, orange, mango}
Word Frequencies: {apple: 1, banana: 2, orange: 1, mango: 1}

Step 1: Jaccard Similarity

1. Find common words:

Common words between D1 and D2 are: {apple, banana, orange}

2. Find total unique words:

Total unique words in both sets are: {apple, banana, grape, orange, mango}

3. Jaccard Formula:
Jaccard Similarity = (Number of common words) ÷ (Total unique words)

Solution:
Common words = 3
Total unique words = 5
Jaccard Similarity = 3 ÷ 5 = 0.6 (or 60%)

Step 2: Cosine Similarity

1. Word frequency vectors:

Represent the documents as vectors:

o D1 = [2, 1, 1, 1, 0] (apple, banana, grape, orange, mango)

o D2 = [1, 2, 0, 1, 1] (apple, banana, grape, orange, mango)

2. Dot product of vectors:

Multiply matching word frequencies and sum them up:
(2 × 1) + (1 × 2) + (1 × 0) + (1 × 1) + (0 × 1) = 2 + 2 + 0 + 1 + 0 = 5

3. Magnitude of each vector:

o Magnitude of D1 = √(2² + 1² + 1² + 1² + 0²) = √(4 + 1 + 1 + 1) = √7

o Magnitude of D2 = √(1² + 2² + 0² + 1² + 1²) = √(1 + 4 + 0 + 1 + 1) = √7

4. Cosine Formula:
Cosine Similarity = (Dot product of vectors) ÷ (Magnitude of D1 × Magnitude of D2)
Solution:
Cosine Similarity = 5 ÷ (√7 × √7) = 5 ÷ 7 ≈ 0.714 (or 71.4%)

Final Answer:

 Jaccard Similarity = 0.6 (60%)

 Cosine Similarity = 0.714 (71.4%)

This shows that while both measures find the documents somewhat similar, Cosine similarity
considers the frequency of words, making it slightly higher in this case.

==================================================================================

Applications of Jaccard Similarity

Jaccard Similarity is most useful when comparing sets of items (presence or absence of elements).

1. Document Comparison:

o Measuring similarity between documents based on common words (ignoring

frequencies).

o Example: Finding similar research papers based on keywords.

2. Recommendation Systems:

o Comparing users' preferences or behaviors in terms of shared interests (e.g., movies,

products).

o Example: Recommending products by comparing shopping carts.

3. Plagiarism Detection:

o Identifying copied content by comparing the overlap of unique words or phrases.

4. Clustering and Classification:

o Grouping similar datasets or categorizing based on shared attributes.

o Example: Grouping customers by shared interests.

5. Biological Data Analysis:

o Comparing DNA, protein sequences, or gene sets based on common genetic

patterns.

6. Search Engine Optimization:

o Finding overlap between web pages in terms of keywords or topics.

Applications of Cosine Similarity

Cosine Similarity is ideal for comparing numerical vectors or high-dimensional data.

1. Information Retrieval:

o Measuring similarity between queries and documents in search engines.

o Example: Ranking documents based on the similarity to a search query.

2. Text Mining and NLP (Natural Language Processing):

o Comparing sentences, paragraphs, or documents using word frequency or

embeddings.

o Example: Detecting sentiment or paraphrase similarity.

3. Recommendation Systems:

o Suggesting items based on users' preferences (ratings or interaction counts).

o Example: Suggesting movies based on user ratings.

4. Image and Video Similarity:

o Comparing visual features in image recognition systems.

o Example: Matching faces or detecting duplicate images.

5. Machine Learning and Data Clustering:

o Measuring similarity between data points in clustering or classification algorithms.

o Example: Grouping similar customers or detecting anomalies.

6. Fraud Detection:

o Comparing transactional patterns to identify unusual behavior.

o Example: Identifying fraudulent credit card activity by comparing vectors of

transaction history.

7. Social Network Analysis:

o Comparing users’ behavior or connections.

o Example: Finding similar users based on their interaction frequency.

8. Recommender Systems with Sparse Data:

o Working with sparse datasets like user-item interactions.

o Example: Collaborative filtering in e-commerce platforms.

Summary:

 Jaccard Similarity is more suitable for set-based comparisons (presence/absence).

 Cosine Similarity works best for numerical or frequency-based comparisons in high-
dimensional data.

===============================================================================

Jaccard Matching Score

Disabled Toilet Alarm Setup Guide
100% (1)
Disabled Toilet Alarm Setup Guide
3 pages
Which Device (A-H) Would You Use For The Tasks (1-8) ? ( ../8)
100% (3)
Which Device (A-H) Would You Use For The Tasks (1-8) ? ( ../8)
3 pages
Digital Oil Field (DOF)
No ratings yet
Digital Oil Field (DOF)
2 pages
Properties of Levenshtein, N-Gram, Cosine and Jaccard Distance Coefficients - in Sentence Matching
No ratings yet
Properties of Levenshtein, N-Gram, Cosine and Jaccard Distance Coefficients - in Sentence Matching
1 page
Cosine Similarity for Text Analysis
No ratings yet
Cosine Similarity for Text Analysis
1 page
SWT 3000 Teleprotection Technical Data
No ratings yet
SWT 3000 Teleprotection Technical Data
8 pages
What Is Cosine Similarity and Why Is It Advantageous?
No ratings yet
What Is Cosine Similarity and Why Is It Advantageous?
2 pages
Quiz 3 Solution (No 1-4)
No ratings yet
Quiz 3 Solution (No 1-4)
3 pages
Documents Similarity
No ratings yet
Documents Similarity
6 pages
DM-Excercise 1A
No ratings yet
DM-Excercise 1A
2 pages
Similarity Measures
No ratings yet
Similarity Measures
11 pages
Data Mining: Similarity and Distance
No ratings yet
Data Mining: Similarity and Distance
13 pages
ISO (International Organization Standardization)
100% (1)
ISO (International Organization Standardization)
18 pages
Data Mining: Similarity and Distance
No ratings yet
Data Mining: Similarity and Distance
13 pages
An Information-Theoretic Definition of Similarity: Dekang Lin
No ratings yet
An Information-Theoretic Definition of Similarity: Dekang Lin
9 pages
Amazon Recommendation Systems
No ratings yet
Amazon Recommendation Systems
16 pages
Similarity and Dissimilarity
No ratings yet
Similarity and Dissimilarity
34 pages
Data Mining: Similarity and Distance Recommendation Systems Sketching, Locality Sensitive Hashing
No ratings yet
Data Mining: Similarity and Distance Recommendation Systems Sketching, Locality Sensitive Hashing
57 pages
Data Similarity and Dissimilarity Guide
No ratings yet
Data Similarity and Dissimilarity Guide
20 pages
How To Crack GATE - IES - BARC - Electronic Devices and Circuits (EDC)
No ratings yet
How To Crack GATE - IES - BARC - Electronic Devices and Circuits (EDC)
4 pages
Question Bank (Problems)
No ratings yet
Question Bank (Problems)
6 pages
45 Excel Formulas
No ratings yet
45 Excel Formulas
138 pages
Cranes&Hoists For Mining Industry
No ratings yet
Cranes&Hoists For Mining Industry
2 pages
Similarity Analysis
No ratings yet
Similarity Analysis
85 pages
Eperf Promo
No ratings yet
Eperf Promo
8 pages
Similarity Metrics Guide
No ratings yet
Similarity Metrics Guide
13 pages
Similarity and Distance Metrics
No ratings yet
Similarity and Distance Metrics
20 pages
CSC Examination Result
No ratings yet
CSC Examination Result
2 pages
Cosine Similarity in Data Mining
No ratings yet
Cosine Similarity in Data Mining
4 pages
Source: Books by Tan, Steinbach, Kumar Han, Kamber & Pei Evans Dinesh Kumar + Experiential Knowledge
No ratings yet
Source: Books by Tan, Steinbach, Kumar Han, Kamber & Pei Evans Dinesh Kumar + Experiential Knowledge
26 pages
Lec 5
No ratings yet
Lec 5
22 pages
Barangay Baracbac SK Annual Budget Fy 2019: Republic of The Philippines Province of Ilocos Sur Municipality of Galimuyod
No ratings yet
Barangay Baracbac SK Annual Budget Fy 2019: Republic of The Philippines Province of Ilocos Sur Municipality of Galimuyod
7 pages
Cosine Similarity
No ratings yet
Cosine Similarity
5 pages
How Does The Positioning of Information Technology Firms in Strat
No ratings yet
How Does The Positioning of Information Technology Firms in Strat
35 pages
mANT30 PDF
No ratings yet
mANT30 PDF
1 page
Anaconda Training PDF
100% (1)
Anaconda Training PDF
2 pages
Examination Calendar All Ug Course
No ratings yet
Examination Calendar All Ug Course
4 pages
Assignment No 1 (Data Science) - Ashber
No ratings yet
Assignment No 1 (Data Science) - Ashber
9 pages
Brain Controlled Car For Disabled
No ratings yet
Brain Controlled Car For Disabled
19 pages
Data Mining for Grad Students
No ratings yet
Data Mining for Grad Students
79 pages
Journal of The American Society For Information Science and Technology - 2009 - Eck - How To Normalize Cooccurrence Data
No ratings yet
Journal of The American Society For Information Science and Technology - 2009 - Eck - How To Normalize Cooccurrence Data
17 pages
Data Mining for Analysts
No ratings yet
Data Mining for Analysts
43 pages
Similarity
No ratings yet
Similarity
20 pages
Unit III
No ratings yet
Unit III
85 pages
CEMS Exam Guidelines 2023
No ratings yet
CEMS Exam Guidelines 2023
1 page
Lab 2
No ratings yet
Lab 2
21 pages
Class-Data Preprocessing-IV
No ratings yet
Class-Data Preprocessing-IV
28 pages
Confirmatory Composite Analysis Guide
No ratings yet
Confirmatory Composite Analysis Guide
10 pages
03 Schubert
No ratings yet
03 Schubert
13 pages
3 Unit PR NonParametric Decision Making
No ratings yet
3 Unit PR NonParametric Decision Making
78 pages
Exam Form for B.Tech Students
No ratings yet
Exam Form for B.Tech Students
2 pages
ATV600 Communication Parameters EAV64332 V3.6
No ratings yet
ATV600 Communication Parameters EAV64332 V3.6
324 pages
Lec-3. Datamining-Similarity-Distance-Ext
No ratings yet
Lec-3. Datamining-Similarity-Distance-Ext
104 pages
Reference Material For NLP - 1
No ratings yet
Reference Material For NLP - 1
40 pages
vm51616H - Video - Matrix - Switch - Ds - en
No ratings yet
vm51616H - Video - Matrix - Switch - Ds - en
3 pages
Living Now - Catalogue - 2MOD AD-EXLNW2M22C - GB
No ratings yet
Living Now - Catalogue - 2MOD AD-EXLNW2M22C - GB
132 pages
CS2209 Similarity Distances
No ratings yet
CS2209 Similarity Distances
23 pages
Lecture - 7 MSDS
No ratings yet
Lecture - 7 MSDS
32 pages
Clustering
No ratings yet
Clustering
15 pages
CS822 DataMining Week4
No ratings yet
CS822 DataMining Week4
45 pages
CSE 1 PPT MiniTest 12feb24 Similarity
No ratings yet
CSE 1 PPT MiniTest 12feb24 Similarity
11 pages
TE IT DMBI Module2 Data Preprocessing L8-L11
No ratings yet
TE IT DMBI Module2 Data Preprocessing L8-L11
73 pages
Cosine Similarity
No ratings yet
Cosine Similarity
3 pages
Tkde 2014 26 7
No ratings yet
Tkde 2014 26 7
17 pages
Module-3Conti.. Similarity& Dissimlarity
No ratings yet
Module-3Conti.. Similarity& Dissimlarity
29 pages
Data Mining and Predictive Modeling: Lecture 13: Measuring Data Similarity
No ratings yet
Data Mining and Predictive Modeling: Lecture 13: Measuring Data Similarity
19 pages
Lecture 3
No ratings yet
Lecture 3
58 pages
CS 3308 Learning Journal Unit 4
No ratings yet
CS 3308 Learning Journal Unit 4
5 pages
Unit 3
No ratings yet
Unit 3
13 pages
Similarity Measures Le 512
No ratings yet
Similarity Measures Le 512
14 pages
Caliptra Security Insights
No ratings yet
Caliptra Security Insights
71 pages
Text Similarity Metrics
No ratings yet
Text Similarity Metrics
10 pages
Resume Limpia Banerjee
No ratings yet
Resume Limpia Banerjee
3 pages
Data Similarity & Dissimilarity Guide
No ratings yet
Data Similarity & Dissimilarity Guide
27 pages
MCQ Ec-405
No ratings yet
MCQ Ec-405
2 pages
Module-7 Similarity Measure
No ratings yet
Module-7 Similarity Measure
39 pages
Fairino Brochure Ev4.3-20241217
100% (1)
Fairino Brochure Ev4.3-20241217
12 pages
Cosine Similarity - GeeksforGeeks
No ratings yet
Cosine Similarity - GeeksforGeeks
6 pages
EV Charger Specification
No ratings yet
EV Charger Specification
9 pages
Cosign Similarity
No ratings yet
Cosign Similarity
4 pages
en Safety Manual VEGASWING 61 63 Two Wire (8 16 MA) With SIL
No ratings yet
en Safety Manual VEGASWING 61 63 Two Wire (8 16 MA) With SIL
20 pages
Introduction To Computing Using Python An Application Development Focus 2nd Edition Perkovic Test Bank PDF Download
No ratings yet
Introduction To Computing Using Python An Application Development Focus 2nd Edition Perkovic Test Bank PDF Download
401 pages
CSC 452 DM Lecture02 Know Your Data B 13102020 014200pm
No ratings yet
CSC 452 DM Lecture02 Know Your Data B 13102020 014200pm
26 pages
Similarity and Disimilarity Measures
No ratings yet
Similarity and Disimilarity Measures
2 pages
Unit-1 (Part-1) Similarity and Dissimilarity Measures
No ratings yet
Unit-1 (Part-1) Similarity and Dissimilarity Measures
24 pages

2 (C) - Jaccard and Cosine Method

Uploaded by

2 (C) - Jaccard and Cosine Method

Uploaded by

Jaccard Method 🧩

Imagine you and your friend each have a basket of fruits:

 Your basket: Apple, Banana, Grape

 Friend’s basket: Apple, Orange, Grape

Here’s how it works:

1. Find what’s common in both baskets: Apple, Grape

For these baskets:

Here’s how it works:

1. Multiply the matching fruit counts from both lists:

2. Calculate the "strength" of each list:

o Your strength = √(1² + 1² + 1² + 0²) = √3

o Friend’s strength = √(1² + 0² + 1² + 1²) = √3

For these lists:

So, the similarity is 67%.

 Jaccard looks at shared fruits as a percentage of all unique fruits.

 Cosine compares the amount of matching fruits and their "strengths."

Question: Comparing Documents Using Jaccard and Cosine Similarity

1. For Jaccard similarity:

2. For Cosine similarity:

Consider two documents represented as sets of words and word frequencies:

Step 1: Jaccard Similarity

1. Find common words:

2. Find total unique words:

Step 2: Cosine Similarity

1. Word frequency vectors:

o D1 = [2, 1, 1, 1, 0] (apple, banana, grape, orange, mango)

o D2 = [1, 2, 0, 1, 1] (apple, banana, grape, orange, mango)

2. Dot product of vectors:

3. Magnitude of each vector:

o Magnitude of D1 = √(2² + 1² + 1² + 1² + 0²) = √(4 + 1 + 1 + 1) = √7

o Magnitude of D2 = √(1² + 2² + 0² + 1² + 1²) = √(1 + 4 + 0 + 1 + 1) = √7

 Jaccard Similarity = 0.6 (60%)

 Cosine Similarity = 0.714 (71.4%)

Applications of Jaccard Similarity

o Measuring similarity between documents based on common words (ignoring

o Example: Finding similar research papers based on keywords.

o Comparing users' preferences or behaviors in terms of shared interests (e.g., movies,

o Example: Recommending products by comparing shopping carts.

o Identifying copied content by comparing the overlap of unique words or phrases.

4. Clustering and Classification:

o Grouping similar datasets or categorizing based on shared attributes.

o Example: Grouping customers by shared interests.

5. Biological Data Analysis:

o Comparing DNA, protein sequences, or gene sets based on common genetic

6. Search Engine Optimization:

o Finding overlap between web pages in terms of keywords or topics.

Cosine Similarity is ideal for comparing numerical vectors or high-dimensional data.

o Measuring similarity between queries and documents in search engines.

o Example: Ranking documents based on the similarity to a search query.

2. Text Mining and NLP (Natural Language Processing):

o Comparing sentences, paragraphs, or documents using word frequency or

o Example: Detecting sentiment or paraphrase similarity.

o Suggesting items based on users' preferences (ratings or interaction counts).

o Example: Suggesting movies based on user ratings.

4. Image and Video Similarity:

o Comparing visual features in image recognition systems.

o Example: Matching faces or detecting duplicate images.

5. Machine Learning and Data Clustering:

o Measuring similarity between data points in clustering or classification algorithms.

o Example: Grouping similar customers or detecting anomalies.

o Comparing transactional patterns to identify unusual behavior.

o Example: Identifying fraudulent credit card activity by comparing vectors of

7. Social Network Analysis:

o Comparing users’ behavior or connections.

o Example: Finding similar users based on their interaction frequency.

8. Recommender Systems with Sparse Data:

o Working with sparse datasets like user-item interactions.

o Example: Collaborative filtering in e-commerce platforms.

 Jaccard Similarity is more suitable for set-based comparisons (presence/absence).

Jaccard Matching Score

You might also like