0% found this document useful (0 votes)

104 views43 pages

Non-Negative Matrix Factorization (NMF) : Benjamin Wilson

Non-negative matrix factorization (NMF) is an unsupervised learning technique for dimension reduction that models data as combinations of interpretable parts. NMF expresses documents as combinations of topics and images as combinations of patterns. It works by fitting a model to non-negative sample features and extracting non-negative components and features. The features can then be used to reconstruct the original samples.

Uploaded by

prjet1 fsm1

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

104 views43 pages

Non-Negative Matrix Factorization (NMF) : Benjamin Wilson

Uploaded by

prjet1 fsm1

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 43

Non-negative matrix

factorization (NMF)
UNSUPERVISED LEARNING IN PYTHON

Benjamin Wilson
Director of Research at lateral.io
Non-negative matrix factorization
NMF = "non-negative matrix factorization"

Dimension reduction technique

NMF models are interpretable (unlike PCA)

Easy to interpret means easy to explain!

However, all sample features must be non-negative (>= 0)

UNSUPERVISED LEARNING IN PYTHON

Interpretable parts
NMF expresses documents as combinations of topics (or
"themes")

UNSUPERVISED LEARNING IN PYTHON

Interpretable parts
NMF expresses images as combinations of pa erns

UNSUPERVISED LEARNING IN PYTHON

Using scikit-learn NMF
Follows fit() / transform() pa ern

Must specify number of components e.g.

NMF(n_components=2)

Works with NumPy arrays and with csr_matrix

UNSUPERVISED LEARNING IN PYTHON

Example word-frequency array
Word frequency array, 4 words, many documents

Measure presence of words in each document using "tf-idf"

"tf" = frequency of word in document

"idf" reduces in uence of frequent words

UNSUPERVISED LEARNING IN PYTHON

Example usage of NMF
samples is the word-frequency array

from sklearn.decomposition import NMF

model = NMF(n_components=2)
model.fit(samples)

NMF(alpha=0.0, ... )

nmf_features = model.transform(samples)

UNSUPERVISED LEARNING IN PYTHON

NMF components
NMF has components

... just like PCA has principal components

Dimension of components = dimension of samples

Entries are non-negative

print(model.components_)

[[ 0.01 0. 2.13 0.54]

[ 0.99 1.47 0. 0.5 ]]

UNSUPERVISED LEARNING IN PYTHON

NMF features
NMF feature values are non-negative

Can be used to reconstruct the samples

... combine feature values with components

print(nmf_features)

[[ 0. 0.2 ]
[ 0.19 0. ]
...
[ 0.15 0.12]]

UNSUPERVISED LEARNING IN PYTHON

Reconstruction of a sample
print(samples[i,:])

[ 0.12 0.18 0.32 0.14]

print(nmf_features[i,:])

[ 0.15 0.12]

UNSUPERVISED LEARNING IN PYTHON

Sample reconstruction
Multiply components by feature values, and add up

Can also be expressed as a product of matrices

This is the "Matrix Factorization" in "NMF"

UNSUPERVISED LEARNING IN PYTHON

NMF fits to non-negative data only
Word frequencies in each document

Images encoded as arrays

Audio spectrograms

Purchase histories on e-commerce sites

... and many more!

UNSUPERVISED LEARNING IN PYTHON

Let's practice!
UNSUPERVISED LEARNING IN PYTHON
NMF learns
interpretable parts
UNSUPERVISED LEARNING IN PYTHON

Benjamin Wilson
Director of Research at lateral.io
Example: NMF learns interpretable parts
Word-frequency array articles (tf-idf)

20,000 scienti c articles (rows)

800 words (columns)

UNSUPERVISED LEARNING IN PYTHON

Applying NMF to the articles
print(articles.shape)

(20000, 800)

from sklearn.decomposition import NMF

nmf = NMF(n_components=10)
nmf.fit(articles)

NMF(alpha=0.0, ... )

print(nmf.components_.shape)

(10, 800)

UNSUPERVISED LEARNING IN PYTHON

NMF components are topics

UNSUPERVISED LEARNING IN PYTHON

NMF components are topics

UNSUPERVISED LEARNING IN PYTHON

NMF components are topics

UNSUPERVISED LEARNING IN PYTHON

NMF components are topics

UNSUPERVISED LEARNING IN PYTHON

NMF components
For documents:
NMF components represent topics

NMF features combine topics into documents

For images, NMF components are parts of images

UNSUPERVISED LEARNING IN PYTHON

Grayscale images
"Grayscale" image = no colors, only shades of gray

Measure pixel brightness

Represent with value between 0 and 1 (0 is black)

Convert to 2D array

UNSUPERVISED LEARNING IN PYTHON

Grayscale image example
An 8x8 grayscale image of the moon, wri en as an array

UNSUPERVISED LEARNING IN PYTHON

Grayscale images as flat arrays
Enumerate the entries

Row-by-row

From le to right, top to bo om

UNSUPERVISED LEARNING IN PYTHON

Grayscale images as flat arrays
Enumerate the entries

Row-by-row

From le to right, top to bo om

UNSUPERVISED LEARNING IN PYTHON

Encoding a collection of images
Collection of images of the same size

Encode as 2D array

Each row corresponds to an image

Each column corresponds to a pixel

... can apply NMF!

UNSUPERVISED LEARNING IN PYTHON

Visualizing samples
print(sample)

[ 0. 1. 0.5 1. 0. 1. ]

bitmap = sample.reshape((2, 3))

print(bitmap)

[[ 0. 1. 0.5]
[ 1. 0. 1. ]]

from matplotlib import pyplot as plt

plt.imshow(bitmap, cmap='gray', interpolation='nearest')
plt.show()

UNSUPERVISED LEARNING IN PYTHON

Let's practice!
UNSUPERVISED LEARNING IN PYTHON
Building
recommender
systems using NMF
UNSUPERVISED LEARNING IN PYTHON

Benjamin Wilson
Director of Research at lateral.io
Finding similar articles
Engineer at a large online newspaper

Task: recommend articles similar to article being read by

customer

UNSUPERVISED LEARNING IN PYTHON

Strategy
Apply NMF to the word-frequency array

NMF feature values describe the topics

... so similar documents have similar NMF feature values

Compare NMF feature values?

UNSUPERVISED LEARNING IN PYTHON

Apply NMF to the word-frequency array
articles is a word frequency array

from sklearn.decomposition import NMF

nmf = NMF(n_components=6)
nmf_features = nmf.fit_transform(articles)

UNSUPERVISED LEARNING IN PYTHON

Strategy
Apply NMF to the word-frequency array

NMF feature values describe the topics

... so similar documents have similar NMF feature values

Compare NMF feature values?

UNSUPERVISED LEARNING IN PYTHON

Versions of articles
Di erent versions of the same document have same topic
proportions

... exact feature values may be di erent!

UNSUPERVISED LEARNING IN PYTHON

Versions of articles
Di erent versions of the same document have same topic
proportions

... exact feature values may be di erent!

E.g. because one version uses many meaningless words

UNSUPERVISED LEARNING IN PYTHON

Versions of articles
Di erent versions of the same document have same topic
proportions

... exact feature values may be di erent!

E.g. because one version uses many meaningless words

But all versions lie on the same line through the origin

UNSUPERVISED LEARNING IN PYTHON

Cosine similarity
Uses the angle between the lines

Higher values means more similar

Maximum value is 1, when angle is 0 degrees

UNSUPERVISED LEARNING IN PYTHON

Calculating the cosine similarities
from sklearn.preprocessing import normalize
norm_features = normalize(nmf_features)
# if has index 23
current_article = norm_features[23,:]
similarities = norm_features.dot(current_article)
print(similarities)

[ 0.7150569 0.26349967 ..., 0.20323616 0.05047817]

UNSUPERVISED LEARNING IN PYTHON

DataFrames and labels
Label similarities with the article titles, using a DataFrame

Titles given as a list: titles

import pandas as pd
norm_features = normalize(nmf_features)
df = pd.DataFrame(norm_features, index=titles)
current_article = df.loc['Dog bites man']
similarities = df.dot(current_article)

UNSUPERVISED LEARNING IN PYTHON

DataFrames and labels
print(similarities.nlargest())

Dog bites man 1.000000

Hound mauls cat 0.979946
Pets go wild! 0.979708
Dachshunds are dangerous 0.949641
Our streets are no longer safe 0.900474
dtype: float64

UNSUPERVISED LEARNING IN PYTHON

Let's practice!
UNSUPERVISED LEARNING IN PYTHON
Final thoughts
UNSUPERVISED LEARNING IN PYTHON

Benjamin Wilson
Director of Research at lateral.io
Congratulations!
UNSUPERVISED LEARNING IN PYTHON

Chapter 4
No ratings yet
Chapter 4
43 pages
Monaco TPS Strategies Monaco Tips and Tricks
100% (2)
Monaco TPS Strategies Monaco Tips and Tricks
86 pages
Preparation of Specimens FR Immunohistochemistry - PPT (2) - 1
No ratings yet
Preparation of Specimens FR Immunohistochemistry - PPT (2) - 1
33 pages
Non-Negative Matrix Factorization (NMF) : Benjamin Wilson
No ratings yet
Non-Negative Matrix Factorization (NMF) : Benjamin Wilson
43 pages
Feature Extraction Techniques in NLP
No ratings yet
Feature Extraction Techniques in NLP
10 pages
Numpy in Visually Appealing Manner
No ratings yet
Numpy in Visually Appealing Manner
12 pages
Ch4 Word Embeddings
No ratings yet
Ch4 Word Embeddings
21 pages
Srujitha 1
No ratings yet
Srujitha 1
91 pages
Ieee TNN 10
No ratings yet
Ieee TNN 10
13 pages
Mathematics For Electrical Science and Physical Science, M-1, S2
No ratings yet
Mathematics For Electrical Science and Physical Science, M-1, S2
4 pages
Plunger Lift Brochure
No ratings yet
Plunger Lift Brochure
4 pages
Text Vectorization
No ratings yet
Text Vectorization
18 pages
l13 Machine Learning
No ratings yet
l13 Machine Learning
37 pages
مقاله4 2019
No ratings yet
مقاله4 2019
14 pages
Quality Matters: Pollution Exacerbates Water Scarcity and Sectoral Output Risks in China
No ratings yet
Quality Matters: Pollution Exacerbates Water Scarcity and Sectoral Output Risks in China
10 pages
Chapter 8 Text Analytics
No ratings yet
Chapter 8 Text Analytics
42 pages
Clustering of Bio Medical Scientific Papers
No ratings yet
Clustering of Bio Medical Scientific Papers
5 pages
5.2 Feature Engineering
No ratings yet
5.2 Feature Engineering
57 pages
Lec 16
No ratings yet
Lec 16
23 pages
Filter Unsupervised Spectral Feature Selection Method For Mixed Data Based On A New Feature Correlation Measure
No ratings yet
Filter Unsupervised Spectral Feature Selection Method For Mixed Data Based On A New Feature Correlation Measure
19 pages
# Mix Data Into A 100-Dimensional State: Print
No ratings yet
# Mix Data Into A 100-Dimensional State: Print
25 pages
Numpy Slides
No ratings yet
Numpy Slides
47 pages
16 - Practical - 6-7.ipynb - Colab
No ratings yet
16 - Practical - 6-7.ipynb - Colab
3 pages
Nimbus VTOL Manual 180306
100% (1)
Nimbus VTOL Manual 180306
11 pages
Prosman2 - Fluidity of Molten Metal
No ratings yet
Prosman2 - Fluidity of Molten Metal
22 pages
Module III
No ratings yet
Module III
42 pages
Algorithem Cheat Sheet
No ratings yet
Algorithem Cheat Sheet
25 pages
Ai - W6L12
No ratings yet
Ai - W6L12
44 pages
AML Unit-4 (Part-2)
No ratings yet
AML Unit-4 (Part-2)
6 pages
9 Feature Engineering Text Data
No ratings yet
9 Feature Engineering Text Data
7 pages
2EL1730 ML Lecture11 NMF - Annotated
No ratings yet
2EL1730 ML Lecture11 NMF - Annotated
41 pages
Semantic Processing for Data Scientists
No ratings yet
Semantic Processing for Data Scientists
10 pages
TextFeatureEnginerring-NLP Lec2
No ratings yet
TextFeatureEnginerring-NLP Lec2
60 pages
Image Classification
No ratings yet
Image Classification
18 pages
7-8 Feature Engineering 101-Normalization
No ratings yet
7-8 Feature Engineering 101-Normalization
8 pages
Preprocessing ch.4
No ratings yet
Preprocessing ch.4
20 pages
Assign 3
No ratings yet
Assign 3
1 page
Allnlp
No ratings yet
Allnlp
15 pages
Supervised Learning
No ratings yet
Supervised Learning
5 pages
Topic Modelling Using Non-Negative Matrix Factorization: Anjusha C MA18M008
No ratings yet
Topic Modelling Using Non-Negative Matrix Factorization: Anjusha C MA18M008
21 pages
Winter Semester 2023-24 CSE3015 ETH AP2023246000714 Quiz-I-Question-Paper
No ratings yet
Winter Semester 2023-24 CSE3015 ETH AP2023246000714 Quiz-I-Question-Paper
74 pages
Grade 7/8 Carpentry Measurements
No ratings yet
Grade 7/8 Carpentry Measurements
14 pages
Electromagnetism Research Paper
No ratings yet
Electromagnetism Research Paper
3 pages
Vector Semantics 3
No ratings yet
Vector Semantics 3
5 pages
Adhikary e Murty - 2012 - Feature Selection For Unsupervised Learning
No ratings yet
Adhikary e Murty - 2012 - Feature Selection For Unsupervised Learning
8 pages
Extra Feature NLP
No ratings yet
Extra Feature NLP
5 pages
Hungarian Mathematical Olympiad 1998/99: Final Round
No ratings yet
Hungarian Mathematical Olympiad 1998/99: Final Round
1 page
Assignment 3 Instructions
No ratings yet
Assignment 3 Instructions
10 pages
Dhanu SH
No ratings yet
Dhanu SH
296 pages
"Sentiment Analysis of Survey Comments: Animesh Tilak
No ratings yet
"Sentiment Analysis of Survey Comments: Animesh Tilak
12 pages
Unsupervised Embedding for Researchers
No ratings yet
Unsupervised Embedding for Researchers
10 pages
Kathrein 80010430 PDF
No ratings yet
Kathrein 80010430 PDF
1 page
NLP and ML Project
100% (1)
NLP and ML Project
37 pages
Text Classification MLND Project Report Prasann Pandya
No ratings yet
Text Classification MLND Project Report Prasann Pandya
17 pages
AXIOM A Hardware-Software Platform For
No ratings yet
AXIOM A Hardware-Software Platform For
8 pages
NLP Tools for Data Analysis
No ratings yet
NLP Tools for Data Analysis
3 pages
Figure 3-10: Mglearn Discrete - Scatter X - Train - Pca X - Train - Pca y - Train PLT Xlabel PLT Ylabel
No ratings yet
Figure 3-10: Mglearn Discrete - Scatter X - Train - Pca X - Train - Pca y - Train PLT Xlabel PLT Ylabel
2 pages
Jamaican Ska Music Evolution
No ratings yet
Jamaican Ska Music Evolution
4 pages
Unsupervised Embedding for Researchers
No ratings yet
Unsupervised Embedding for Researchers
11 pages
Chapter4 PDF
No ratings yet
Chapter4 PDF
20 pages
NEET Portion Status
No ratings yet
NEET Portion Status
2 pages
MLA TAB Lecture2
No ratings yet
MLA TAB Lecture2
84 pages
1 An Introduction To Machine Learning With Scikit Learn
No ratings yet
1 An Introduction To Machine Learning With Scikit Learn
2 pages
(Business Statistics) Chapter 3 Part 1
No ratings yet
(Business Statistics) Chapter 3 Part 1
30 pages
CS229: Naive Bayes & SVMs
No ratings yet
CS229: Naive Bayes & SVMs
8 pages
NNunsuperv Learning PDF
No ratings yet
NNunsuperv Learning PDF
21 pages
Edexcel IGCSE Chemistry 4CH0 Section B7
No ratings yet
Edexcel IGCSE Chemistry 4CH0 Section B7
2 pages
Non-Negative Matrix Factorization, A New Tool For Feature Extraction: Theory and Applications
No ratings yet
Non-Negative Matrix Factorization, A New Tool For Feature Extraction: Theory and Applications
8 pages
Fast String Matching in Python
No ratings yet
Fast String Matching in Python
5 pages
Data Analyst
No ratings yet
Data Analyst
5 pages
CS311 Final Term Question File 2019, 2020, 2021
No ratings yet
CS311 Final Term Question File 2019, 2020, 2021
5 pages
Non-Negative Matrix Factorization
No ratings yet
Non-Negative Matrix Factorization
21 pages
Jaa Principles of Flight Demo
No ratings yet
Jaa Principles of Flight Demo
7 pages
NMF for Audiovisual Analysis Experts
No ratings yet
NMF for Audiovisual Analysis Experts
189 pages
Physics of Fusion Power
No ratings yet
Physics of Fusion Power
22 pages
Aluminum in Galvanizing Graham Poag
No ratings yet
Aluminum in Galvanizing Graham Poag
16 pages
IPM Indore 2021 by Cracku
No ratings yet
IPM Indore 2021 by Cracku
16 pages
UART Interface Design & UVM Verification
No ratings yet
UART Interface Design & UVM Verification
4 pages
To Check Yourself
No ratings yet
To Check Yourself
12 pages
Common SQL Errors & Solutions Guide
No ratings yet
Common SQL Errors & Solutions Guide
13 pages
Recent Advances and Application of Machine Learning in Food Flavor Prediction and Regulation
No ratings yet
Recent Advances and Application of Machine Learning in Food Flavor Prediction and Regulation
14 pages
Sessional - 1 Blockchain (MCA)
No ratings yet
Sessional - 1 Blockchain (MCA)
9 pages
Python Text Classification Guide
No ratings yet
Python Text Classification Guide
34 pages
Three Canonical Learning Problems
No ratings yet
Three Canonical Learning Problems
13 pages
4in SB12MNRX2 25 4
No ratings yet
4in SB12MNRX2 25 4
1 page
Mysql Assignment 1
No ratings yet
Mysql Assignment 1
2 pages
Get Invoice
No ratings yet
Get Invoice
2 pages

Non-Negative Matrix Factorization (NMF) : Benjamin Wilson

Uploaded by

Non-Negative Matrix Factorization (NMF) : Benjamin Wilson

Uploaded by

Non-negative matrix

Dimension reduction technique

NMF models are interpretable (unlike PCA)

Easy to interpret means easy to explain!

However, all sample features must be non-negative (>= 0)

UNSUPERVISED LEARNING IN PYTHON

UNSUPERVISED LEARNING IN PYTHON

UNSUPERVISED LEARNING IN PYTHON

Must specify number of components e.g.

Works with NumPy arrays and with csr_matrix

UNSUPERVISED LEARNING IN PYTHON

Measure presence of words in each document using "tf-idf"

"idf" reduces in uence of frequent words

UNSUPERVISED LEARNING IN PYTHON

from sklearn.decomposition import NMF

UNSUPERVISED LEARNING IN PYTHON

... just like PCA has principal components

Dimension of components = dimension of samples

Entries are non-negative

[[ 0.01 0. 2.13 0.54]

UNSUPERVISED LEARNING IN PYTHON

Can be used to reconstruct the samples

... combine feature values with components

UNSUPERVISED LEARNING IN PYTHON

[ 0.12 0.18 0.32 0.14]

UNSUPERVISED LEARNING IN PYTHON

Can also be expressed as a product of matrices

This is the "Matrix Factorization" in "NMF"

UNSUPERVISED LEARNING IN PYTHON

Images encoded as arrays

Purchase histories on e-commerce sites

... and many more!

UNSUPERVISED LEARNING IN PYTHON

20,000 scienti c articles (rows)

800 words (columns)

UNSUPERVISED LEARNING IN PYTHON

from sklearn.decomposition import NMF

UNSUPERVISED LEARNING IN PYTHON

UNSUPERVISED LEARNING IN PYTHON

UNSUPERVISED LEARNING IN PYTHON

UNSUPERVISED LEARNING IN PYTHON

UNSUPERVISED LEARNING IN PYTHON

NMF features combine topics into documents

For images, NMF components are parts of images

UNSUPERVISED LEARNING IN PYTHON

Measure pixel brightness

Represent with value between 0 and 1 (0 is black)

UNSUPERVISED LEARNING IN PYTHON

UNSUPERVISED LEARNING IN PYTHON

From le to right, top to bo om

UNSUPERVISED LEARNING IN PYTHON

From le to right, top to bo om

UNSUPERVISED LEARNING IN PYTHON

Each row corresponds to an image

Each column corresponds to a pixel

... can apply NMF!

UNSUPERVISED LEARNING IN PYTHON

bitmap = sample.reshape((2, 3))

from matplotlib import pyplot as plt

UNSUPERVISED LEARNING IN PYTHON

Task: recommend articles similar to article being read by

Similar articles should have similar topics

UNSUPERVISED LEARNING IN PYTHON

NMF feature values describe the topics

... so similar documents have similar NMF feature values

Compare NMF feature values?

UNSUPERVISED LEARNING IN PYTHON

from sklearn.decomposition import NMF

UNSUPERVISED LEARNING IN PYTHON

NMF feature values describe the topics

... so similar documents have similar NMF feature values

Compare NMF feature values?

UNSUPERVISED LEARNING IN PYTHON

... exact feature values may be di erent!

UNSUPERVISED LEARNING IN PYTHON

... exact feature values may be di erent!