0% found this document useful (0 votes)

11 views3 pages

Cheat Sheet-Building Unsupervised Learning Models

The document provides a cheat sheet for building unsupervised learning models, detailing various algorithms such as UMAP, t-SNE, PCA, DBSCAN, HDBSCAN, and K-Means, along with their pros, cons, applications, and key hyperparameters. It also includes associated functions for generating data and visualizations. The authors of the document are Jeff Grossman and Abhishek Gagneja.

Uploaded by

tibocef309

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

11 views3 pages

Cheat Sheet-Building Unsupervised Learning Models

Uploaded by

tibocef309

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 3

5/23/25, 7:49 AM about:blank

Cheat Sheet: Building Unsupervised Learning Models

Unsupervised learning models

Model Name Brief Description Code Syntax

UMAP (Uniform Manifold Approximation and Projection) is used

for dimensionality reduction.
Pros: High performance, preserves global structure. from umap.umap_ import UMAP
Cons: Sensitive to parameters. umap = UMAP(n_neighbors=15, min_dist=0.1, n_components=2)
Applications: Data visualization, feature extraction.
Key hyperparameters:
UMAP
n_neighbors: Controls the local neighborhood size (default
= 15).
min_dist: Controls the minimum distance between points
in the embedded space (default = 0.1).
n_components: The dimensionality of the embedding
(default = 2).

t-SNE (t-Distributed Stochastic Neighbor Embedding) is a

nonlinear dimensionality reduction technique.
Pros: Good for visualizing high-dimensional data. from sklearn.manifold import TSNE
Cons: Computationally expensive, prone to overfitting. tsne = TSNE(n_components=2, perplexity=30, learning_rate=200)
Applications: Data visualization, anomaly detection.
Key hyperparameters:
t-SNE
n_components: The number of dimensions for the output
(default = 2).
perplexity: Balances attention between local and global
aspects of the data (default = 30).
learning_rate: Controls the step size during optimization
(default = 200).

PCA (principal component analysis) is used for linear

dimensionality reduction. from sklearn.decomposition import PCA
Pros: Easy to interpret, reduces noise. pca = PCA(n_components=2)
Cons: Linear, may lose information in nonlinear data.
Applications: Feature extraction, compression.
Key hyperparameters:
PCA
n_components: Number of principal components to retain
(default = 2).
whiten: Whether to scale the components (default = False).
svd_solver: The algorithm to compute the components
(default = 'auto').

DBSCAN (Density-Based Spatial Clustering of Applications with

Noise) is a density-based clustering algorithm. from sklearn.cluster import DBSCAN
Pros: Identifies outliers, does not require the number of clusters. dbscan = DBSCAN(eps=0.5, min_samples=5)
Cons: Difficult with varying density clusters.
Applications: Anomaly detection, spatial data clustering.
DBSCAN Key hyperparameters:

eps: The maximum distance between two points to be

considered neighbors (default = 0.5).
min_samples: Minimum number of samples in a
neighborhood to form a cluster (default = 5).

HDBSCAN (Hierarchical DBSCAN) improves on DBSCAN by

handling varying density clusters. import hdbscan
Pros: Better handling of varying densities. clusterer = hdbscan.HDBSCAN(min_cluster_size=5)
Cons: Can be slower than DBSCAN.
Applications: Large datasets, complex clustering problems.
HDBSCAN Key hyperparameters:

min_cluster_size: The minimum size of clusters (default =

5).
min_samples: Minimum number of samples to form a
cluster (default = 10).

K-Means K-Means is a centroid-based clustering algorithm that groups data from sklearn.cluster import KMeans
clustering into k clusters. kmeans = KMeans(n_clusters=3)
Pros: Efficient, simple to implement.
Cons: Sensitive to initial cluster centroids.

about:blank 1/3
5/23/25, 7:49 AM about:blank

Model Name Brief Description Code Syntax

Applications: Customer segmentation, pattern recognition.
Key hyperparameters:

n_clusters: Number of clusters (default = 8).

init: Method for initializing the centroids ('k-means++' or
'random', default = 'k-means++').
n_init: Number of times the algorithm will run with
different centroid seeds (default = 10).

Associated fuctions used

Method Brief Description Code Syntax

from sklearn.datasets import make_blobs

X, y = make_blobs(n_samples=100, centers=2, random_state=42)

Generates isotropic Gaussian blobs

make_blobs
for clustering.

from numpy.random import multivariate_normal

samples = multivariate_normal(mean=[0, 0], cov=[[1, 0], [0, 1]], size=100)

Generates samples from a

multivariate_normal
multivariate normal distribution.

import plotly.express as px
fig = px.scatter_3d(df, x='x', y='y', z='z')
fig.show()

Creates a 3D scatter plot using

plotly.express.scatter_3d
Plotly Express.

import geopandas as gpd

gdf = gpd.GeoDataFrame(df, geometry='geometry')

Creates a GeoDataFrame from a

geopandas.GeoDataFrame
Pandas DataFrame.

gdf = gdf.to_crs(epsg=3857)

Transforms the coordinate

geopandas.to_crs reference system of a
GeoDataFrame.

contextily.add_basemap Adds a basemap to a import contextily as ctx

GeoDataFrame plot for context. ax = gdf.plot(figsize=(10, 10))
ctx.add_basemap(ax)

about:blank 2/3
5/23/25, 7:49 AM about:blank

Method Brief Description Code Syntax

from sklearn.decomposition import PCA

pca = PCA(n_components=2)
pca.fit(X)
variance_ratio = pca.explained_variance_ratio_

Returns the proportion of variance

pca.explained_variance_ratio_ explained by each principal
component.

Author
Jeff Grossman
Abhishek Gagneja

about:blank 3/3

Gen Math Quiz Bee Questionnaire Grade11
90% (10)
Gen Math Quiz Bee Questionnaire Grade11
2 pages
OCS353 Data Science Manual Print
No ratings yet
OCS353 Data Science Manual Print
58 pages
R Reference Card For Data Mining
No ratings yet
R Reference Card For Data Mining
3 pages
Machine Learning Lab
No ratings yet
Machine Learning Lab
20 pages
Variance: Grouped Data & Ungrouped Data
No ratings yet
Variance: Grouped Data & Ungrouped Data
17 pages
De&v Lab Manual
No ratings yet
De&v Lab Manual
91 pages
Unit 3 Unsupervised Learning
No ratings yet
Unit 3 Unsupervised Learning
9 pages
Week 8 DS Practical
No ratings yet
Week 8 DS Practical
13 pages
Casos de ML Unsupervised Daniel Ames Camayo
No ratings yet
Casos de ML Unsupervised Daniel Ames Camayo
20 pages
Unit 2-2
No ratings yet
Unit 2-2
33 pages
Baidurya Debnath 4
No ratings yet
Baidurya Debnath 4
37 pages
CS-3361-Data-science-lab Manual
No ratings yet
CS-3361-Data-science-lab Manual
36 pages
Datascience
No ratings yet
Datascience
26 pages
Practical 5
No ratings yet
Practical 5
6 pages
Data Enggineering
No ratings yet
Data Enggineering
16 pages
PP&DS Unit Iii
No ratings yet
PP&DS Unit Iii
26 pages
Clustering
No ratings yet
Clustering
75 pages
Clustering in Python-Dr. Afsaneh Javadi
No ratings yet
Clustering in Python-Dr. Afsaneh Javadi
8 pages
AIML Short Term Internship Session 9 Summary-1719044709410
No ratings yet
AIML Short Term Internship Session 9 Summary-1719044709410
14 pages
Amlt Bca Unit-3
No ratings yet
Amlt Bca Unit-3
7 pages
DBSCAN - Introduction in Machine Learning.
No ratings yet
DBSCAN - Introduction in Machine Learning.
3 pages
1 An Introduction To Machine Learning With Scikit Learn
No ratings yet
1 An Introduction To Machine Learning With Scikit Learn
2 pages
Sklearn Kmeans Dbscan Guide
No ratings yet
Sklearn Kmeans Dbscan Guide
2 pages
Matplotlib & Seaborn Visualization Guide
No ratings yet
Matplotlib & Seaborn Visualization Guide
10 pages
Experiment 4 1
No ratings yet
Experiment 4 1
4 pages
Machine Learning Unit-4
No ratings yet
Machine Learning Unit-4
24 pages
Unit 5 Part Two
No ratings yet
Unit 5 Part Two
12 pages
Visualization With Seaborn - Python Data Science Handbook
No ratings yet
Visualization With Seaborn - Python Data Science Handbook
17 pages
CC Unit IV
No ratings yet
CC Unit IV
30 pages
10 - DBSCANClusteringOnIRIS-Copy1 - Jupyter Notebook
No ratings yet
10 - DBSCANClusteringOnIRIS-Copy1 - Jupyter Notebook
4 pages
ML Notes 1
No ratings yet
ML Notes 1
3 pages
ML Module 5
No ratings yet
ML Module 5
15 pages
DMV U4 RK
No ratings yet
DMV U4 RK
16 pages
Data Science Python Cheat Sheet
No ratings yet
Data Science Python Cheat Sheet
25 pages
TWP
No ratings yet
TWP
2 pages
AbidAdhikari26840 DWDM
No ratings yet
AbidAdhikari26840 DWDM
43 pages
ML Python Exercises UOM BDS Cluster Analysis
No ratings yet
ML Python Exercises UOM BDS Cluster Analysis
8 pages
Pre-Test Post-Test Analysis Results
No ratings yet
Pre-Test Post-Test Analysis Results
5 pages
Esam - DWM Lab 8
No ratings yet
Esam - DWM Lab 8
5 pages
Python Basics for Data Science
No ratings yet
Python Basics for Data Science
30 pages
DBSCAN Clustering
No ratings yet
DBSCAN Clustering
6 pages
Clustering
No ratings yet
Clustering
1 page
ML0101EN Clus DBSCN Weather Py v1
No ratings yet
ML0101EN Clus DBSCN Weather Py v1
16 pages
Apriori Algorithm & Clustering Guide
No ratings yet
Apriori Algorithm & Clustering Guide
8 pages
Lab 02 - Introduction To Pandas
No ratings yet
Lab 02 - Introduction To Pandas
6 pages
Section 7
No ratings yet
Section 7
33 pages
Unsuper
No ratings yet
Unsuper
15 pages
Drawback of Standard K-Means Algorithm
No ratings yet
Drawback of Standard K-Means Algorithm
5 pages
ML 2.3 Prashant
No ratings yet
ML 2.3 Prashant
4 pages
Numpy Cheatsheet
No ratings yet
Numpy Cheatsheet
11 pages
Dav Lab
No ratings yet
Dav Lab
8 pages
ML 1
No ratings yet
ML 1
6 pages
DAVL PR1.2 Mit
No ratings yet
DAVL PR1.2 Mit
10 pages
ML Exp5 C36
No ratings yet
ML Exp5 C36
18 pages
Edexcel Igcse English Literature Poetry Coursework
100% (1)
Edexcel Igcse English Literature Poetry Coursework
8 pages
COVID-19 Clustering Project Report
No ratings yet
COVID-19 Clustering Project Report
19 pages
Pure Mathematics (M208) Content Listing: Mathematical Language and Proof
No ratings yet
Pure Mathematics (M208) Content Listing: Mathematical Language and Proof
1 page
Smoothing Methods
100% (1)
Smoothing Methods
52 pages
Datsci Handbook
No ratings yet
Datsci Handbook
93 pages
UAF CGPA Calculator
100% (1)
UAF CGPA Calculator
18 pages
Numpy, Scipy, Matplot
No ratings yet
Numpy, Scipy, Matplot
5 pages
Maxbox - Starter68 Machine Learning
No ratings yet
Maxbox - Starter68 Machine Learning
5 pages
Mathematics - 2
No ratings yet
Mathematics - 2
5 pages
Maxbox Starter60 Machine Learning
No ratings yet
Maxbox Starter60 Machine Learning
8 pages
Measure Theory
No ratings yet
Measure Theory
110 pages
Topic 2. Matemethical Modelling of Control Systems V1
No ratings yet
Topic 2. Matemethical Modelling of Control Systems V1
13 pages
E1 277 January-April 3:1 Reinforcement Learning: Instructor
No ratings yet
E1 277 January-April 3:1 Reinforcement Learning: Instructor
2 pages
Content From Jose Portilla's Udemy Course Learning Python For Data Analysis and Visualization Notes by Michael Brothers, Available On
No ratings yet
Content From Jose Portilla's Udemy Course Learning Python For Data Analysis and Visualization Notes by Michael Brothers, Available On
13 pages
Assignment 3
No ratings yet
Assignment 3
3 pages
Applied Mathematics
No ratings yet
Applied Mathematics
17 pages
Pharmacy (Mathematics in The Modern World)
No ratings yet
Pharmacy (Mathematics in The Modern World)
25 pages
18.04 Practice Problems Exam 2, Spring 2018 Solutions: X 2 2 XX y Yy 2 XX Yy
No ratings yet
18.04 Practice Problems Exam 2, Spring 2018 Solutions: X 2 2 XX y Yy 2 XX Yy
11 pages
Calculus 2 (Equation Sheet) : Co-Function Identites Trig Substitutions (A 0) Differentiation Formulas
No ratings yet
Calculus 2 (Equation Sheet) : Co-Function Identites Trig Substitutions (A 0) Differentiation Formulas
1 page
Quantitative Analysis For Business Module
No ratings yet
Quantitative Analysis For Business Module
18 pages
Averaging Multiple Valuation Methods - Best Practice or Inviting Trouble (Rod Berkert, 2014)
No ratings yet
Averaging Multiple Valuation Methods - Best Practice or Inviting Trouble (Rod Berkert, 2014)
2 pages
A Sociolinguistic Study of Code Switching in The L
No ratings yet
A Sociolinguistic Study of Code Switching in The L
5 pages
An Evaluation of Contemporary East African Kiswahili Environmental Songs
No ratings yet
An Evaluation of Contemporary East African Kiswahili Environmental Songs
16 pages
Farmakoterapi
No ratings yet
Farmakoterapi
6 pages
Stochastic Approximation
No ratings yet
Stochastic Approximation
9 pages
Signals and Systems: Problem 1. Determine The Z Transform (Including Region of Convergence) For Each of The
No ratings yet
Signals and Systems: Problem 1. Determine The Z Transform (Including Region of Convergence) For Each of The
7 pages
Module 9
No ratings yet
Module 9
95 pages
Human Security and The Copenhagen School's Securitization Approach
No ratings yet
Human Security and The Copenhagen School's Securitization Approach
12 pages
UH - 1 (Jawaban)
No ratings yet
UH - 1 (Jawaban)
25 pages
Maxima Notes 5 Simplify
No ratings yet
Maxima Notes 5 Simplify
13 pages
Grad Student Dissertation Guide
No ratings yet
Grad Student Dissertation Guide
61 pages
14 - FDWK C4 Ism 07
No ratings yet
14 - FDWK C4 Ism 07
33 pages

Cheat Sheet-Building Unsupervised Learning Models

Uploaded by

Cheat Sheet-Building Unsupervised Learning Models

Uploaded by

5/23/25, 7:49 AM about:blank

Cheat Sheet: Building Unsupervised Learning Models

Model Name Brief Description Code Syntax

UMAP (Uniform Manifold Approximation and Projection) is used

t-SNE (t-Distributed Stochastic Neighbor Embedding) is a

PCA (principal component analysis) is used for linear

DBSCAN (Density-Based Spatial Clustering of Applications with

eps: The maximum distance between two points to be

HDBSCAN (Hierarchical DBSCAN) improves on DBSCAN by

min_cluster_size: The minimum size of clusters (default =

Model Name Brief Description Code Syntax

n_clusters: Number of clusters (default = 8).

Associated fuctions used

Method Brief Description Code Syntax

from sklearn.datasets import make_blobs

Generates isotropic Gaussian blobs

from numpy.random import multivariate_normal

Generates samples from a

Creates a 3D scatter plot using

import geopandas as gpd

Creates a GeoDataFrame from a

Transforms the coordinate

contextily.add_basemap Adds a basemap to a import contextily as ctx

Method Brief Description Code Syntax

from sklearn.decomposition import PCA

Returns the proportion of variance

You might also like