0% found this document useful (0 votes)

39 views43 pages

Lecture1 CS294 2022

The document outlines the course CS 294-167 on Geometry and Learning for 3D Vision at UC Berkeley, detailing course information, grading policies, prerequisites, and main topics covered. It emphasizes the fundamental problem of reconstructing 3D structures from multiple images, along with various applications in autonomous vehicles, virtual reality, and digital arts. Additionally, it discusses the integration of geometric knowledge with data-driven learning approaches for enhanced 3D modeling and reconstruction.

Uploaded by

barryxu

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

39 views43 pages

Lecture1 CS294 2022

Uploaded by

barryxu

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 43

CS 294-167 Spring 2022

Geometry and Learning for 3D Vision

Yi Ma

UC Berkeley

MASKS © 2004 Invitation to 3D vision

Course Information

• Course piazza:
https://piazza.com/berkeley/spring2022/cs294167/
(information, homework, lecture notes, and resources…)

• Office hours:
Monday, Tuesday 2-3pm (together with EE106B)

• Grading policy:
10% participation; 20% homework; 70% final project

• Prerequisite:
EECS280 or equivalent in computer vision or image processing
Undergraduate linear algebra, some familiarity with ML tools.

MASKS © 2004 Invitation to 3D vision

Main Textbook (on piazza)

MASKS © 2004 Invitation to 3D vision

Supplementary Textbook

https://szeliski.org/Book/

MASKS © 2004 Invitation to 3D vision

Lecture 1
Overview and Introduction

MASKS © 2004 Invitation to 3D vision

Reconstruction from images – The Fundamental Problem

Input: Corresponding “features” in multiple perspective images.

Output: Camera poses, calibration, scene structure representations.
(3D point clouds, meshes, voxels, implicit surfaces, radiance fields…)

MASKS © 2004 Invitation to 3D vision

Reconstruction from images – The Fundamental Problem

Input: Corresponding “features” in multiple perspective images.

Output: Camera poses, calibration, scene structure representations.
(3D point clouds, meshes, voxels, implicit surfaces, radiance fields…)

Point Clouds Meshes Voxels

Implicit surfaces CAD like Models

MASKS © 2004 Invitation to 3D vision

Reconstruction from images – The Fundamental Problem

Geometric relationships among multiple views of points, lines, and planes.

. . .

Geometric and algorithmic foundation for multiple-view geometry.

MASKS © 2004 Invitation to 3D vision

Reconstruction from images – The Fundamental Problem

“Rome wasn’t built in a day.”

MASKS © 2004 Invitation to 3D vision

APPLICATIONS – Autonomous Highway Vehicles (1990-)

Image courtesy of California PATH

MASKS © 2004 Invitation to 3D vision
APPLICATIONS – Today Autonomous Vehicles

MASKS © 2004 Invitation to 3D vision

APPLICATIONS – Unmanned Aerial Vehicles (UAVs, 1998)

Rate: 10Hz; Accuracy: 5cm, 4o

MASKS © 2004 Invitation to 3D vision Courtesy of Berkeley Robotics Lab

APPLICATIONS – Today Unmanned Aerial Vehicles (UAVs)

MASKS © 2004 Invitation to 3D vision

APPLICATIONS – Real-Time Virtual Object Insertion

MASKS © 2004 Invitation to 3D vision UCLA Vision Lab

APPLICATIONS – Real-Time Sports Coverage

First-down line and virtual advertising

MASKS © 2004 Invitation to 3D vision Princeton Video Image, Inc.

Virtual Museum on Your Phone

Multi-camera
Light stage On iPhone VR kit

Shanghai Museum Items

APPLICATIONS – Image Based Modeling and Rendering

MASKS © 2004 Invitation to 3D vision Image courtesy of Paul Debevec, 1996

APPLICATIONS – Image Alignment, Mosaicing, and Morphing

MASKS © 2004 Invitation to 3D vision

GENERAL STEPS – Feature Selection and Correspondence

1. Small baselines versus large baselines

2. Point features versus line features

MASKS © 2004 Invitation to 3D vision

GENERAL STEPS – Structure and Motion Recovery

1. Two views versus multiple views

2. Discrete versus continuous motion
3. General versus planar scene
4. Calibrated versus uncalibrated camera
5. One motion versus multiple motions
MASKS © 2004 Invitation to 3D vision
GENERAL STEPS – Image Stratification and Dense Matching

Left

Right
MASKS © 2004 Invitation to 3D vision
GENERAL STEPS – 3-D Surface Model and Rendering

1. Point clouds versus surfaces (level sets)

2. Random shapes versus regular structures
MASKS © 2004 Invitation to 3D vision
GENERAL STEPS – Image-Based 3D Modeling

Building Rome in One Day

The Colosseum, 2,106 images

Steve Seitz, University of Washington, Richard Szeliski, Microsoft Research

Traditional 3D Reconstruction Pipeline

Feature Extraction & Multiview Point Clouds

Matching Geometry

Image Source: Internet

Limitation of Traditional 3D Reconstruction

Textureless Objects Reflection/Transparency Repetitive Patterns

Medium/Large baseline (SIFT Failure) Moving Objects

Image source: Internet

Deep Learning (Data-Driven) Approaches

Pose Estimation Voxels Point Clouds

Kehl, Wadim., et al. (2017) Song, S., et al. (2017) Charles Q., et al. (2017)

3D Bounding Cube Depth Map Regression Meshes Implicit Surfaces

Mousavian, A., et al. (2019) Li, Z., & Snavely, N. (2018) Groueix, T., et al. (2018) Weiyue, W., et al. (2019)
Challenges for Data-driven Approaches

n Recently research [1] suggests encoder-decoder

networks do not perform reconstruction but
classification
n CNN is not better than clever nearest
neighbors
n Cannot utilize geometry structures

Ground Truth AtlasNet OGN Matryoshka Clustering Retrieval Oracle NN

Maxim Tatarchenko, Stephan R. Richter, René Ranftl, Zhuwen Li, Vladlen Koltun, Thomas Brox.
“What Do Single-view 3D Reconstruction Networks Learn?.” arXiv preprint arXiv:1905.03678 (2019).
We Live in a Highly Structured World

n Man-made environments are rich of structural regularities

n Straight lines
n Smooth curves
n Parallelism
n Orthogonality
n Symmetry

n How to detect & utilize them?

Image source: Internet

Symmetry based Modeling & Reconstruction

Regular Structure Based Modeling & Reconstruction

360o
panorama

TILT: Transform-Invariant Low-rank Textures, Z. Zhang, Y. Ma et. al, IJCV 2012

How to incorporate geometric knowledge into data-
driven learning approaches?

Multiple-View Reconstruction Recognition

Geometry:
o Points/junctions
o Lines
o Planes
o Incidence relations
o Symmetry
• Translation
• Reflection
• Rotation

[Ma, Soatto, Kosecka,

Sastry, 2004]
Combine Geometry and Learning (for Structures)

From Images to CAD Model

Multi-view Correspondence End-to-end Learning

Geometric Structure Data Representation

Learning with Structures, and for Structures, Yichao Zhou, UC Berkeley

Combine Geometry and Learning (for Structures)

Wireframes (junctions, lines, planes)

Learning to L-CNN:
Reconstruct 3D End-to-end
Wireframes from Wireframe
Single Images Parsing
(ICCV 2019) (ICCV 2019)

NeurVPS: NeRD: Neural 3D

Neural Vanishing Reflection Symmetry
Point Scanner via Detector
Conic Convolution (CVPR 2021)
(NeurIPS 2019)

Vanishing points (parallel, orthogonality) Symmetry (reflective, rotation, translation)

Holistic Scene Structures for 3D Vision

https://holistic-3d.github.io/iccv19/
From Images to 3D CAD Models

Holicity: 20 km^2 of downtown London

Yichao Zhou and Yi Ma et. al, UC Berkeley https://holicity.io

Evolution of Interface and Media

From 1D to 3D, and from physical to virtual (meta?)…

1D media 2D media 3D media

Quipu, Inca people

3rd millennium BCE
More Applications – 3D Object Digitization

With 3D vision, learning and light field technology at its

core, one can develop live virtual 3D digital technologies.

• Digital Human Reconstruction

• Live Holography

• 3D Reconstruction

• Interactive Videos

https://www.us1.dgene.com
More Applications – Digital Arts

On iPhone VR kit
Shanghai Museum Items

https://www.us1.dgene.com
More Applications – Virtual Shopping

https://www.us1.dgene.com
More Applications – Virtual Performance & Entertainment

https://www.us1.dgene.com
Reconstruction from images – The Fundamental Problem

“Rome wasn’t built in a day.”

But a digital Rome may be built in a day!

Let us start from the foundation...

Dalgakiran Refrigeration Air Dryers
0% (1)
Dalgakiran Refrigeration Air Dryers
2 pages
Practice Exam Answers
No ratings yet
Practice Exam Answers
19 pages
Lecture8 CS294 2022
No ratings yet
Lecture8 CS294 2022
98 pages
An Invitation To 3-D Vision From Images To Models
No ratings yet
An Invitation To 3-D Vision From Images To Models
339 pages
An Invitation To 3-D Vision PDF
No ratings yet
An Invitation To 3-D Vision PDF
338 pages
Unit 4
No ratings yet
Unit 4
13 pages
3D Reconstruction From Multiple Images Part 1: Principles
No ratings yet
3D Reconstruction From Multiple Images Part 1: Principles
37 pages
01 Introduction
No ratings yet
01 Introduction
19 pages
Lecture1 PDF
No ratings yet
Lecture1 PDF
95 pages
CV Unit 4 Unit 4
No ratings yet
CV Unit 4 Unit 4
13 pages
3 D Models and Match
No ratings yet
3 D Models and Match
35 pages
Course Calendar: Week Topics Readings Assignments Demos
No ratings yet
Course Calendar: Week Topics Readings Assignments Demos
2 pages
Computer Vision Three Dimensional Reconstruction Techniques Springer
No ratings yet
Computer Vision Three Dimensional Reconstruction Techniques Springer
348 pages
3D Modeling from Camera Images
No ratings yet
3D Modeling from Camera Images
7 pages
Unit 5 Shapes
No ratings yet
Unit 5 Shapes
13 pages
Lecture 16 Hao
No ratings yet
Lecture 16 Hao
56 pages
Computer Vision Three-Dimensional - Andrea Fusiello
No ratings yet
Computer Vision Three-Dimensional - Andrea Fusiello
632 pages
3D Scene Modeling from Images
No ratings yet
3D Scene Modeling from Images
16 pages
SG14 Byod3d
No ratings yet
SG14 Byod3d
66 pages
Singh 2020
No ratings yet
Singh 2020
5 pages
Slide 3DP 12 3D Data Representation
No ratings yet
Slide 3DP 12 3D Data Representation
53 pages
Guide To 3D Vision Computation Geometric Analysis and Implementation 1st Edition Kenichi Kanatani PDF Download
No ratings yet
Guide To 3D Vision Computation Geometric Analysis and Implementation 1st Edition Kenichi Kanatani PDF Download
155 pages
Multi - View Stereo A Tutorial
No ratings yet
Multi - View Stereo A Tutorial
151 pages
Multi-View Stereo A Tutorial.
No ratings yet
Multi-View Stereo A Tutorial.
164 pages
Unit Iv Aicv Aids
No ratings yet
Unit Iv Aicv Aids
22 pages
Multi-View Stereo: A Tutorial: Washington University in St. Louis Furukawa@wustl - Edu
No ratings yet
Multi-View Stereo: A Tutorial: Washington University in St. Louis Furukawa@wustl - Edu
40 pages
Advanced Computer Graphics (Fall 2010)
No ratings yet
Advanced Computer Graphics (Fall 2010)
36 pages
Computer Vision for Tech Enthusiasts
No ratings yet
Computer Vision for Tech Enthusiasts
41 pages
f35 Frosh Sem 3d Models 2d Images
No ratings yet
f35 Frosh Sem 3d Models 2d Images
25 pages
Lecture3 CS294 2022
No ratings yet
Lecture3 CS294 2022
44 pages
3D Reconstruction 2021
No ratings yet
3D Reconstruction 2021
27 pages
3D Vision Tutorial for Beginners
No ratings yet
3D Vision Tutorial for Beginners
153 pages
Research Paper
No ratings yet
Research Paper
19 pages
CV - V Unit Notes
No ratings yet
CV - V Unit Notes
15 pages
Computer Graphics Lecture Notes
No ratings yet
Computer Graphics Lecture Notes
46 pages
3D Reconstruction for Researchers
No ratings yet
3D Reconstruction for Researchers
74 pages
2d 3d Reconstruction
No ratings yet
2d 3d Reconstruction
11 pages
Deep Learning 3D Object Reconstruction
No ratings yet
Deep Learning 3D Object Reconstruction
27 pages
Geometric Modeling
No ratings yet
Geometric Modeling
134 pages
Lecture2 CS294 2022
No ratings yet
Lecture2 CS294 2022
33 pages
3D Model Alignment Techniques
No ratings yet
3D Model Alignment Techniques
18 pages
Multiview Compressive Coding For 3D Reconstruction
No ratings yet
Multiview Compressive Coding For 3D Reconstruction
12 pages
Introduction To Modeling: Chen: Jchen@cs - Gmu.edu 1
No ratings yet
Introduction To Modeling: Chen: Jchen@cs - Gmu.edu 1
33 pages
1319imguf UNIT 3
No ratings yet
1319imguf UNIT 3
60 pages
3d Reconstruction
No ratings yet
3d Reconstruction
83 pages
3D Graphics for Designers
No ratings yet
3D Graphics for Designers
46 pages
ObjectRecognitionIntro 2NOV
No ratings yet
ObjectRecognitionIntro 2NOV
28 pages
26 Stereo
No ratings yet
26 Stereo
39 pages
Computer Vision Introduction
No ratings yet
Computer Vision Introduction
42 pages
Multiple View Geometry: in Computer Vision
No ratings yet
Multiple View Geometry: in Computer Vision
8 pages
Computer Vision for Students
No ratings yet
Computer Vision for Students
8 pages
c171 PPT Invited Talk 3d Vision
No ratings yet
c171 PPT Invited Talk 3d Vision
47 pages
01 Introduction Slides
No ratings yet
01 Introduction Slides
62 pages
Computer Vision for Researchers
No ratings yet
Computer Vision for Researchers
54 pages
3D Motion Learning from Stereo Videos
No ratings yet
3D Motion Learning from Stereo Videos
17 pages
22英语2
No ratings yet
22英语2
13 pages
Intermediate Counting and Probability (Solution Manual)
No ratings yet
Intermediate Counting and Probability (Solution Manual)
208 pages
Calculus
No ratings yet
Calculus
86 pages
Lecture10 LowDim MaYi
No ratings yet
Lecture10 LowDim MaYi
105 pages
23英语1
No ratings yet
23英语1
13 pages
2024英语1
No ratings yet
2024英语1
14 pages
中学教材2
No ratings yet
中学教材2
2 pages
Lecture5 CS294 2022
No ratings yet
Lecture5 CS294 2022
49 pages
Marker Assisted Breeding
No ratings yet
Marker Assisted Breeding
19 pages
Toolbox Solidworks 2016
No ratings yet
Toolbox Solidworks 2016
53 pages
Magneto-Optical Kerr Effect Guide
No ratings yet
Magneto-Optical Kerr Effect Guide
22 pages
AR Parts AR-6
No ratings yet
AR Parts AR-6
3 pages
VLSI Module 4 & 5 Questions
No ratings yet
VLSI Module 4 & 5 Questions
2 pages
Classification of Lung Sounds Using CNN
No ratings yet
Classification of Lung Sounds Using CNN
10 pages
CS2D Guide for Gamers
No ratings yet
CS2D Guide for Gamers
18 pages
Onychophagia (Nail Biting), Anxiety, and Malocclusion
No ratings yet
Onychophagia (Nail Biting), Anxiety, and Malocclusion
4 pages
2010 Golf GTD Data
No ratings yet
2010 Golf GTD Data
3 pages
Venus Magma Plus
No ratings yet
Venus Magma Plus
2 pages
Module-15-22.pdf - PHY 032 PHYSICS FOR ENGINEERS Module #15 Student Activity Sheet Name - Section - College Sidekick
No ratings yet
Module-15-22.pdf - PHY 032 PHYSICS FOR ENGINEERS Module #15 Student Activity Sheet Name - Section - College Sidekick
1 page
Xenon E-180 Service Manual
No ratings yet
Xenon E-180 Service Manual
17 pages
8321 Asco
No ratings yet
8321 Asco
4 pages
DVT PDF
No ratings yet
DVT PDF
10 pages
Welding Metallurgy of Carbon Steel PDF
100% (1)
Welding Metallurgy of Carbon Steel PDF
17 pages
HTC-8670 70T PDF
No ratings yet
HTC-8670 70T PDF
40 pages
PTY260S - Statistics Lecture 2019
No ratings yet
PTY260S - Statistics Lecture 2019
13 pages
Case Study
No ratings yet
Case Study
19 pages
STP32537S Characterization of High Purity Cathodes For Plant Control
No ratings yet
STP32537S Characterization of High Purity Cathodes For Plant Control
30 pages
Bar & Beverage Menu
No ratings yet
Bar & Beverage Menu
13 pages
LG - TV - LG Uj6500
100% (1)
LG - TV - LG Uj6500
37 pages
How Maintenance Strategy Affects Defect Elimination Equipment Reliability
No ratings yet
How Maintenance Strategy Affects Defect Elimination Equipment Reliability
5 pages
Software Project Management Metrics
No ratings yet
Software Project Management Metrics
2 pages
DEPORTES
No ratings yet
DEPORTES
5 pages
Pythagorean Triples Guide
No ratings yet
Pythagorean Triples Guide
9 pages
Drip Irrigation Pipes
No ratings yet
Drip Irrigation Pipes
8 pages
RDO No. 68 - Sorsogon City, Sorsogon 3
No ratings yet
RDO No. 68 - Sorsogon City, Sorsogon 3
703 pages
Application-Form-FSEC-for-Building-Permit Koronadal
No ratings yet
Application-Form-FSEC-for-Building-Permit Koronadal
1 page

Lecture1 CS294 2022

Uploaded by

Lecture1 CS294 2022

Uploaded by

CS 294-167 Spring 2022

Geometry and Learning for 3D Vision

MASKS © 2004 Invitation to 3D vision

MASKS © 2004 Invitation to 3D vision

MASKS © 2004 Invitation to 3D vision

MASKS © 2004 Invitation to 3D vision

MASKS © 2004 Invitation to 3D vision

Input: Corresponding “features” in multiple perspective images.

MASKS © 2004 Invitation to 3D vision

Input: Corresponding “features” in multiple perspective images.

Point Clouds Meshes Voxels

Implicit surfaces CAD like Models

MASKS © 2004 Invitation to 3D vision

Geometric relationships among multiple views of points, lines, and planes.

Geometric and algorithmic foundation for multiple-view geometry.

MASKS © 2004 Invitation to 3D vision

“Rome wasn’t built in a day.”

MASKS © 2004 Invitation to 3D vision

Image courtesy of California PATH

MASKS © 2004 Invitation to 3D vision

Rate: 10Hz; Accuracy: 5cm, 4o

MASKS © 2004 Invitation to 3D vision Courtesy of Berkeley Robotics Lab

MASKS © 2004 Invitation to 3D vision

MASKS © 2004 Invitation to 3D vision UCLA Vision Lab

First-down line and virtual advertising

MASKS © 2004 Invitation to 3D vision Princeton Video Image, Inc.

Shanghai Museum Items

MASKS © 2004 Invitation to 3D vision Image courtesy of Paul Debevec, 1996

MASKS © 2004 Invitation to 3D vision

1. Small baselines versus large baselines

MASKS © 2004 Invitation to 3D vision

1. Two views versus multiple views

1. Point clouds versus surfaces (level sets)

Building Rome in One Day

The Colosseum, 2,106 images

Steve Seitz, University of Washington, Richard Szeliski, Microsoft Research

Feature Extraction & Multiview Point Clouds

Image Source: Internet

Textureless Objects Reflection/Transparency Repetitive Patterns

Medium/Large baseline (SIFT Failure) Moving Objects

Image source: Internet

Pose Estimation Voxels Point Clouds

3D Bounding Cube Depth Map Regression Meshes Implicit Surfaces

n Recently research [1] suggests encoder-decoder

Ground Truth AtlasNet OGN Matryoshka Clustering Retrieval Oracle NN

n Man-made environments are rich of structural regularities

n How to detect & utilize them?

Image source: Internet

MASKS © 2004 Invitation to 3D vision

MASKS © 2004 Invitation to 3D vision

MASKS © 2004 Invitation to 3D vision

TILT: Transform-Invariant Low-rank Textures, Z. Zhang, Y. Ma et. al, IJCV 2012

Multiple-View Reconstruction Recognition

[Ma, Soatto, Kosecka,

From Images to CAD Model

Multi-view Correspondence End-to-end Learning

Geometric Structure Data Representation

Learning with Structures, and for Structures, Yichao Zhou, UC Berkeley

Wireframes (junctions, lines, planes)

NeurVPS: NeRD: Neural 3D

Vanishing points (parallel, orthogonality) Symmetry (reflective, rotation, translation)

Holicity: 20 km^2 of downtown London

Yichao Zhou and Yi Ma et. al, UC Berkeley https://holicity.io

From 1D to 3D, and from physical to virtual (meta?)…

1D media 2D media 3D media

Quipu, Inca people

With 3D vision, learning and light field technology at its

• Digital Human Reconstruction

“Rome wasn’t built in a day.”

But a digital Rome may be built in a day!

Let us start from the foundation...

You might also like