Lecture 19 - Model-Free Control, Off-Policy Learning

The lecture discusses off-policy learning and importance sampling in reinforcement learning. It covers key concepts such as GLIE, SARSA algorithms, and the differences between on-policy and off-policy methods. Importance sampling is highlighted as a technique to estimate expected values using samples from different distributions, particularly in the context of off-policy learning.

Uploaded by

Hadia Ramzan

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

10 views9 pages

Lecture 19 - Model-Free Control, Off-Policy Learning

Uploaded by

Hadia Ramzan

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 9

AI-832 Reinforcement Learning

Instructor: Dr. Zuhair Zafar

Lecture # 19: Off-Policy Learning, Importance Sampling

Recap

• What is GLIE?

• What is SARSA Algorithm for on-policy control?

• Difference between SARSA and TD Learning algorithm?

• What is n-step SARSA?

• What is Forward view of SARSA(𝜆)?

• What is Backward view of SARSA(𝜆)?

SARSA(𝝀) Gridworld Example
Today’s Agenda

• Off-Policy Learning

• Importance Sampling
Off-Policy Learning
Today’s Agenda

• Off-Policy Learning

• Importance Sampling
Importance Sampling

Importance sampling is a generalized technique to estimate expected values under one

distribution given samples from another.
We apply importance sampling to off-policy learning by weighting returns according to
the relative probability of their trajectories occurring under the target and behavior
policies, called the importance-sampling ratio.
Importance Sampling for Off-Policy Monte Carlo
Importance Sampling for Off-Policy TD

Practice Assignment 6: Reinforcement Learning Prof. B. Ravindran
No ratings yet
Practice Assignment 6: Reinforcement Learning Prof. B. Ravindran
24 pages
Lecture 14 15 - Temporal Difference Learning, Lambda-Return, Backward View of TD (Lambda)
No ratings yet
Lecture 14 15 - Temporal Difference Learning, Lambda-Return, Backward View of TD (Lambda)
26 pages
RL Question Bank - Final
No ratings yet
RL Question Bank - Final
4 pages
Mod3 Slides
No ratings yet
Mod3 Slides
199 pages
RL Concepts and Methods
No ratings yet
RL Concepts and Methods
8 pages
Quiz AI1704 Page 2 of 2
No ratings yet
Quiz AI1704 Page 2 of 2
8 pages
שפות סימולציה- הרצאה 17 - Rare Events Simulation
No ratings yet
שפות סימולציה- הרצאה 17 - Rare Events Simulation
27 pages
Self Reading - KNN - Notes
No ratings yet
Self Reading - KNN - Notes
7 pages
Lesson 8-Image Segmentation - Traditional Approaches
No ratings yet
Lesson 8-Image Segmentation - Traditional Approaches
35 pages
Lecture W5ab
No ratings yet
Lecture W5ab
56 pages
Lecture W3
No ratings yet
Lecture W3
28 pages
Lecture 35 36 - Exploration vs. Exploitation
No ratings yet
Lecture 35 36 - Exploration vs. Exploitation
18 pages
Lecture W7ab
No ratings yet
Lecture W7ab
21 pages
Monte Carlo 1
No ratings yet
Monte Carlo 1
245 pages
Lecture 11 12 - Model Free Prediction, Monte-Carlo Learning, Temporal Difference Learning
No ratings yet
Lecture 11 12 - Model Free Prediction, Monte-Carlo Learning, Temporal Difference Learning
24 pages
Lecture 34 - Model Based Reinforcement Learning
No ratings yet
Lecture 34 - Model Based Reinforcement Learning
26 pages
ML 5
No ratings yet
ML 5
32 pages
Lecture W6b
No ratings yet
Lecture W6b
33 pages
CS-878 Lecture-02 Logistic Regression
No ratings yet
CS-878 Lecture-02 Logistic Regression
55 pages
Eigen Values and Eigen Vectors
No ratings yet
Eigen Values and Eigen Vectors
53 pages
Variance Reduction
No ratings yet
Variance Reduction
51 pages
Module 5-rl
No ratings yet
Module 5-rl
54 pages
L7 Temporal Difference Learning
No ratings yet
L7 Temporal Difference Learning
56 pages
Importance Sampling Via Simulacrum: Alan E. Wessel
No ratings yet
Importance Sampling Via Simulacrum: Alan E. Wessel
13 pages
CH3 - 2 Montecarlo Control
No ratings yet
CH3 - 2 Montecarlo Control
33 pages
Lecture 22 - Value Function Approximation
No ratings yet
Lecture 22 - Value Function Approximation
17 pages
Sarsa - RL-BR
No ratings yet
Sarsa - RL-BR
15 pages
Solutions - REINFORCE and Linear Function Approximation
No ratings yet
Solutions - REINFORCE and Linear Function Approximation
5 pages
Importance Sampling in RL
No ratings yet
Importance Sampling in RL
13 pages
19 - Monte Carlo and Temporal Difference For Markov Decision Processes
No ratings yet
19 - Monte Carlo and Temporal Difference For Markov Decision Processes
57 pages
NeurIPS 2019 Importance Resampling For Off Policy Prediction Paper
No ratings yet
NeurIPS 2019 Importance Resampling For Off Policy Prediction Paper
11 pages
Reinforcement Learning 2
No ratings yet
Reinforcement Learning 2
41 pages
SARSA Reinforcement Learning Algorithm
No ratings yet
SARSA Reinforcement Learning Algorithm
5 pages
Wow! Ebook
No ratings yet
Wow! Ebook
5 pages
EE 675 Lecture 27th March
No ratings yet
EE 675 Lecture 27th March
4 pages
Course 2 - Sample Based Learning Methods Learning Objectives
No ratings yet
Course 2 - Sample Based Learning Methods Learning Objectives
3 pages
RL 5
No ratings yet
RL 5
26 pages
SARSA, Expected SARSA, Q-Learning
No ratings yet
SARSA, Expected SARSA, Q-Learning
4 pages
Improving Monte Carlo Evaluation With Offline Data: Sutton and Barto 2018
No ratings yet
Improving Monte Carlo Evaluation With Offline Data: Sutton and Barto 2018
40 pages
EE675A Lecture 16
No ratings yet
EE675A Lecture 16
6 pages
Unit Iii Monte Carlo & Temporal Difference Methods
No ratings yet
Unit Iii Monte Carlo & Temporal Difference Methods
18 pages
RL Exam Tutti
No ratings yet
RL Exam Tutti
47 pages
Doubly Robust Off-Policy RL
No ratings yet
Doubly Robust Off-Policy RL
14 pages
Unit 5 - Policy Based
No ratings yet
Unit 5 - Policy Based
30 pages
Subtitle
No ratings yet
Subtitle
2 pages
Module II-3
No ratings yet
Module II-3
21 pages
20ai903 - RL - Unit 4
No ratings yet
20ai903 - RL - Unit 4
49 pages
Temporal Difference (TD) Learning: Slides Prepared by DR J Alamelu Mangai
No ratings yet
Temporal Difference (TD) Learning: Slides Prepared by DR J Alamelu Mangai
57 pages
A Distrib Persp On RL
No ratings yet
A Distrib Persp On RL
19 pages
Steer Policy Without Adding Distribution Shift
No ratings yet
Steer Policy Without Adding Distribution Shift
1 page
Stabilizing Off Policy QLearning
No ratings yet
Stabilizing Off Policy QLearning
19 pages
Active Learning in Machine Learning
No ratings yet
Active Learning in Machine Learning
6 pages
I2ml3e Chap18
No ratings yet
I2ml3e Chap18
27 pages
L11 TopicModels 2
No ratings yet
L11 TopicModels 2
37 pages
p1 Piotr
No ratings yet
p1 Piotr
7 pages
Importance Sampling
No ratings yet
Importance Sampling
3 pages
Report p1
No ratings yet
Report p1
7 pages
Exploration in Contextual Bandits: Reedy Reedy
No ratings yet
Exploration in Contextual Bandits: Reedy Reedy
16 pages
p1 Report
No ratings yet
p1 Report
4 pages
Lnotes 04
No ratings yet
Lnotes 04
8 pages
Lec29 ImportanceSampling
No ratings yet
Lec29 ImportanceSampling
84 pages
Bellemare17a PDF
No ratings yet
Bellemare17a PDF
10 pages
Chapter 13: Policy Gradient Methods: by Richard Sutton and Andrew Barto
No ratings yet
Chapter 13: Policy Gradient Methods: by Richard Sutton and Andrew Barto
35 pages
Lecture 5: Model-Free Control: David Silver
No ratings yet
Lecture 5: Model-Free Control: David Silver
43 pages
Lec35 SequentialImportanceSampling
No ratings yet
Lec35 SequentialImportanceSampling
46 pages
07 Deep Reinforcement Learning (John)
No ratings yet
07 Deep Reinforcement Learning (John)
52 pages
Policy Gradient Methods Guide
No ratings yet
Policy Gradient Methods Guide
28 pages
CS 188 Fall 2018 Written HW4 Soln
No ratings yet
CS 188 Fall 2018 Written HW4 Soln
6 pages
Temporal Difference Learning
No ratings yet
Temporal Difference Learning
17 pages
I2ml3e Chap18
No ratings yet
I2ml3e Chap18
27 pages
Lecture 7: Policy Gradient: David Silver
No ratings yet
Lecture 7: Policy Gradient: David Silver
41 pages

Lecture 19 - Model-Free Control, Off-Policy Learning

Uploaded by

Lecture 19 - Model-Free Control, Off-Policy Learning

Uploaded by

AI-832 Reinforcement Learning

Instructor: Dr. Zuhair Zafar

Lecture # 19: Off-Policy Learning, Importance Sampling

• What is SARSA Algorithm for on-policy control?

• Difference between SARSA and TD Learning algorithm?

• What is n-step SARSA?

• What is Forward view of SARSA(𝜆)?

• What is Backward view of SARSA(𝜆)?

Importance sampling is a generalized technique to estimate expected values under one

You might also like