Day 2 MDPs and Value Functions

The document outlines a training session on Markov Decision Processes (MDPs) and value functions in reinforcement learning. It covers key concepts such as policies, value functions, and includes activities for calculating state values and setting up a hand simulation project. The session also previews future topics like solving MDPs and implementing solutions in code.

Uploaded by

riti2529

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PPTX, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

23 views14 pages

Day 2 MDPs and Value Functions

Uploaded by

riti2529

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PPTX, PDF, TXT or read online on Scribd

You are on page 1/ 14

Day 2: MDPs & Value Functions

• Understanding the building blocks of

Reinforcement Learning
• Your Name
• Date
Agenda
• 1. Markov Decision Processes (MDPs)
• 2. Policies
• 3. Value Functions
• 4. Activity: Compute V(s)
• 5. Project: Set up Hand Simulation
What is an MDP?
• Markov Decision Process = (S, A, P, R, γ)
• S: Set of states
• A: Set of actions
• P(s' | s, a): Transition probabilities
• R(s, a): Reward function
• γ: Discount factor
Markov Property
• The future is independent of the past given
the present
• Formally:
• P(s_{t+1} | s_t, a_t, ..., s_0, a_0) = P(s_{t+1} |
s_t, a_t)
Policy (π)
• Policy: Mapping from states to actions
• Deterministic: π(s) = a
• Stochastic: π(a | s) = P(a | s)
• Goal of RL: Find optimal policy π* that
maximizes expected reward
Value Functions
• State-Value Function V^π(s):
• Expected return from state s following π:
• V^π(s) = E_π [∑ γ^t R(s_t, a_t)]
• Action-Value Function Q^π(s, a):
• Expected return from s, taking action a, then
following π
Bellman Equations
• Value Function (Recursive Form):
• V^π(s) = ∑ π(a | s) ∑ P(s' | s, a) [R(s, a) + γ
V^π(s')]
Visual: Simple MDP Example
• (Include a simple MDP diagram or describe
the structure verbally)
Activity: Calculate V(s)
• Given:
• - 3 States: S1, S2, S3
• - Actions: A1, A2
• - Rewards and transitions shown in
diagram/table
• Task: Compute V(s) for each state under a
fixed policy
Python Activity Preview
• Implement a simple MDP:
• - Define states/actions
• - Define transition matrix and reward table
• - Evaluate a policy using Bellman equation
• Tools: Python, NumPy
Project: Hand Simulation Setup
• Goal: Simulate a hand (e.g., robotic hand, card
game)
• Today:
• - Define state space (e.g., hand positions, grip
strength)
• - Define actions (e.g., open, close, flex)
• - Define reward (e.g., holding object = +1, drop
= -1)
Group Work Prompt
• In teams, sketch out hand sim scenario
• Identify:
• - State space
• - Action space
• - Rewards
• - Transition rules
• Present briefly at the end
What’s Next (Day 3 Preview)
• Solving MDPs:
• - Policy Evaluation
• - Policy Iteration
• - Value Iteration
• Implementing solutions in code
Q&A / Wrap-Up
• Questions?
• Recap today’s key points
• Check-in: Do students feel confident in MDPs
and value functions?

Lecture 02 - Markov Decision Process
No ratings yet
Lecture 02 - Markov Decision Process
33 pages
Markov Decision Process
No ratings yet
Markov Decision Process
36 pages
Python Notes
No ratings yet
Python Notes
77 pages
Reinforcement Learning: Full Summary of Chapters 3-8: Summarized by Grok 3 June 30, 2025
No ratings yet
Reinforcement Learning: Full Summary of Chapters 3-8: Summarized by Grok 3 June 30, 2025
23 pages
Detailed Lesson Plan in Math 10 (Finding The Unknown Variables in An Arithmetic Sequence)
100% (4)
Detailed Lesson Plan in Math 10 (Finding The Unknown Variables in An Arithmetic Sequence)
4 pages
17 - Markov Decision Processes
No ratings yet
17 - Markov Decision Processes
59 pages
Quantum Mechanics Course Zeemansplitting
No ratings yet
Quantum Mechanics Course Zeemansplitting
29 pages
Lecture 2 Pre
No ratings yet
Lecture 2 Pre
58 pages
Class Notes 2
No ratings yet
Class Notes 2
6 pages
이명훈 인천대학교 final
No ratings yet
이명훈 인천대학교 final
68 pages
Reinforcement Learning
No ratings yet
Reinforcement Learning
31 pages
Textbook Solutions Expert Q&A Practice: Find Solutions For Your Homework
No ratings yet
Textbook Solutions Expert Q&A Practice: Find Solutions For Your Homework
6 pages
Lecture 2 Post
No ratings yet
Lecture 2 Post
65 pages
Reinforcement Learning Lec12
No ratings yet
Reinforcement Learning Lec12
60 pages
Unit 5 Reinforcement Learning Notes
No ratings yet
Unit 5 Reinforcement Learning Notes
20 pages
Slidedeck 5 MAS 2021 22 RL 1 MDP Bellman v3
No ratings yet
Slidedeck 5 MAS 2021 22 RL 1 MDP Bellman v3
93 pages
Lecture - 03 - MDPs
No ratings yet
Lecture - 03 - MDPs
36 pages
Tut21 RL
No ratings yet
Tut21 RL
101 pages
DLMAIRIL01 Q4-2024 Session2
No ratings yet
DLMAIRIL01 Q4-2024 Session2
68 pages
MDP Basics for AI Researchers
No ratings yet
MDP Basics for AI Researchers
23 pages
mdp2 6pp
No ratings yet
mdp2 6pp
14 pages
Unit 4
No ratings yet
Unit 4
49 pages
Assignment 1
100% (1)
Assignment 1
3 pages
Automation Chapter 4
No ratings yet
Automation Chapter 4
44 pages
ASM Handbook Volume 10 Materials Characterization 1st Edition Asm International. Handbook Committee. PDF Download
No ratings yet
ASM Handbook Volume 10 Materials Characterization 1st Edition Asm International. Handbook Committee. PDF Download
107 pages
Lecture Notes RL
No ratings yet
Lecture Notes RL
14 pages
Markov Decision Processes & Reinforcement Learning: Megan Smith Lehigh University, Fall 2006
No ratings yet
Markov Decision Processes & Reinforcement Learning: Megan Smith Lehigh University, Fall 2006
40 pages
CSE2530 Reinforcement Learning 2025 P1+2
No ratings yet
CSE2530 Reinforcement Learning 2025 P1+2
115 pages
MDP Basics for AI Researchers
No ratings yet
MDP Basics for AI Researchers
22 pages
MATH Grade 4 Quarter 1 Module 7 FINAL
No ratings yet
MATH Grade 4 Quarter 1 Module 7 FINAL
32 pages
Cs229-Notes12 Reinforcement in Control
No ratings yet
Cs229-Notes12 Reinforcement in Control
17 pages
CS229
No ratings yet
CS229
17 pages
ML Unit 4
No ratings yet
ML Unit 4
9 pages
Markov Decision
No ratings yet
Markov Decision
4 pages
Subtitle
No ratings yet
Subtitle
2 pages
L12 Markov Decision Processes
No ratings yet
L12 Markov Decision Processes
64 pages
Reinforcement Learning Basics
No ratings yet
Reinforcement Learning Basics
7 pages
Reinforcement Learning Basics
No ratings yet
Reinforcement Learning Basics
51 pages
Lecture 3 - MDPs and Dynamic Programming
No ratings yet
Lecture 3 - MDPs and Dynamic Programming
62 pages
L13 Reinforcement Learning
No ratings yet
L13 Reinforcement Learning
57 pages
6 Math
No ratings yet
6 Math
184 pages
Lec 12
No ratings yet
Lec 12
60 pages
DRL #4-5 - Introducing MDP and Dynamic Programming Solution
No ratings yet
DRL #4-5 - Introducing MDP and Dynamic Programming Solution
74 pages
Instructor (Andrew NG) :okay, Good Morning. Welcome Back. So I Hope All of You Had
No ratings yet
Instructor (Andrew NG) :okay, Good Morning. Welcome Back. So I Hope All of You Had
14 pages
2025 - MDPs 1
No ratings yet
2025 - MDPs 1
62 pages
Reinforcement Learning and Control: CS229 Lecture Notes
No ratings yet
Reinforcement Learning and Control: CS229 Lecture Notes
15 pages
How Indian Highways Are Numbered
No ratings yet
How Indian Highways Are Numbered
3 pages
C Programming Learn To Code 1st Edition Sisir Kumar Jena Download
No ratings yet
C Programming Learn To Code 1st Edition Sisir Kumar Jena Download
91 pages
Add-On DRL CS06
No ratings yet
Add-On DRL CS06
23 pages
Reinforcement Learning: Part I - Definitions
No ratings yet
Reinforcement Learning: Part I - Definitions
26 pages
DSA5102 Lecture11
No ratings yet
DSA5102 Lecture11
44 pages
Deep RL - Content Beyond Syllabus
No ratings yet
Deep RL - Content Beyond Syllabus
16 pages
BSC Degree & Diploma Program - Ordinance & Regulations (From 2020 Batch)
No ratings yet
BSC Degree & Diploma Program - Ordinance & Regulations (From 2020 Batch)
20 pages
Building 261
No ratings yet
Building 261
2 pages
Set Theory: Well-Defined Collections and Sets
No ratings yet
Set Theory: Well-Defined Collections and Sets
32 pages
Finite Markov Decision Processes-BR
No ratings yet
Finite Markov Decision Processes-BR
31 pages
Order of Magnitude & Vector Basics
No ratings yet
Order of Magnitude & Vector Basics
24 pages
Lecture 3 - MDPs and Dynamic Programming
No ratings yet
Lecture 3 - MDPs and Dynamic Programming
66 pages
16 RL PDF
No ratings yet
16 RL PDF
87 pages
9-4 Notes PDF
No ratings yet
9-4 Notes PDF
18 pages
Mtap G4S1 Student
No ratings yet
Mtap G4S1 Student
2 pages
Reinforcement Learning
No ratings yet
Reinforcement Learning
9 pages
Lecture 30 Reinforcement-Learning
No ratings yet
Lecture 30 Reinforcement-Learning
50 pages
Operating System Handwritten Notes All Unit 1 22
No ratings yet
Operating System Handwritten Notes All Unit 1 22
22 pages
Markov Decision & RL Overview
No ratings yet
Markov Decision & RL Overview
39 pages
BG3801 L3 Medical Image Processing 14-15
No ratings yet
BG3801 L3 Medical Image Processing 14-15
18 pages
Lecture 2: Markov Decision Processes: David Silver
No ratings yet
Lecture 2: Markov Decision Processes: David Silver
57 pages
CHAPTER 1 DR Wan Zul
No ratings yet
CHAPTER 1 DR Wan Zul
28 pages
Game
No ratings yet
Game
10 pages
Citric Acid
No ratings yet
Citric Acid
7 pages
House Price Prediction Guide
No ratings yet
House Price Prediction Guide
32 pages
Atangana
No ratings yet
Atangana
16 pages
7com1078 Cap Mock 2021
No ratings yet
7com1078 Cap Mock 2021
2 pages
Cruz Et Al. - 2023 - Low-Rank Motion Correction For Accelerated Free-Br
No ratings yet
Cruz Et Al. - 2023 - Low-Rank Motion Correction For Accelerated Free-Br
15 pages
100days of Code
No ratings yet
100days of Code
6 pages
Assessment Record 2024-2025
No ratings yet
Assessment Record 2024-2025
12 pages
Barnouw - Vico and The Continuity of Science
No ratings yet
Barnouw - Vico and The Continuity of Science
13 pages
X Holiday Homework 2025-26
No ratings yet
X Holiday Homework 2025-26
3 pages
Reinforcement Learning: Amulya Viswambaran (202090007) Kehkashan Fatima (202090202) Sruthi Krishnan (202090333)
No ratings yet
Reinforcement Learning: Amulya Viswambaran (202090007) Kehkashan Fatima (202090202) Sruthi Krishnan (202090333)
40 pages
Impact of PM Comprtrncied Emotional Intelligence & Transformation Leadership On Project Success
No ratings yet
Impact of PM Comprtrncied Emotional Intelligence & Transformation Leadership On Project Success
13 pages
Residual Offset in Silicon Hall-Effect Sensor Analytical Formula Stress Effects and Implications For Octagonal Hall Plate Geometry
No ratings yet
Residual Offset in Silicon Hall-Effect Sensor Analytical Formula Stress Effects and Implications For Octagonal Hall Plate Geometry
9 pages
Unit-5 Ai
No ratings yet
Unit-5 Ai
19 pages
Functional Regression Insights
No ratings yet
Functional Regression Insights
7 pages
Allocate 25 Seats For Five States Whose Populations
No ratings yet
Allocate 25 Seats For Five States Whose Populations
3 pages
Reinforcement Learning: Karan Kathpalia
No ratings yet
Reinforcement Learning: Karan Kathpalia
80 pages
Stats Medic - Probability Rules Answer Key
No ratings yet
Stats Medic - Probability Rules Answer Key
2 pages
Reinforcement Learning Note
No ratings yet
Reinforcement Learning Note
16 pages

Day 2 MDPs and Value Functions

Uploaded by

Day 2 MDPs and Value Functions

Uploaded by

Day 2: MDPs & Value Functions

• Understanding the building blocks of

You might also like