0% found this document useful (0 votes)

94 views46 pages

Policy-Based Reinforcement Learning: Shusen Wang

The document discusses policy-based reinforcement learning. It defines the policy function π(a|s) and uses a neural network policy π(a|s;θ) to approximate the policy. It also defines the state-value function V(s) and uses the policy network to approximate it as V(s;θ) = Σπ(a|s;θ)Q(s,a). The policy gradient is then derived as the derivative of V(s;θ) with respect to θ, which is used to update θ through policy gradient ascent.

Uploaded by

MInh Thanh

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

94 views46 pages

Policy-Based Reinforcement Learning: Shusen Wang

Uploaded by

MInh Thanh

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 46

Policy-Based Reinforcement Learning

Shusen Wang
Policy Function Approximation
Policy Function 𝜋 𝑎 𝑠

• Policy function 𝜋 𝑎 𝑠 is a probability density function (PDF).

• It takes state 𝑠 as input.
• It output the probabilities for all the actions, e.g.,
𝜋 left 𝑠 = 0.2,
𝜋 right 𝑠 = 0.1,
𝜋 up 𝑠 = 0.7.
• Randomly sample action 𝑎 random drawn from the distribution.
Can we directly learn a policy function 𝜋 𝑎 𝑠 ?

• If there are only a few states and actions, then yes, we can.
• Draw a table (matrix) and learn the entries.

Action 𝑎5 Action 𝑎6 Action 𝑎7 Action 𝑎8 ⋯

State 𝑠5
State 𝑠6
State 𝑠7
⋮
Can we directly learn a policy function 𝜋 𝑎 𝑠 ?

• If there are only a few states and actions, then yes, we can.
• Draw a table (matrix) and learn the entries.
• What if there are too many (or infinite) states or actions?

Action 𝑎5 Action 𝑎6 Action 𝑎7 Action 𝑎8 ⋯

State 𝑠5
State 𝑠6
State 𝑠7
⋮
Policy Network 𝜋 𝑎 𝑠; 𝛉
Policy network: Use a neural net to approximate 𝜋 𝑎|𝑠 .
• Use policy network 𝜋 𝑎|𝑠; 𝛉 to approximate 𝜋 𝑎|𝑠 .
• 𝛉: trainable parameters of the neural net.
Policy Network 𝜋 𝑎 𝑠; 𝛉
Policy network: Use a neural net to approximate 𝜋 𝑎|𝑠 .
• Use policy network 𝜋 𝑎|𝑠; 𝛉 to approximate 𝜋 𝑎|𝑠 .
• 𝛉: trainable parameters of the neural net.

“left”, 0.2
Conv Dense Softmax
“right”, 0.1

“up”, 0.7
state 𝑠>
feature
Policy Network 𝜋 𝑎 𝑠; 𝛉

• ∑C∈𝒜 𝜋 𝑎 𝑠; 𝛉 = 1.
• Here, 𝒜 = “left”, “right”, “up” is the set all actions.
• That is why we use softmax activation.

“left”, 0.2
Conv Dense Softmax
“right”, 0.1

“up”, 0.7
state 𝑠>
feature
State-Value Function Approximation
Action-Value Function
Definition: Discounted return.
• 𝑈> = 𝑅> + 𝛾 ⋅ 𝑅>L5 + 𝛾 6 ⋅ 𝑅>L6 + 𝛾 7 ⋅ 𝑅>L7 + ⋯

• The return depends on actions 𝐴> , 𝐴>L5, 𝐴>L6, ⋯ and states 𝑆> , 𝑆>L5, 𝑆>L6, ⋯
• Actions are random: ℙ 𝐴 = 𝑎 | 𝑆 = 𝑠 = 𝜋 𝑎 𝑠 . (Policy function.)
• States are random: ℙ 𝑆 P = 𝑠 P |𝑆 = 𝑠, 𝐴 = 𝑎 = 𝑝 𝑠 P 𝑠, 𝑎 . (State transition.)
Action-Value Function
Definition: Discounted return.
• 𝑈> = 𝑅> + 𝛾 ⋅ 𝑅>L5 + 𝛾 6 ⋅ 𝑅>L6 + 𝛾 7 ⋅ 𝑅>L7 + ⋯

Definition: Action-value function.

• 𝑄S 𝑠> , 𝑎> = 𝔼 𝑈> |𝑆> = 𝑠> , 𝐴> = 𝑎> .

The expectation is taken w.r.t.

actions 𝐴>L5, 𝐴>L6, 𝐴>L7, ⋯
and states 𝑆>L5, 𝑆>L6, 𝑆>L7, ⋯
State-Value Function
Definition: Discounted return.
• 𝑈> = 𝑅> + 𝛾 ⋅ 𝑅>L5 + 𝛾 6 ⋅ 𝑅>L6 + 𝛾 7 ⋅ 𝑅>L7 + ⋯

Definition: Action-value function.

• 𝑄S 𝑠> , 𝑎> = 𝔼 𝑈> |𝑆> = 𝑠> , 𝐴> = 𝑎> .

Definition: State-value function.

• 𝑉S 𝑠> = 𝔼V 𝑄S 𝑠> , 𝐴 = ∑C 𝜋 𝑎 𝑠> ⋅ 𝑄S 𝑠> , 𝑎 .

Integrate out action 𝐴~𝜋(⋅ |𝑠> ).

State-Value Function
Definition: Discounted return.
• 𝑈> = 𝑅> + 𝛾 ⋅ 𝑅>L5 + 𝛾 6 ⋅ 𝑅>L6 + 𝛾 7 ⋅ 𝑅>L7 + ⋯

Definition: Action-value function.

• 𝑄S 𝑠> , 𝑎> = 𝔼 𝑈> |𝑆> = 𝑠> , 𝐴> = 𝑎> .

Definition: State-value function.

• 𝑉S 𝑠> = 𝔼V 𝑄S 𝑠> , 𝐴 = ∑C 𝜋 𝑎 𝑠> ⋅ 𝑄S 𝑠> , 𝑎 .

Integrate out action 𝐴~𝜋(⋅ |𝑠> ).

Policy-Based Reinforcement Learning

Definition: State-value function.

• 𝑉S 𝑠> = 𝔼V 𝑄S 𝑠> , 𝐴 = ∑C 𝜋 𝑎 𝑠> ⋅ 𝑄S 𝑠> , 𝑎 .
Policy-Based Reinforcement Learning
Definition: State-value function.
• 𝑉S 𝑠> = 𝔼V 𝑄S 𝑠> , 𝐴 = ∑C 𝜋 𝑎 𝑠> ⋅ 𝑄S 𝑠> , 𝑎 .

Approximate state-value function.

• Approximate policy function 𝜋 𝑎 𝑠> by policy network 𝜋 𝑎|𝑠> ; 𝛉 .
Policy-Based Reinforcement Learning
Definition: State-value function.
• 𝑉S 𝑠> = 𝔼V 𝑄S 𝑠> , 𝐴 = ∑C 𝜋 𝑎 𝑠> ⋅ 𝑄S 𝑠> , 𝑎 .

Approximate state-value function.

• Approximate policy function 𝜋 𝑎 𝑠> by policy network 𝜋 𝑎|𝑠> ; 𝛉 .
• Approximate value function 𝑉S 𝑠> by:
𝑉 𝑠> ; 𝛉 = ∑C 𝜋 𝑎 𝑠> ; 𝛉 ⋅ 𝑄S 𝑠> , 𝑎 .
Policy-Based Reinforcement Learning
Definition: Approximate state-value function.
• 𝑉 𝑠; 𝛉 = ∑C 𝜋 𝑎 𝑠; 𝛉 ⋅ 𝑄S 𝑠, 𝑎 .

Policy-based learning: Learn 𝛉 that maximizes 𝐽 𝛉 = 𝔼[ 𝑉 𝑆; 𝛉 .

Policy-Based Reinforcement Learning
Definition: Approximate state-value function.
• 𝑉 𝑠; 𝛉 = ∑C 𝜋 𝑎 𝑠; 𝛉 ⋅ 𝑄S 𝑠, 𝑎 .

Policy-based learning: Learn 𝛉 that maximizes 𝐽 𝛉 = 𝔼[ 𝑉 𝑆; 𝛉 .

How to improve 𝛉? Policy gradient ascent!

• Observe state 𝑠.
^ _ `;𝛉
• Update policy by: 𝛉 ← 𝛉 + 𝛽 ⋅ .
^ 𝛉

Policy gradient
Policy Gradient

Reference

• Sutton and others: Policy gradient methods for reinforcement learning with function approximation. In NIPS,
2000.
Policy Gradient
Definition: Approximate state-value function.
• 𝑉 𝑠; 𝛉 = ∑C 𝜋 𝑎 𝑠; 𝛉 ⋅ 𝑄S 𝑠, 𝑎 .

Policy gradient: Derivative of 𝑉 𝑠; 𝛉 w.r.t. 𝛉.

^ _ `;𝛉 ^S(C|`;𝛉)⋅ab `,C ^S(C|`;𝛉)
• = ∑C = ∑C ⋅ 𝑄S 𝑠, 𝑎
^ 𝛉 ^ 𝛉 ^ 𝛉
Policy Gradient
Definition: Approximate state-value function.
• 𝑉 𝑠; 𝛉 = ∑C 𝜋 𝑎 𝑠; 𝛉 ⋅ 𝑄S 𝑠, 𝑎 .

Policy gradient: Derivative of 𝑉 𝑠; 𝛉 w.r.t. 𝛉.

^ _ `;𝛉 ^ ∑c S C|`;𝛉 ⋅ab `,C
• =
^ 𝛉 ^ 𝛉

Policy Gradient
Definition: Approximate state-value function.
• 𝑉 𝑠; 𝛉 = ∑C 𝜋 𝑎 𝑠; 𝛉 ⋅ 𝑄S 𝑠, 𝑎 .

Policy gradient: Derivative of 𝑉 𝑠; 𝛉 w.r.t. 𝛉.

^ _ `;𝛉 ^ ∑c S C|`;𝛉 ⋅ab `,C
• =
^ 𝛉 ^ 𝛉
^S(C|`;𝛉)⋅ab `,C
= ∑C Push derivative inside the summation
^ 𝛉

Policy Gradient
Definition: Approximate state-value function.
• 𝑉 𝑠; 𝛉 = ∑C 𝜋 𝑎 𝑠; 𝛉 ⋅ 𝑄S 𝑠, 𝑎 .

Policy gradient: Derivative of 𝑉 𝑠; 𝛉 w.r.t. 𝛉.

^ _ `;𝛉 ^ ∑c S C|`;𝛉 ⋅ab `,C
• =
^ 𝛉 ^ 𝛉
^S(C|`;𝛉)⋅ab `,C
= ∑C
^ 𝛉
^S(C|`;𝛉) Pretend 𝑄S is independent of 𝛉.
= ∑C ⋅ 𝑄S 𝑠, 𝑎
^ 𝛉 (It may not be true.)

Policy Gradient
Definition: Approximate state-value function.
• 𝑉 𝑠; 𝛉 = ∑C 𝜋 𝑎 𝑠; 𝛉 ⋅ 𝑄S 𝑠, 𝑎 .

Policy gradient: Derivative of 𝑉 𝑠; 𝛉 w.r.t. 𝛉.

^ _ `;𝛉 ^S(C|`;𝛉)
• = ∑C ⋅ 𝑄S 𝑠, 𝑎 Policy Gradient
^ 𝛉 ^ 𝛉

Policy Gradient
Definition: Approximate state-value function.
• 𝑉 𝑠; 𝛉 = ∑C 𝜋 𝑎 𝑠; 𝛉 ⋅ 𝑄S 𝑠, 𝑎 .

Policy gradient: Derivative of 𝑉 𝑠; 𝛉 w.r.t. 𝛉.

^ _ `;𝛉 ^S(C|`;𝛉)
• = ∑C ⋅ 𝑄S 𝑠, 𝑎 Policy Gradient
^ 𝛉 ^ 𝛉

Note: This derivation is over-simplified and not rigorous.

Policy Gradient
Definition: Approximate state-value function.
• 𝑉 𝑠; 𝛉 = ∑C 𝜋 𝑎 𝑠; 𝛉 ⋅ 𝑄S 𝑠, 𝑎 .

Policy gradient: Derivative of 𝑉 𝑠; 𝛉 w.r.t. 𝛉.

^ _ `;𝛉 ^S(C|`;𝛉)
• = ∑C ⋅ 𝑄S 𝑠, 𝑎
^ 𝛉 ^ 𝛉
^ def S(C|`;𝛉)
= ∑C 𝜋 𝑎 𝑠; 𝛉 ⋅ ⋅ 𝑄S 𝑠, 𝑎
^ 𝛉
Policy Gradient
Definition: Approximate state-value function.
• 𝑉 𝑠; 𝛉 = ∑C 𝜋 𝑎 𝑠; 𝛉 ⋅ 𝑄S 𝑠, 𝑎 .

Policy gradient: Derivative of 𝑉 𝑠; 𝛉 w.r.t. 𝛉.

^ _ `;𝛉 ^S(C|`;𝛉)
• = ∑C ⋅ 𝑄S 𝑠, 𝑎
^ 𝛉 ^ 𝛉
^ def S(C|`;𝛉)
= ∑C 𝜋 𝑎 𝑠; 𝛉 ⋅ ⋅ 𝑄S 𝑠, 𝑎
^ 𝛉

^ def S 𝛉 5 ^ S 𝛉
• Chain rule: = ⋅ .
^𝛉 S 𝛉 ^ 𝛉
Policy Gradient
Definition: Approximate state-value function.
• 𝑉 𝑠; 𝛉 = ∑C 𝜋 𝑎 𝑠; 𝛉 ⋅ 𝑄S 𝑠, 𝑎 .

Policy gradient: Derivative of 𝑉 𝑠; 𝛉 w.r.t. 𝛉.

^ _ `;𝛉 ^S(C|`;𝛉)
• = ∑C ⋅ 𝑄S 𝑠, 𝑎
^ 𝛉 ^ 𝛉
^ def S(C|`;𝛉)
= ∑C 𝜋 𝑎 𝑠; 𝛉 ⋅ ⋅ 𝑄S 𝑠, 𝑎
^ 𝛉

^ def S 𝛉 5 ^ S 𝛉
• Chain rule: = ⋅ .
^𝛉 S 𝛉 ^ 𝛉
^ def S 𝛉 5 ^ S 𝛉
• è 𝜋 𝛉 ⋅ =𝜋 𝛉 ⋅ ⋅
^𝛉 S 𝛉 ^ 𝛉
Policy Gradient
Definition: Approximate state-value function.
• 𝑉 𝑠; 𝛉 = ∑C 𝜋 𝑎 𝑠; 𝛉 ⋅ 𝑄S 𝑠, 𝑎 .

Policy gradient: Derivative of 𝑉 𝑠; 𝛉 w.r.t. 𝛉.

^ _ `;𝛉 ^S(C|`;𝛉)
• = ∑C ⋅ 𝑄S 𝑠, 𝑎
^ 𝛉 ^ 𝛉
^ def S(C|`;𝛉)
= ∑C 𝜋 𝑎 𝑠; 𝛉 ⋅ ⋅ 𝑄S 𝑠, 𝑎
^ 𝛉

^ def S 𝛉 5 ^ S 𝛉
• Chain rule: = ⋅ .
^𝛉 S 𝛉 ^ 𝛉
^ def S 𝛉 5 ^ S 𝛉
• è 𝜋 𝛉 ⋅ =𝜋 𝛉 ⋅ ⋅ .
^𝛉 S 𝛉 ^ 𝛉
Policy Gradient
Definition: Approximate state-value function.
• 𝑉 𝑠; 𝛉 = ∑C 𝜋 𝑎 𝑠; 𝛉 ⋅ 𝑄S 𝑠, 𝑎 .

Policy gradient: Derivative of 𝑉 𝑠; 𝛉 w.r.t. 𝛉.

^ _ `;𝛉 ^S(C|`;𝛉)
• = ∑C ⋅ 𝑄S 𝑠, 𝑎
^ 𝛉 ^ 𝛉
^ def S(C|`;𝛉)
= ∑C 𝜋 𝑎 𝑠; 𝛉 ⋅ ⋅ 𝑄S 𝑠, 𝑎
^ 𝛉

Policy gradient: Derivative of 𝑉 𝑠; 𝛉 w.r.t. 𝛉.

^ _ `;𝛉 ^S(C|`;𝛉)
• = ∑C ⋅ 𝑄S 𝑠, 𝑎
^ 𝛉 ^ 𝛉
^ def S(C|`;𝛉)
= ∑C 𝜋 𝑎 𝑠; 𝛉 ⋅ ⋅ 𝑄S 𝑠, 𝑎
^ 𝛉
^ def S(V|`;𝛉)
= 𝔼V ⋅ 𝑄S 𝑠, 𝐴 .
^ 𝛉

The expectation is taken w.r.t. the random variable 𝐴~𝜋(⋅ |𝑠; 𝛉).
Policy Gradient

Policy gradient:
^ _ `;𝛉 ^ def S(V|`,𝛉)
= 𝔼V~S(⋅|`;𝛉) ⋅ 𝑄S 𝑠, 𝐴 .
^ 𝛉 ^ 𝛉
Calculate Policy Gradient

^ _ `;𝛉 ^ def S(V|`,𝛉)

Policy Gradient: = 𝔼V~S(⋅|`;𝛉) ⋅ 𝑄S 𝑠, 𝐴 .
^ 𝛉 ^ 𝛉
Calculate Policy Gradient

^ _ `;𝛉 ^ def S(V|`,𝛉)

Policy Gradient: = 𝔼V~S(⋅|`;𝛉) ⋅ 𝑄S 𝑠, 𝐴 .
^ 𝛉 ^ 𝛉

1. Randomly sample an action 𝑎g according to 𝜋(⋅ |𝑠; 𝛉).

Calculate Policy Gradient

^ _ `;𝛉 ^ def S(V|`,𝛉)

Policy Gradient: = 𝔼V~S(⋅|`;𝛉) ⋅ 𝑄S 𝑠, 𝐴 .
^ 𝛉 ^ 𝛉

1. Randomly sample an action 𝑎g according to 𝜋(⋅ |𝑠; 𝛉).

^ def S(Cg|`;𝛉)
2. Calculate 𝐠 𝑎g, 𝛉 = ⋅ 𝑄S 𝑠, 𝑎g .
^ 𝛉

^ _ `;𝛉
• By the definition of 𝐠, 𝔼V 𝐠 𝐴, 𝛉 = .
^ 𝛉
^ _ `;𝛉
• 𝐠 𝑎g, 𝛉 is an unbiased estimate of .
^ 𝛉
Calculate Policy Gradient

^ _ `;𝛉 ^ def S(V|`,𝛉)

Policy Gradient: = 𝔼V~S(⋅|`;𝛉) ⋅ 𝑄S 𝑠, 𝐴 .
^ 𝛉 ^ 𝛉

1. Randomly sample an action 𝑎g according to 𝜋(⋅ |𝑠; 𝛉).

^ def S(Cg|`;𝛉)
2. Calculate 𝐠 𝑎g, 𝛉 = ⋅ 𝑄S 𝑠, 𝑎g .
^ 𝛉
^ _ `;𝛉
3. Use 𝐠 𝑎g, 𝛉 as an approximation to the policy gradient .
^ 𝛉
Update policy network using policy gradient
Algorithm

1. Observe the state 𝑠> .

2. Randomly sample action 𝑎> according to 𝜋 ⋅ 𝑠> ; 𝛉> .
Algorithm

1. Observe the state 𝑠> .

2. Randomly sample action 𝑎> according to 𝜋 ⋅ 𝑠> ; 𝛉> .
3. Compute 𝑞> ≈ 𝑄S 𝑠> , 𝑎> (some estimate).
^ def S(Cm |`m ,𝛉)
4. Differentiate policy network: 𝐝l,> = ￨𝛉n𝛉m .
^ 𝛉
Algorithm

1. Observe the state 𝑠> .

2. Randomly sample action 𝑎> according to 𝜋 ⋅ 𝑠> ; 𝛉> .
3. Compute 𝑞> ≈ 𝑄S 𝑠> , 𝑎> (some estimate).
^ def S(Cm |`m ,𝛉)
4. Differentiate policy network: 𝐝l,> = ￨𝛉n𝛉m .
^ 𝛉
5. (Approximate) policy gradient: 𝐠 𝑎> , 𝛉> = 𝑞> ⋅ 𝐝l,> .
6. Update policy network: 𝛉>L5 = 𝛉> + 𝛽 ⋅ 𝐠 𝑎> , 𝛉> .
Algorithm

1. Observe the state 𝑠> .

2. Randomly sample action 𝑎> according to 𝜋 ⋅ 𝑠> ; 𝛉> .
3. Compute 𝑞> ≈ 𝑄S 𝑠> , 𝑎> (some estimate). How?
^ def S(Cm |`m ,𝛉)
4. Differentiate policy network: 𝐝l,> = ￨𝛉n𝛉m .
^ 𝛉
5. (Approximate) policy gradient: 𝐠 𝑎> , 𝛉> = 𝑞> ⋅ 𝐝l,> .
6. Update policy network: 𝛉>L5 = 𝛉> + 𝛽 ⋅ 𝐠 𝑎> , 𝛉> .
Algorithm

1. Observe the state 𝑠> .

2. Randomly sample action 𝑎> according to 𝜋 ⋅ 𝑠> ; 𝛉> .
3. Compute 𝑞> ≈ 𝑄S 𝑠> , 𝑎> (some estimate). How?
^ def S(Cm |`m ,𝛉)
4. Differentiate policy network: 𝐝l,> = ￨𝛉n𝛉m .
Option 1: REINFORCE. ^ 𝛉
5. (Stochastic) policy gradient: 𝐠o 𝛉> ≈ 𝑞> ⋅ 𝐝l,> .
• Play the game to the end and generate the trajectory:
6. Update policy network: 𝛉>L5 = 𝛉> + 𝛽 ⋅ 𝐠o 𝛉> .
𝑠5 , 𝑎5 , 𝑟5 , 𝑠6 , 𝑎6 , 𝑟6 , ⋯ , 𝑠q , 𝑎 q , 𝑟q .
• Compute the discounted return 𝑢> = ∑qsn> 𝛾 st> 𝑟s , for all 𝑡.
• Since 𝑄S 𝑠> , 𝑎> = 𝔼 𝑈> , we can use 𝑢> to approximate 𝑄S 𝑠> , 𝑎> .
• è Use 𝑞> = 𝑢> .
Algorithm

1. Observe the state 𝑠> .

2. Randomly sample action 𝑎> according to 𝜋 ⋅ 𝑠> ; 𝛉> .
3. Compute 𝑞> ≈ 𝑄S 𝑠> , 𝑎> (some estimate). How?
^ def S(Cm |`m ,𝛉)
4. Differentiate policy network: 𝐝l,> = ￨𝛉n𝛉m .
Option 2: Approximate 𝑄S using a neural^ 𝛉network.
5. (Stochastic) policy gradient: 𝐠o 𝛉> ≈ 𝑞> ⋅ 𝐝l,> .
• This leads to the actor-critic method.
6. Update policy network: 𝛉>L5 = 𝛉> + 𝛽 ⋅ 𝐠o 𝛉> .
Summary
Policy-Based Learning

• If a good policy function 𝜋 is known, the agent can be controlled

by the policy: randomly sample 𝑎> ∼ 𝜋 ⋅ 𝑠> .
• Approximate policy function 𝜋 𝑎 𝑠 by policy network 𝜋 𝑎 𝑠; 𝛉 .
• Learn the policy network by policy gradient algorithm.
• Policy gradient algorithm learn 𝛉 that maximizes 𝔼[ 𝑉 𝑆; 𝛉 .
Thank you!

13 RL 3
No ratings yet
13 RL 3
48 pages
402 Lec20
No ratings yet
402 Lec20
21 pages
13 RL 4
No ratings yet
13 RL 4
48 pages
Introduction To RL
No ratings yet
Introduction To RL
64 pages
L9 - Policy Gradient Methods
No ratings yet
L9 - Policy Gradient Methods
43 pages
Book All in One
No ratings yet
Book All in One
288 pages
Book All-In-One 2
No ratings yet
Book All-In-One 2
281 pages
RL Week - 3 - 4
No ratings yet
RL Week - 3 - 4
33 pages
Reinforcement Learning: B.Tech., Last Year, Semester-Viii
No ratings yet
Reinforcement Learning: B.Tech., Last Year, Semester-Viii
32 pages
RL 5
No ratings yet
RL 5
26 pages
Home Work of Reinforcement Learning Policy Based Theory
No ratings yet
Home Work of Reinforcement Learning Policy Based Theory
10 pages
2023 Week5 Policy
No ratings yet
2023 Week5 Policy
62 pages
ml4r 2025 06
No ratings yet
ml4r 2025 06
16 pages
13 RL 1
No ratings yet
13 RL 1
68 pages
Dis9 Sol
No ratings yet
Dis9 Sol
8 pages
Lecture 12 Slides - After
No ratings yet
Lecture 12 Slides - After
50 pages
5SC28 Machine Learning For Systems and Control
No ratings yet
5SC28 Machine Learning For Systems and Control
68 pages
Ar514 MDP
No ratings yet
Ar514 MDP
27 pages
Policy Gradient
No ratings yet
Policy Gradient
33 pages
Policy Approximation Document
No ratings yet
Policy Approximation Document
2 pages
Lec 5 Policy Gradients
No ratings yet
Lec 5 Policy Gradients
40 pages
Fa Ii
No ratings yet
Fa Ii
62 pages
3 - Chapter 9 Policy Gradient Methods
No ratings yet
3 - Chapter 9 Policy Gradient Methods
24 pages
Paper RL
No ratings yet
Paper RL
61 pages
Reinforcement Learning Lec12
No ratings yet
Reinforcement Learning Lec12
60 pages
Silver 14
No ratings yet
Silver 14
9 pages
COMP 4901Z: Reinforcement Learning: 2.3 Value Function Approximation
No ratings yet
COMP 4901Z: Reinforcement Learning: 2.3 Value Function Approximation
55 pages
Unit 5 - Policy Based
No ratings yet
Unit 5 - Policy Based
30 pages
Policy Gradient Methods-BR
No ratings yet
Policy Gradient Methods-BR
14 pages
Unit7 RL
No ratings yet
Unit7 RL
7 pages
10 - Reinforcement Learning
No ratings yet
10 - Reinforcement Learning
24 pages
Model Building Approach
No ratings yet
Model Building Approach
7 pages
RL 3
No ratings yet
RL 3
31 pages
Lecture Notes RL
No ratings yet
Lecture Notes RL
14 pages
12 ML Reinforcement Learning Value Based Control
No ratings yet
12 ML Reinforcement Learning Value Based Control
12 pages
2022 Streaming Summit Netflix
No ratings yet
2022 Streaming Summit Netflix
100 pages
5 - Policy Gradient Methods
No ratings yet
5 - Policy Gradient Methods
57 pages
1 - Table of Contents
No ratings yet
1 - Table of Contents
6 pages
Siamese Network: Shusen Wang
No ratings yet
Siamese Network: Shusen Wang
51 pages
Reinforcement Learning I
No ratings yet
Reinforcement Learning I
85 pages
Conservative Policy Iteration Guide
No ratings yet
Conservative Policy Iteration Guide
75 pages
Seq2Seq Neural Machine Translation
No ratings yet
Seq2Seq Neural Machine Translation
57 pages
Value Function Approximation SEO Guide
No ratings yet
Value Function Approximation SEO Guide
59 pages
Convolutional Neural Networks: Shusen Wang
No ratings yet
Convolutional Neural Networks: Shusen Wang
75 pages
Deep Q-Networks for RL Experts
No ratings yet
Deep Q-Networks for RL Experts
53 pages
RNN + RL: Shusen Wang
No ratings yet
RNN + RL: Shusen Wang
51 pages
Common CNN Architectures: Shusen Wang
No ratings yet
Common CNN Architectures: Shusen Wang
67 pages
Text Generation: Shusen Wang
No ratings yet
Text Generation: Shusen Wang
49 pages
9 Sqoop Notes
No ratings yet
9 Sqoop Notes
35 pages
Intro to Policy Optimization
No ratings yet
Intro to Policy Optimization
10 pages
Chapter 13: Policy Gradient Methods: by Richard Sutton and Andrew Barto
No ratings yet
Chapter 13: Policy Gradient Methods: by Richard Sutton and Andrew Barto
35 pages
Few-Shot Learning Explained
No ratings yet
Few-Shot Learning Explained
42 pages
RNNs for Sequential Data Modeling
No ratings yet
RNNs for Sequential Data Modeling
33 pages
cs3235 3 PDF
No ratings yet
cs3235 3 PDF
142 pages
Policy Gradient Methods Guide
No ratings yet
Policy Gradient Methods Guide
28 pages
Solving Simultaneous Equations
No ratings yet
Solving Simultaneous Equations
3 pages
Lecture 7: Policy Gradient: David Silver
No ratings yet
Lecture 7: Policy Gradient: David Silver
41 pages
Policy Gradient Methods
No ratings yet
Policy Gradient Methods
70 pages
Deep Reinforcement Learning: 1 Notation
No ratings yet
Deep Reinforcement Learning: 1 Notation
9 pages
Convex Function vs. Nonconvex Function: A Little Bit Theory: Shusen Wang
No ratings yet
Convex Function vs. Nonconvex Function: A Little Bit Theory: Shusen Wang
23 pages
Neural Architecture Search Guide
No ratings yet
Neural Architecture Search Guide
20 pages
Deep Reinforcement Learning
No ratings yet
Deep Reinforcement Learning
93 pages
CS 188 Fall 2018 Written HW4 Soln
No ratings yet
CS 188 Fall 2018 Written HW4 Soln
6 pages
Data Poisoning Attacks: Shusen Wang
No ratings yet
Data Poisoning Attacks: Shusen Wang
17 pages
CS229
No ratings yet
CS229
17 pages
Cs229-Notes12 Reinforcement in Control
No ratings yet
Cs229-Notes12 Reinforcement in Control
17 pages
Assignment 2 - Policy Gradients
No ratings yet
Assignment 2 - Policy Gradients
7 pages
Reinforcement Learning Basics
No ratings yet
Reinforcement Learning Basics
7 pages
DM Mod4
No ratings yet
DM Mod4
108 pages
An Introduction To Policy Search Methods: Thomas Furmston
No ratings yet
An Introduction To Policy Search Methods: Thomas Furmston
33 pages
3 - Discrete-Time Systems
No ratings yet
3 - Discrete-Time Systems
61 pages
RL-UNIT2 - RL Unit 2 RL-UNIT2 - RL Unit 2
No ratings yet
RL-UNIT2 - RL Unit 2 RL-UNIT2 - RL Unit 2
23 pages
Numerical Methods-FINALS
No ratings yet
Numerical Methods-FINALS
4 pages
Reinforcement Learning and Control: CS229 Lecture Notes
No ratings yet
Reinforcement Learning and Control: CS229 Lecture Notes
15 pages
Data Structure Questions
No ratings yet
Data Structure Questions
13 pages
SSNAO Dupliant
No ratings yet
SSNAO Dupliant
9 pages
07 Deep Reinforcement Learning (John)
No ratings yet
07 Deep Reinforcement Learning (John)
52 pages
A Survey On Kolmogorov-Arnold Networks
No ratings yet
A Survey On Kolmogorov-Arnold Networks
35 pages
New CZ3005 Module 4 - Markov Decision Process
No ratings yet
New CZ3005 Module 4 - Markov Decision Process
38 pages
Dmouj
No ratings yet
Dmouj
40 pages
ATC - Detailed PPT - Power Systems
No ratings yet
ATC - Detailed PPT - Power Systems
10 pages
Lesson 11 Multiple Linear Regression
No ratings yet
Lesson 11 Multiple Linear Regression
35 pages
Asymptotic Analysis of Algorithms
No ratings yet
Asymptotic Analysis of Algorithms
29 pages
Drives Training Foils: PID - Closed Loop Control
No ratings yet
Drives Training Foils: PID - Closed Loop Control
18 pages
Thermodynamics for Students
No ratings yet
Thermodynamics for Students
19 pages
Smart Meter Data for Load Forecasting
No ratings yet
Smart Meter Data for Load Forecasting
22 pages
DPCM
No ratings yet
DPCM
2 pages
AICTE Model Curriculum of Courses at UG Level in Emerging Areas
No ratings yet
AICTE Model Curriculum of Courses at UG Level in Emerging Areas
38 pages
Variational Method & Perturbation Theory
No ratings yet
Variational Method & Perturbation Theory
2 pages
The Lagrangian Relaxation Method For Solving Integer Programming Problems
No ratings yet
The Lagrangian Relaxation Method For Solving Integer Programming Problems
12 pages
Core Pure 1 - Aiming For A Star Annotated
No ratings yet
Core Pure 1 - Aiming For A Star Annotated
21 pages
Turtle Programming - Encryption in Python Final PDF
No ratings yet
Turtle Programming - Encryption in Python Final PDF
14 pages
2022 Errachdi IntroToDigiC
No ratings yet
2022 Errachdi IntroToDigiC
30 pages
Iarjset 2024 11739
No ratings yet
Iarjset 2024 11739
4 pages
Introduction To Minor Programme 2021
No ratings yet
Introduction To Minor Programme 2021
9 pages
Conver Flat File Into Staing Area
No ratings yet
Conver Flat File Into Staing Area
1 page
Monitoring and Controlling of A Real-Time Ball Beam Fuzzy Predicting Based On PLC Network and Information Technologies
No ratings yet
Monitoring and Controlling of A Real-Time Ball Beam Fuzzy Predicting Based On PLC Network and Information Technologies
8 pages
VFC 4
No ratings yet
VFC 4
3 pages
TECHNICAL ASSESSMENT-batch4
No ratings yet
TECHNICAL ASSESSMENT-batch4
3 pages
Wiley - Interscience.introduction - To.digital - Signal.processing - And.filter - Design.oct.2005.ebook LinG
90% (10)
Wiley - Interscience.introduction - To.digital - Signal.processing - And.filter - Design.oct.2005.ebook LinG
440 pages

Policy-Based Reinforcement Learning: Shusen Wang

Uploaded by

Policy-Based Reinforcement Learning: Shusen Wang

Uploaded by

Policy-Based Reinforcement Learning

• Policy function 𝜋 𝑎 𝑠 is a probability density function (PDF).

Action 𝑎5 Action 𝑎6 Action 𝑎7 Action 𝑎8 ⋯

Action 𝑎5 Action 𝑎6 Action 𝑎7 Action 𝑎8 ⋯

Definition: Action-value function.

The expectation is taken w.r.t.

Definition: Action-value function.

Definition: State-value function.

Integrate out action 𝐴~𝜋(⋅ |𝑠> ).

Definition: Action-value function.

Definition: State-value function.

Integrate out action 𝐴~𝜋(⋅ |𝑠> ).

Definition: State-value function.

Approximate state-value function.

Approximate state-value function.

Policy-based learning: Learn 𝛉 that maximizes 𝐽 𝛉 = 𝔼[ 𝑉 𝑆; 𝛉 .

Policy-based learning: Learn 𝛉 that maximizes 𝐽 𝛉 = 𝔼[ 𝑉 𝑆; 𝛉 .

How to improve 𝛉? Policy gradient ascent!

Policy gradient: Derivative of 𝑉 𝑠; 𝛉 w.r.t. 𝛉.

Policy gradient: Derivative of 𝑉 𝑠; 𝛉 w.r.t. 𝛉.

Policy gradient: Derivative of 𝑉 𝑠; 𝛉 w.r.t. 𝛉.

Policy gradient: Derivative of 𝑉 𝑠; 𝛉 w.r.t. 𝛉.

Policy gradient: Derivative of 𝑉 𝑠; 𝛉 w.r.t. 𝛉.

Policy gradient: Derivative of 𝑉 𝑠; 𝛉 w.r.t. 𝛉.

Note: This derivation is over-simplified and not rigorous.

Policy gradient: Derivative of 𝑉 𝑠; 𝛉 w.r.t. 𝛉.

Policy gradient: Derivative of 𝑉 𝑠; 𝛉 w.r.t. 𝛉.

Policy gradient: Derivative of 𝑉 𝑠; 𝛉 w.r.t. 𝛉.

Policy gradient: Derivative of 𝑉 𝑠; 𝛉 w.r.t. 𝛉.

Policy gradient: Derivative of 𝑉 𝑠; 𝛉 w.r.t. 𝛉.

Policy gradient: Derivative of 𝑉 𝑠; 𝛉 w.r.t. 𝛉.

^ _ `;𝛉 ^ def S(V|`,𝛉)

^ _ `;𝛉 ^ def S(V|`,𝛉)

1. Randomly sample an action 𝑎g according to 𝜋(⋅ |𝑠; 𝛉).

^ _ `;𝛉 ^ def S(V|`,𝛉)

1. Randomly sample an action 𝑎g according to 𝜋(⋅ |𝑠; 𝛉).

^ _ `;𝛉 ^ def S(V|`,𝛉)

1. Randomly sample an action 𝑎g according to 𝜋(⋅ |𝑠; 𝛉).

1. Observe the state 𝑠> .

1. Observe the state 𝑠> .

1. Observe the state 𝑠> .

1. Observe the state 𝑠> .

1. Observe the state 𝑠> .

1. Observe the state 𝑠> .

• If a good policy function 𝜋 is known, the agent can be controlled

You might also like