Vector Env1

Yonv1943 · web-flow · commit 43e80e24e58c · 2021-05-30T18:50:24.000+08:00
diff --git a/ElegantRL/agent.py b/ElegantRL/agent.py
@@ -530,6 +530,11 @@ def select_action(self, state):
         actions, noises = self.act.get_action(states)  # plan to be get_action_a_noise
         return actions[0].detach().cpu().numpy(), noises[0].detach().cpu().numpy()
 
+    def select_actions(self, states):
+        # states = torch.as_tensor((state,), dtype=torch.float32, device=self.device)
+        actions, noises = self.act.get_action(states)  # plan to be get_action_a_noise
+        return actions, noises
+
     def explore_env(self, env, target_step, reward_scale, gamma):
         trajectory_list = list()
 
@@ -544,20 +549,97 @@ def explore_env(self, env, target_step, reward_scale, gamma):
         self.state = state
         return trajectory_list
 
+    def explore_envs(self, env, target_step, reward_scale, gamma):
+        state = self.state
+        env_num = env.env_num
+
+        buf_step = target_step // env_num
+        states = torch.empty((buf_step, env_num, env.state_dim), dtype=torch.float32, device=self.device)
+        actions = torch.empty((buf_step, env_num, env.action_dim), dtype=torch.float32, device=self.device)
+        noises = torch.empty((buf_step, env_num, env.action_dim), dtype=torch.float32, device=self.device)
+        rewards = torch.empty((buf_step, env_num), dtype=torch.float32, device=self.device)
+        dones = torch.empty((buf_step, env_num), dtype=torch.float32, device=self.device)
+        for i in range(buf_step):
+            action, noise = self.select_actions(state)
+            next_s, reward, done, _ = env.step(action.tanh())
+            # other = (reward * reward_scale, 0.0 if done else gamma, *action, *noise)
+            # trajectory_list.append((state, other))
+
+            states[i] = state
+            actions[i] = action
+            noises[i] = noise
+            rewards[i] = reward
+            dones[i] = done
+
+            # state = env.reset() if done else next_s
+            state = next_s
+        self.state = state
+        rewards = rewards * reward_scale
+        masks = (1 - dones) * gamma
+        return states, rewards, masks, actions, noises
+
+    def prepare_buffer(self, buffer):
+        buffer.update_now_len()
+        buf_len = buffer.now_len
+        with torch.no_grad():  # compute reverse reward
+            reward, mask, action, a_noise, state = buffer.sample_all()
+
+            # print(';', [t.shape for t in (reward, mask, action, a_noise, state)])
+            bs = 2 ** 10  # set a smaller 'BatchSize' when out of GPU memory.
+            value = torch.cat([self.cri_target(state[i:i + bs]) for i in range(0, state.size(0), bs)], dim=0).squeeze(1)
+            logprob = self.act.get_old_logprob(action, a_noise)
+
+            pre_state = torch.as_tensor((self.state,), dtype=torch.float32, device=self.device)
+            pre_r_sum = self.cri_target(pre_state).detach()
+            r_sum, advantage = self.get_reward_sum(buf_len, reward, mask, value, pre_r_sum)
+        buffer.empty_buffer()
+        return state, action, r_sum, logprob, advantage
+
+    def prepare_buffers(self, buffer):
+        with torch.no_grad():  # compute reverse reward
+            states, rewards, masks, actions, noises = buffer
+            buf_len = states.size(0)
+            env_num = states.size(1)
+
+            values = torch.empty_like(rewards)
+            logprobs = torch.empty_like(rewards)
+            bs = 2 ** 10  # set a smaller 'BatchSize' when out of GPU memory.
+            for j in range(env_num):
+                for i in range(0, buf_len, bs):
+                    values[i:i + bs, j] = self.cri_target(states[i:i + bs, j]).squeeze(1)
+                logprobs[:, j] = self.act.get_old_logprob(actions[:, j], noises[:, j]).squeeze(1)
+
+            pre_states = torch.as_tensor(self.state, dtype=torch.float32, device=self.device)
+            pre_r_sums = self.cri_target(pre_states).detach().squeeze(1)
+
+            r_sums, advantages = self.get_reward_sum((buf_len, env_num), rewards, masks, values, pre_r_sums)
+
+        buf_len_vec = buf_len * env_num
+
+        states = states.view((buf_len_vec, -1))
+        actions = actions.view((buf_len_vec, -1))
+        r_sums = r_sums.view(buf_len_vec)
+        logprobs = logprobs.view(buf_len_vec)
+        advantages = advantages.view(buf_len_vec)
+        return states, actions, r_sums, logprobs, advantages
+
     def update_net(self, buffer, batch_size, repeat_times, soft_update_tau):
         if isinstance(buffer, list):
             buffer_tuple = list(map(list, zip(*buffer)))  # 2D-list transpose
             (buf_state, buf_action, buf_r_sum, buf_logprob, buf_advantage
              ) = [torch.cat(tensor_list, dim=0).to(self.device)
                   for tensor_list in buffer_tuple]
-
+        elif isinstance(buffer, tuple):
+            (buf_state, buf_action, buf_r_sum, buf_logprob, buf_advantage
+             ) = buffer
         else:
             (buf_state, buf_action, buf_r_sum, buf_logprob, buf_advantage
-             ) = self.prepare_buffer(buffer, self.state)
+             ) = self.prepare_buffer(buffer)
         buf_len = buf_state.size(0)
 
         '''PPO: Surrogate objective of Trust Region'''
         obj_critic = obj_actor = old_logprob = None
+        r_sum_std = 1  # todo buf_r_sum.std() + 1e-6
         for _ in range(int(buf_len / batch_size * repeat_times)):
             indices = torch.randint(buf_len, size=(batch_size,), requires_grad=False, device=self.device)
 
@@ -576,60 +658,47 @@ def update_net(self, buffer, batch_size, repeat_times, soft_update_tau):
             self.optim_update(self.act_optim, obj_actor)
 
             value = self.cri(state).squeeze(1)  # critic network predicts the reward_sum (Q value) of state
-            obj_critic = self.criterion(value, r_sum)  # / (r_sum.std() + 1e-6)
+            obj_critic = self.criterion(value, r_sum) / r_sum_std
             self.optim_update(self.cri_optim, obj_critic)
             self.soft_update(self.cri_target, self.cri, soft_update_tau) if self.cri_target is not self.cri else None
 
         return obj_critic.item(), obj_actor.item(), old_logprob.mean().item()  # logging_tuple
 
-    def prepare_buffer(self, buffer, state_ary):
-        buffer.update_now_len()
-        buf_len = buffer.now_len
-        with torch.no_grad():  # compute reverse reward
-            reward, mask, action, a_noise, state = buffer.sample_all()
-
-            # print(';', [t.shape for t in (reward, mask, action, a_noise, state)])
-            bs = 2 ** 10  # set a smaller 'BatchSize' when out of GPU memory.
-            value = torch.cat([self.cri_target(state[i:i + bs]) for i in range(0, state.size(0), bs)], dim=0)
-            logprob = self.act.get_old_logprob(action, a_noise)
-
-            pre_state = torch.as_tensor((state_ary,), dtype=torch.float32, device=self.device)
-            pre_r_sum = self.cri(pre_state).detach()
-            r_sum, advantage = self.get_reward_sum(buf_len, reward, mask, value, pre_r_sum)
-        buffer.empty_buffer()
-        return state, action, r_sum, logprob, advantage
-
     def get_reward_sum_raw(self, buf_len, buf_reward, buf_mask, buf_value, pre_r_sum) -> (torch.Tensor, torch.Tensor):
         """compute the excepted discounted episode return
 
         :int buf_len: the length of ReplayBuffer
-        :torch.Tensor buf_reward: buf_reward.shape==(buf_len, 1)
-        :torch.Tensor buf_mask:   buf_mask.shape  ==(buf_len, 1)
-        :torch.Tensor buf_value:  buf_value.shape ==(buf_len, 1)
-        :return torch.Tensor buf_r_sum:      buf_r_sum.shape     ==(buf_len, 1)
+        :torch.Tensor buf_reward: buf_reward.shape==(buf_len, )
+        :torch.Tensor buf_mask:   buf_mask.shape  ==(buf_len, )
+        :torch.Tensor buf_value:  buf_value.shape ==(buf_len, )
+        :torch.Tensor pre_r_sum:  pre_r_sum.shape ==(1, 1)
+        :return torch.Tensor buf_r_sum: buf_r_sum.shape     ==(buf_len, 1)
         :return torch.Tensor buf_advantage:  buf_advantage.shape ==(buf_len, 1)
         """
         buf_r_sum = torch.empty(buf_len, dtype=torch.float32, device=self.device)  # reward sum
-        for i in range(buf_len - 1, -1, -1):
+        the_len = buf_len[0] if isinstance(buf_len, tuple) else buf_len
+        for i in range(the_len - 1, -1, -1):
             buf_r_sum[i] = buf_reward[i] + buf_mask[i] * pre_r_sum
             pre_r_sum = buf_r_sum[i]
-        buf_advantage = buf_r_sum - (buf_mask * buf_value.squeeze(1))
-        buf_advantage = (buf_advantage - buf_advantage.mean()) / (buf_advantage.std() + 1e-5)
+        buf_advantage = buf_r_sum - buf_mask * buf_value
+        buf_advantage = (buf_advantage - buf_advantage.mean())  # todo / (buf_advantage.std() + 1e-5)
         return buf_r_sum, buf_advantage
 
     def get_reward_sum_gae(self, buf_len, buf_reward, buf_mask, buf_value, pre_r_sum) -> (torch.Tensor, torch.Tensor):
         buf_r_sum = torch.empty(buf_len, dtype=torch.float32, device=self.device)  # old policy value
         buf_advantage = torch.empty(buf_len, dtype=torch.float32, device=self.device)  # advantage value
 
-        pre_advantage = pre_r_sum * (np.exp(self.lambda_gae_adv - 0.4) - 1)  # advantage value of previous step
-        for i in range(buf_len - 1, -1, -1):
+        pre_advantage = pre_r_sum * (np.exp(self.lambda_gae_adv - 0.5) - 1)  # advantage value of previous step
+
+        the_len = buf_len[0] if isinstance(buf_len, tuple) else buf_len
+        for i in range(the_len - 1, -1, -1):
             buf_r_sum[i] = buf_reward[i] + buf_mask[i] * pre_r_sum
             pre_r_sum = buf_r_sum[i]
 
             buf_advantage[i] = buf_reward[i] + buf_mask[i] * (pre_advantage - buf_value[i])  # fix a bug here
             pre_advantage = buf_value[i] + buf_advantage[i] * self.lambda_gae_adv
 
-        buf_advantage = (buf_advantage - buf_advantage.mean()) / (buf_advantage.std() + 1e-5)
+        buf_advantage = (buf_advantage - buf_advantage.mean())  # todo / (buf_advantage.std() + 1e-5)
         return buf_r_sum, buf_advantage
 
 
diff --git a/ElegantRL/demo.py b/ElegantRL/demo.py
@@ -1,7 +1,7 @@
 import sys
 
 import gym
-from elegantrl2.env import PreprocessEnv
+from elegantrl2.env import PreprocessEnv, PreprocessVecEnv
 from elegantrl2.run import Arguments, train_and_evaluate, train_and_evaluate_mp
 
 gym.logger.set_level(40)  # Block warning: 'WARN: Box bound precision lowered by casting to float32'
diff --git a/ElegantRL/env.py b/ElegantRL/env.py
@@ -1,5 +1,6 @@
 import os
 import gym
+import torch
 import numpy as np
 # import numpy.random as rd
 from copy import deepcopy
@@ -12,11 +13,11 @@ def __init__(self, env, if_print=True, data_type=np.float32):
         """Preprocess a standard OpenAI gym environment for training.
 
         `object env` a standard OpenAI gym environment, it has env.reset() and env.step()
-        `object if_print` print the information of environment. Such as env_name, state_dim ...
+        `bool if_print` print the information of environment. Such as env_name, state_dim ...
         `object data_type` convert state (sometimes float64) to data_type (float32).
         """
         self.env = gym.make(env) if isinstance(env, str) else env
-        super(PreprocessEnv, self).__init__(self.env)
+        super().__init__(self.env)
 
         (self.env_name, self.state_dim, self.action_dim, self.action_max, self.max_step,
          self.if_discrete, self.target_return) = get_gym_env_info(self.env, if_print)
@@ -86,6 +87,74 @@ def step_norm(self, action) -> (np.ndarray, float, bool, dict):
         return state.astype(self.data_type), reward, done, info
 
 
+class PreprocessVecEnv(gym.Wrapper):
+    def __init__(self, env, env_num, device=torch.device('cuda'),
+                 if_print=True, data_type=torch.float32):
+        """Preprocess a standard OpenAI gym environment for training.
+
+        `object env` a standard OpenAI gym environment, it has env.reset() and env.step()
+        `int env_num` environment number
+        `object device` torch.device('cpu'), torch.device('cuda')
+        `bool if_print` print the information of environment. Such as env_name, state_dim ...
+        `object data_type` convert state (sometimes float64) to data_type (float32).
+        """
+        if isinstance(env, str):
+            env_name = env
+            self.env_list = [gym.make(env_name) for _ in range(env_num)]
+        elif getattr(env, 'env_name', False):
+            env_name = env.env_name
+            self.env_list = [gym.make(env_name) for _ in range(env_num)]
+        else:
+            self.env_list = [deepcopy(env) for _ in range(env_num)]
+        env = self.env_list[0]
+        super().__init__(env)
+
+        (self.env_name, self.state_dim, self.action_dim, self.action_max, self.max_step,
+         self.if_discrete, self.target_return) = get_gym_env_info(env, if_print)
+        self.data_type = data_type
+
+        self.env_num = env_num
+        self.data_type = data_type
+        self.device = device
+
+    def reset(self) -> torch.Tensor:
+        """state = env.reset()
+
+        convert the data type of state from float64 to float32
+
+        return `array state` state.shape==(state_dim, )
+        """
+        state = torch.as_tensor([env.reset() for env in self.env_list],
+                                dtype=self.data_type, device=self.device)
+        return state
+
+    def step(self, actions) -> (torch.Tensor, torch.Tensor, torch.Tensor, dict):
+        """ next_state, reward, done = env.step(action)
+
+        convert the data type of state from float64 to float32,
+        adjust action range to (-action_max, +action_max)
+
+        return `array state`  state.shape==(state_dim, )
+        return `float reward` reward of one step
+        return `bool done` the terminal of an training episode
+        return `dict info` the information save in a dict. OpenAI gym standard. Send a `None` is OK
+        """
+
+        actions = actions.detach().cpu().numpy() * self.action_max
+
+        states = list()
+        rewards = list()
+        dones = list()
+        for i in range(self.env_num):
+            state, reward, done, _ = self.env_list[i].step(actions[i])
+            states.append(self.env_list[i].reset() if done else state)
+            rewards.append(reward)
+            dones.append(done)
+        states, rewards, dones = [torch.as_tensor(t, dtype=self.data_type, device=self.device)
+                                  for t in (states, rewards, dones)]
+        return states, rewards, dones, {}
+
+
 def deepcopy_or_rebuild_env(env):
     try:
         env_eval = deepcopy(env)
diff --git a/ElegantRL/net.py b/ElegantRL/net.py
@@ -215,7 +215,7 @@ def get_new_logprob_entropy(self, state, action):
         return logprob, dist_entropy
 
     def get_old_logprob(self, _action, noise):  # noise = action - a_noise
-        return -(self.a_logstd + self.sqrt_2pi_log + noise.pow(2) * 0.5).sum(1)  # old_logprob
+        return -(self.a_logstd + self.sqrt_2pi_log + noise.pow(2) * 0.5).sum(1, keepdims=True)  # old_logprob
 
 
 class ActorDiscretePPO(nn.Module):
@@ -448,7 +448,7 @@ def get_a_logprob(self, state):  # actor
 
         a_noise_tanh = a_noise.tanh()
         fix_term = (-a_noise_tanh.pow(2) + 1.00001).log()
-        logprob = (noise.pow(2) / 2 + a_std_log + fix_term).sum(1, keepdim=True) + self.log_sqrt_2pi_sum
+        logprob = (noise.pow(2) / 2 + a_std_log + fix_term).sum(1) + self.log_sqrt_2pi_sum
         return a_noise_tanh, logprob
 
     def get_q_logprob(self, state):
diff --git a/ElegantRL/replay.py b/ElegantRL/replay.py
@@ -223,7 +223,7 @@ def sample_batch(self, batch_size) -> list:
         # list_items of reward, mask, action, state, next_state, is_weights (PER)
 
         # return [torch.cat([item[i] for item in list_items], dim=0)
-        #         for i in range(len(list_items[0]))]  # todo need to check
+        #         for i in range(len(list_items[0]))]  # need to check
         list_items = list(map(list, zip(*list_items)))  # 2D-list transpose
         return [torch.cat(item, dim=0) for item in list_items]
 
diff --git a/ElegantRL/run.py b/ElegantRL/run.py