Buffer fixes

Ervin Teng · Ervin Teng · commit 2c03d2b544d0 · 2021-02-23T18:25:47.000-05:00
diff --git a/ml-agents/mlagents/trainers/buffer.py b/ml-agents/mlagents/trainers/buffer.py
@@ -160,13 +160,10 @@ def get_batch(
                 )
             if batch_size * training_length > len(self):
                 padding = np.array(self[-1], dtype=np.float32) * self.padding_value
-                return np.array(
-                    [padding] * (training_length - leftover) + self[:], dtype=np.float32
-                )
+                return [padding] * (training_length - leftover) + self[:]
+
             else:
-                return np.array(
-                    self[len(self) - batch_size * training_length :], dtype=np.float32
-                )
+                return self[len(self) - batch_size * training_length :]
         else:
             # The sequences will have overlapping elements
             if batch_size is None:
@@ -182,7 +179,7 @@ def get_batch(
             tmp_list: List[np.ndarray] = []
             for end in range(len(self) - batch_size + 1, len(self) + 1):
                 tmp_list += self[end - training_length : end]
-            return np.array(tmp_list, dtype=np.float32)
+            return tmp_list
 
     def reset_field(self) -> None:
         """
diff --git a/ml-agents/mlagents/trainers/coma/trainer.py b/ml-agents/mlagents/trainers/coma/trainer.py
@@ -222,7 +222,9 @@ def _update_policy(self):
             int(self.hyperparameters.batch_size / self.policy.sequence_length), 1
         )
 
-        advantages = self.update_buffer[BufferKey.ADVANTAGES].get_batch()
+        advantages = np.array(
+            self.update_buffer[BufferKey.ADVANTAGES].get_batch(), dtype=np.float32
+        )
         self.update_buffer[BufferKey.ADVANTAGES].set(
             (advantages - advantages.mean()) / (advantages.std() + 1e-10)
         )

Original file line number	Diff line number	Diff line change
`@@ -222,7 +222,9 @@ def _update_policy(self):`
`222`	`222`	`int(self.hyperparameters.batch_size / self.policy.sequence_length), 1`
`223`	`223`	`)`
`224`	`224`
`225`		`- advantages = self.update_buffer[BufferKey.ADVANTAGES].get_batch()`
	`225`	`+ advantages = np.array(`
	`226`	`+ self.update_buffer[BufferKey.ADVANTAGES].get_batch(), dtype=np.float32`
	`227`	`+ )`
`226`	`228`	`self.update_buffer[BufferKey.ADVANTAGES].set(`
`227`	`229`	`(advantages - advantages.mean()) / (advantages.std() + 1e-10)`
`228`	`230`	`)`