Merge pull request deeplearning4j#957 from KonduitAI/master

treo · web-flow · commit 97888baf2557 · 2020-03-19T15:06:08.000+01:00
Update examples from Dev Repository
diff --git a/rl4j-examples/src/main/java/org/deeplearning4j/examples/rl4j/A3CCartpole.java b/rl4j-examples/src/main/java/org/deeplearning4j/examples/rl4j/A3CCartpole.java
@@ -42,11 +42,11 @@ public class A3CCartpole {
                     200,            //Max step By epoch
                     500000,         //Max step
                     16,              //Number of threads
-                    5,              //t_max
+                    10,              //t_max
                     10,             //num step noop warmup
-                    0.01,           //reward scaling
+                    0.1,           //reward scaling
                     0.99,           //gamma
-                    10.0           //td-error clipping
+                    1.0           //td-error clipping
             );
 
 
diff --git a/rl4j-examples/src/main/java/org/deeplearning4j/examples/rl4j/AsyncNStepCartpole.java b/rl4j-examples/src/main/java/org/deeplearning4j/examples/rl4j/AsyncNStepCartpole.java
@@ -41,12 +41,12 @@ public class AsyncNStepCartpole {
                     200,     //Max step By epoch
                     300000,  //Max step
                     16,      //Number of threads
-                    5,       //t_max
+                    10,       //t_max
                     100,     //target update (hard)
                     10,      //num step noop warmup
-                    0.01,    //reward scaling
+                    0.1,    //reward scaling
                     0.99,    //gamma
-                    100.0,   //td-error clipping
+                    1.0,   //td-error clipping
                     0.1f,    //min epsilon
                     9000     //num step for eps greedy anneal
             );
diff --git a/rl4j-examples/src/main/java/org/deeplearning4j/examples/rl4j/Cartpole.java b/rl4j-examples/src/main/java/org/deeplearning4j/examples/rl4j/Cartpole.java
@@ -46,9 +46,9 @@ public class Cartpole
                     150000, //Max step
                     150000, //Max size of experience replay
                     32,     //size of batches
-                    500,    //target update (hard)
+                    100,    //target update (hard)
                     10,     //num step noop warmup
-                    0.01,   //reward scaling
+                    0.1,   //reward scaling
                     0.99,   //gamma
                     1.0,    //td-error clipping
                     0.1f,   //min epsilon
@@ -58,7 +58,7 @@ public class Cartpole
 
     public static DQNFactoryStdDense.Configuration CARTPOLE_NET =
         DQNFactoryStdDense.Configuration.builder()
-            .l2(0.001).updater(new Adam(0.0005)).numHiddenNodes(16).numLayer(3).build();
+            .updater(new Adam(0.001)).numHiddenNodes(16).numLayer(3).build();
 
     public static void main(String[] args) throws IOException {
         cartPole();