Fixing the analytics side-channel for curriculum learning. (#5586)

cmard · maryamhonari · web-flow · commit 05c027551e29 · 2021-10-18T10:06:33.000-04:00
* Fixing the analytics side-channel for curriculum learning.

* Made a more robust test.

* Update the changelog.

* Update com.unity.ml-agents/CHANGELOG.md

Co-authored-by: Maryam Honari &lt;honari.m94@gmail.com&gt;

Co-authored-by: Maryam Honari &lt;honari.m94@gmail.com&gt;
diff --git a/com.unity.ml-agents/CHANGELOG.md b/com.unity.ml-agents/CHANGELOG.md
@@ -29,6 +29,7 @@ and this project adheres to
     2. env_params.restarts_rate_limit_n (--restarts-rate-limit-n) [default=1]
     3. env_params.restarts_rate_limit_period_s (--restarts-rate-limit-period-s) [default=60]
 ### Bug Fixes
+- Fixed the bug where curriculum learning would crash because of the incorrect run_options parsing. (#5586)
 
 #### com.unity.ml-agents / com.unity.ml-agents.extensions (C#)
 
diff --git a/ml-agents/mlagents/trainers/subprocess_env_manager.py b/ml-agents/mlagents/trainers/subprocess_env_manager.py
@@ -38,7 +38,9 @@
     EnvironmentStats,
     StatsSideChannel,
 )
-from mlagents.training_analytics_side_channel import TrainingAnalyticsSideChannel
+from mlagents.trainers.training_analytics_side_channel import (
+    TrainingAnalyticsSideChannel,
+)
 from mlagents_envs.side_channel.side_channel import SideChannel
 
 
diff --git a/ml-agents/mlagents/trainers/tests/test_training_analytics_side_channel.py b/ml-agents/mlagents/trainers/tests/test_training_analytics_side_channel.py
@@ -0,0 +1,48 @@
+import yaml
+from mlagents.trainers.settings import RunOptions
+from mlagents.trainers.training_analytics_side_channel import (
+    TrainingAnalyticsSideChannel,
+)
+
+test_curriculum_config_yaml = """
+environment_parameters:
+    param_1:
+      curriculum:
+          - name: Lesson1
+            completion_criteria:
+                measure: reward
+                behavior: fake_behavior
+                threshold: 30
+                min_lesson_length: 100
+                require_reset: true
+            value: 1
+          - name: Lesson2
+            completion_criteria:
+                measure: reward
+                behavior: fake_behavior
+                threshold: 60
+                min_lesson_length: 100
+                require_reset: false
+            value: 2
+          - name: Lesson3
+            value:
+                sampler_type: uniform
+                sampler_parameters:
+                    min_value: 1
+                    max_value: 3
+"""
+
+
+def test_sanitize_run_options():
+    run_options = RunOptions.from_dict(yaml.safe_load(test_curriculum_config_yaml))
+    sanitized = TrainingAnalyticsSideChannel._sanitize_run_options(run_options)
+    assert "param_1" not in sanitized["environment_parameters"]
+    assert "fake_behavior" not in sanitized["environment_parameters"]
+    assert (
+        TrainingAnalyticsSideChannel._hash("param_1")
+        in sanitized["environment_parameters"]
+    )
+    level1 = TrainingAnalyticsSideChannel._hash("param_1")
+    assert sanitized["environment_parameters"][level1]["curriculum"][0][
+        "completion_criteria"
+    ]["behavior"] == TrainingAnalyticsSideChannel._hash("fake_behavior")
diff --git a/ml-agents/mlagents/trainers/training_analytics_side_channel.py b/ml-agents/mlagents/trainers/training_analytics_side_channel.py
@@ -74,9 +74,12 @@ def _sanitize_run_options(cls, config: RunOptions) -> Dict[str, Any]:
                 updated_lessons = []
                 for lesson in curriculum["curriculum"]:
                     new_lesson = copy.deepcopy(lesson)
-                    if lesson.has_keys("name"):
+                    if "name" in lesson:
                         new_lesson["name"] = cls._hash(lesson["name"])
-                    if lesson.has_keys("completion_criteria"):
+                    if (
+                        "completion_criteria" in lesson
+                        and lesson["completion_criteria"] is not None
+                    ):
                         new_lesson["completion_criteria"]["behavior"] = cls._hash(
                             new_lesson["completion_criteria"]["behavior"]
                         )

Original file line number	Diff line number	Diff line change
`@@ -38,7 +38,9 @@`
`38`	`38`	`EnvironmentStats,`
`39`	`39`	`StatsSideChannel,`
`40`	`40`	`)`
`41`		`-from mlagents.training_analytics_side_channel import TrainingAnalyticsSideChannel`
	`41`	`+from mlagents.trainers.training_analytics_side_channel import (`
	`42`	`+ TrainingAnalyticsSideChannel,`
	`43`	`+)`
`42`	`44`	`from mlagents_envs.side_channel.side_channel import SideChannel`
`43`	`45`
`44`	`46`