ray-project · sven1977 · Apr 28, 2023 · Apr 28, 2023
diff --git a/release/rllib_tests/learning_tests/todo_tests_currently_not_covered.yaml b/release/rllib_tests/learning_tests/todo_tests_currently_not_covered.yaml
@@ -5,7 +5,7 @@
 #    run: ARS
 #    # Minimum reward and total ts (in given time_total_s) to pass this test.
 #    pass_criteria:
-#        sampler_results/episode_reward_mean:: 100.0
+#        sampler_results/episode_reward_mean: 100.0
 #        timesteps_total: 2000000
 #    stop:
 #        time_total_s: 2000
@@ -29,7 +29,7 @@
 #    run: DDPPO
 #    # Minimum reward and total ts (in given time_total_s) to pass this test.
 #    pass_criteria:
-#        sampler_results/episode_reward_mean:: 50.0
+#        sampler_results/episode_reward_mean: 50.0
 #        timesteps_total: 10000000
 #    stop:
 #        time_total_s: 3600

diff --git a/release/rllib_tests/learning_tests/yaml_files/a2c/a2c-breakout-v5.yaml b/release/rllib_tests/learning_tests/yaml_files/a2c/a2c-breakout-v5.yaml
@@ -3,7 +3,7 @@ a2c-breakoutnoframeskip-v5:
     run: A2C
     # Minimum reward and total ts (in given time_total_s) to pass this test.
     pass_criteria:
-        sampler_results/episode_reward_mean:: 50.0
+        sampler_results/episode_reward_mean: 50.0
         timesteps_total: 5000000
     stop:
         time_total_s: 7200

diff --git a/release/rllib_tests/learning_tests/yaml_files/a3c/a3c-pongdeterministic-v5.yaml b/release/rllib_tests/learning_tests/yaml_files/a3c/a3c-pongdeterministic-v5.yaml
@@ -3,7 +3,7 @@ a3c-pongdeterministic-v5:
     run: A3C
     # Minimum reward and total ts (in given time_total_s) to pass this test.
     pass_criteria:
-        sampler_results/episode_reward_mean:: 18.0
+        sampler_results/episode_reward_mean: 18.0
         timesteps_total: 5000000
     stop:
         time_total_s: 3600

diff --git a/release/rllib_tests/learning_tests/yaml_files/apex/apex-breakoutnoframeskip-v5.yaml b/release/rllib_tests/learning_tests/yaml_files/apex/apex-breakoutnoframeskip-v5.yaml
@@ -3,7 +3,7 @@ apex-breakoutnoframeskip-v5:
     run: APEX
     # Minimum reward and total ts (in given time_total_s) to pass this test.
     pass_criteria:
-        sampler_results/episode_reward_mean:: 100.0
+        sampler_results/episode_reward_mean: 100.0
         timesteps_total: 12000000
     stop:
         time_total_s: 7200

diff --git a/release/rllib_tests/learning_tests/yaml_files/appo/appo-pongnoframeskip-v5.yaml b/release/rllib_tests/learning_tests/yaml_files/appo/appo-pongnoframeskip-v5.yaml
@@ -3,7 +3,7 @@ appo-pongnoframeskip-v5:
     run: APPO
     # Minimum reward and total ts (in given time_total_s) to pass this test.
     pass_criteria:
-        sampler_results/episode_reward_mean:: 18.0
+        sampler_results/episode_reward_mean: 18.0
         timesteps_total: 5000000
     stop:
         time_total_s: 1800

diff --git a/release/rllib_tests/learning_tests/yaml_files/bc/bc-halfcheetah-v4.yaml b/release/rllib_tests/learning_tests/yaml_files/bc/bc-halfcheetah-v4.yaml
@@ -2,7 +2,7 @@ bc-halfcheetah-v0:
     env: HalfCheetah-v4
     run: BC
     pass_criteria:
-        evaluation/sampler_results/episode_reward_mean:: 400.0
+        evaluation/sampler_results/episode_reward_mean: 400.0
         timesteps_total: 2500000
     stop:
         time_total_s: 1800

diff --git a/release/rllib_tests/learning_tests/yaml_files/cql/cql-halfcheetah-v4.yaml b/release/rllib_tests/learning_tests/yaml_files/cql/cql-halfcheetah-v4.yaml
@@ -2,7 +2,7 @@ cql-halfcheetah-v4:
     env: HalfCheetah-v4
     run: CQL
     pass_criteria:
-        evaluation/sampler_results/episode_reward_mean:: 400.0
+        evaluation/sampler_results/episode_reward_mean: 400.0
         # Can not check throughput for offline methods.
         timesteps_total: 5000000
     stop:

diff --git a/release/rllib_tests/learning_tests/yaml_files/ddpg/ddpg-hopper-v4.yaml b/release/rllib_tests/learning_tests/yaml_files/ddpg/ddpg-hopper-v4.yaml
@@ -3,7 +3,7 @@ ddpg-hopper-v4:
     run: DDPG
     # Minimum reward and total ts (in given time_total_s) to pass this test.
     pass_criteria:
-        sampler_results/episode_reward_mean:: 110.0
+        sampler_results/episode_reward_mean: 110.0
         timesteps_total: 50000
     stop:
         time_total_s: 1800

diff --git a/release/rllib_tests/learning_tests/yaml_files/dqn/dqn-breakoutnoframeskip-v5.yaml b/release/rllib_tests/learning_tests/yaml_files/dqn/dqn-breakoutnoframeskip-v5.yaml
@@ -3,7 +3,7 @@ dqn-breakoutnoframeskip-v5:
     run: DQN
     # Minimum reward and total ts (in given time_total_s) to pass this test.
     pass_criteria:
-        sampler_results/episode_reward_mean:: 20.0
+        sampler_results/episode_reward_mean: 20.0
         timesteps_total: 400000
     stop:
         time_total_s: 7200

diff --git a/release/rllib_tests/learning_tests/yaml_files/es/es-humanoid-v4.yaml b/release/rllib_tests/learning_tests/yaml_files/es/es-humanoid-v4.yaml
@@ -3,7 +3,7 @@ es-humanoid-v4:
     run: ES
     # Minimum reward and total ts (in given time_total_s) to pass this test.
     pass_criteria:
-        sampler_results/episode_reward_mean:: 100.0
+        sampler_results/episode_reward_mean: 100.0
         timesteps_total: 5000000
     stop:
         time_total_s: 3600

diff --git a/release/rllib_tests/learning_tests/yaml_files/impala/impala-breakoutnoframeskip-v5.yaml b/release/rllib_tests/learning_tests/yaml_files/impala/impala-breakoutnoframeskip-v5.yaml
@@ -3,7 +3,7 @@ impala-breakoutnoframeskip-v5:
     run: IMPALA
     # Minimum reward and total ts (in given time_total_s) to pass this test.
     pass_criteria:
-        sampler_results/episode_reward_mean:: 200.0
+        sampler_results/episode_reward_mean: 200.0
         timesteps_total: 6000000
     stop:
         time_total_s: 2400

diff --git a/release/rllib_tests/learning_tests/yaml_files/marwil/marwil-halfcheetah-v4.yaml b/release/rllib_tests/learning_tests/yaml_files/marwil/marwil-halfcheetah-v4.yaml
@@ -3,7 +3,7 @@ marwil-halfcheetah-v4:
     run: MARWIL
     pass_criteria:
         # Can not check throughput for offline methods.
-        evaluation/sampler_results/episode_reward_mean:: 400.0
+        evaluation/sampler_results/episode_reward_mean: 400.0
         timesteps_total: 2500000
     stop:
         time_total_s: 1800

diff --git a/release/rllib_tests/learning_tests/yaml_files/ppo/tf/ppo-breakoutnoframeskip-v5-tf.yaml b/release/rllib_tests/learning_tests/yaml_files/ppo/tf/ppo-breakoutnoframeskip-v5-tf.yaml
@@ -3,7 +3,7 @@ ppo-breakoutnoframeskip-v5:
     run: PPO
     # Minimum reward and total ts (in given time_total_s) to pass this test.
     pass_criteria:
-        sampler_results/episode_reward_mean:: 50.0
+        sampler_results/episode_reward_mean: 50.0
         timesteps_total: 7000000
     stop:
         time_total_s: 3600

diff --git a/...ase/rllib_tests/learning_tests/yaml_files/ppo/torch/ppo-breakoutnoframeskip-v5-torch.yaml b/...ase/rllib_tests/learning_tests/yaml_files/ppo/torch/ppo-breakoutnoframeskip-v5-torch.yaml
@@ -3,7 +3,7 @@ ppo-breakoutnoframeskip-v5:
     run: PPO
     # Minimum reward and total ts (in given time_total_s) to pass this test.
     pass_criteria:
-        sampler_results/episode_reward_mean:: 50.0
+        sampler_results/episode_reward_mean: 50.0
         timesteps_total: 7000000
     stop:
         # This is double the time we use for tf because of 2x throughput there.

diff --git a/release/rllib_tests/learning_tests/yaml_files/sac/sac-halfcheetah-v4.yaml b/release/rllib_tests/learning_tests/yaml_files/sac/sac-halfcheetah-v4.yaml
@@ -3,7 +3,7 @@ sac-halfcheetah-v4:
     run: SAC
     # Minimum reward and total ts (in given time_total_s) to pass this test.
     pass_criteria:
-        sampler_results/episode_reward_mean:: 500.0
+        sampler_results/episode_reward_mean: 500.0
         timesteps_total: 400000
     stop:
         time_total_s: 3600

diff --git a/...se/rllib_tests/learning_tests/yaml_files/slateq/slateq-interest-evolution-recsim-env.yaml b/...se/rllib_tests/learning_tests/yaml_files/slateq/slateq-interest-evolution-recsim-env.yaml
@@ -2,7 +2,7 @@ slateq-interest-evolution-recsim-env:
     env: ray.rllib.examples.env.recommender_system_envs_with_recsim.InterestEvolutionRecSimEnv
     run: SlateQ
     pass_criteria:
-        sampler_results/episode_reward_mean:: 160.0
+        sampler_results/episode_reward_mean: 160.0
         timesteps_total: 300000
     stop:
         time_total_s: 7200

diff --git a/release/rllib_tests/learning_tests/yaml_files/td3/td3-halfcheetah-v4.yaml b/release/rllib_tests/learning_tests/yaml_files/td3/td3-halfcheetah-v4.yaml
@@ -3,7 +3,7 @@ td3-halfcheetah-v4:
     run: TD3
     # Minimum reward and total ts (in given time_total_s) to pass this test.
     pass_criteria:
-        sampler_results/episode_reward_mean:: 400.0
+        sampler_results/episode_reward_mean: 400.0
         timesteps_total: 1000000
     stop:
         time_total_s: 3600

diff --git a/release/rllib_tests/multi_gpu_learning_tests/multi_gpu_learning_tests.yaml b/release/rllib_tests/multi_gpu_learning_tests/multi_gpu_learning_tests.yaml
@@ -42,7 +42,7 @@ appo-cartpole-v1-vtrace:
     run: APPO
     # Minimum reward and total ts (in given time_total_s) to pass this test.
     pass_criteria:
-        sampler_results/episode_reward_mean:: 150.0
+        sampler_results/episode_reward_mean: 150.0
         timesteps_total: 500000
     stop:
         time_total_s: 600
@@ -65,7 +65,7 @@ ddpg-repeat-after-me-env:
     run: DDPG
     # Minimum reward and total ts (in given time_total_s) to pass this test.
     pass_criteria:
-        sampler_results/episode_reward_mean:: -50.0
+        sampler_results/episode_reward_mean: -50.0
         timesteps_total: 8000
     stop:
         time_total_s: 600
@@ -85,7 +85,7 @@ dqn-cartpole-v1:
     run: DQN
     # Minimum reward and total ts (in given time_total_s) to pass this test.
     pass_criteria:
-        sampler_results/episode_reward_mean:: 150.0
+        sampler_results/episode_reward_mean: 150.0
         timesteps_total: 50000
     stop:
         time_total_s: 600
@@ -105,7 +105,7 @@ impala-cartpole-v1:
     run: IMPALA
     # Minimum reward and total ts (in given time_total_s) to pass this test.
     pass_criteria:
-        sampler_results/episode_reward_mean:: 150.0
+        sampler_results/episode_reward_mean: 150.0
         timesteps_total: 500000
     stop:
         time_total_s: 600
@@ -120,7 +120,7 @@ pg-cartpole-v1:
     run: PG
     # Minimum reward and total ts (in given time_total_s) to pass this test.
     pass_criteria:
-        sampler_results/episode_reward_mean:: 130.0
+        sampler_results/episode_reward_mean: 130.0
         timesteps_total: 500000
     stop:
         time_total_s: 600
@@ -138,7 +138,7 @@ ppo-cartpole-v1:
     run: PPO
     # Minimum reward and total ts (in given time_total_s) to pass this test.
     pass_criteria:
-        sampler_results/episode_reward_mean:: 150.0
+        sampler_results/episode_reward_mean: 150.0
         timesteps_total: 300000
     stop:
         time_total_s: 600
@@ -161,7 +161,7 @@ sac-repeat-after-me-env:
     run: SAC
     # Minimum reward and total ts (in given time_total_s) to pass this test.
     pass_criteria:
-        sampler_results/episode_reward_mean:: 40.0
+        sampler_results/episode_reward_mean: 40.0
         timesteps_total: 4500
     stop:
         time_total_s: 600
@@ -183,7 +183,7 @@ sac-repeat-after-me-env-continuous:
     run: SAC
     # Minimum reward and total ts (in given time_total_s) to pass this test.
     pass_criteria:
-        sampler_results/episode_reward_mean:: -50.0
+        sampler_results/episode_reward_mean: -50.0
         timesteps_total: 4500
     stop:
         time_total_s: 600
@@ -208,7 +208,7 @@ simpleq-cartpole-v1:
     run: SimpleQ
     # Minimum reward and total ts (in given time_total_s) to pass this test.
     pass_criteria:
-        sampler_results/episode_reward_mean:: 150.0
+        sampler_results/episode_reward_mean: 150.0
         timesteps_total: 85000
     stop:
         time_total_s: 600
@@ -221,7 +221,7 @@ td3-repeat-after-me-env:
     run: TD3
     # Minimum reward and total ts (in given time_total_s) to pass this test.
     pass_criteria:
-        sampler_results/episode_reward_mean:: -50.0
+        sampler_results/episode_reward_mean: -50.0
         timesteps_total: 25000
     stop:
         time_total_s: 600

diff --git a/...ests/multi_gpu_with_attention_learning_tests/multi_gpu_with_attention_learning_tests.yaml b/...ests/multi_gpu_with_attention_learning_tests/multi_gpu_with_attention_learning_tests.yaml
@@ -4,7 +4,7 @@ appo-stateless-cartpole-no-vtrace:
     run: APPO
     # Minimum reward and total ts (in given time_total_s) to pass this test.
     pass_criteria:
-        sampler_results/episode_reward_mean:: 150.0
+        sampler_results/episode_reward_mean: 150.0
         timesteps_total: 500000
     stop:
         time_total_s: 600
@@ -38,7 +38,7 @@ appo-stateless-cartpole-vtrace:
     run: APPO
     # Minimum reward and total ts (in given time_total_s) to pass this test.
     pass_criteria:
-        sampler_results/episode_reward_mean:: 150.0
+        sampler_results/episode_reward_mean: 150.0
         timesteps_total: 500000
     stop:
         time_total_s: 600
@@ -71,7 +71,7 @@ impala-stateless-cartpole:
     run: IMPALA
     # Minimum reward and total ts (in given time_total_s) to pass this test.
     pass_criteria:
-        sampler_results/episode_reward_mean:: 150.0
+        sampler_results/episode_reward_mean: 150.0
         timesteps_total: 500000
     stop:
         time_total_s: 600
@@ -98,7 +98,7 @@ pg-stateless-cartpole:
     run: PG
     # Minimum reward and total ts (in given time_total_s) to pass this test.
     pass_criteria:
-        sampler_results/episode_reward_mean:: 130.0
+        sampler_results/episode_reward_mean: 130.0
         timesteps_total: 500000
     stop:
         time_total_s: 600
@@ -126,7 +126,7 @@ ppo-stateless-cartpole:
     run: PPO
     # Minimum reward and total ts (in given time_total_s) to pass this test.
     pass_criteria:
-        sampler_results/episode_reward_mean:: 150.0
+        sampler_results/episode_reward_mean: 150.0
         timesteps_total: 200000
     stop:
         time_total_s: 600
@@ -160,7 +160,7 @@ ppo-stateless-cartpole:
 #     run: R2D2
 #     # Minimum reward and total ts (in given time_total_s) to pass this test.
 #     pass_criteria:
-#         sampler_results/episode_reward_mean:: 150.0
+#         sampler_results/episode_reward_mean: 150.0
 #         timesteps_total: 130000
 #     stop:
 #         time_total_s: 1200

diff --git a/...se/rllib_tests/multi_gpu_with_lstm_learning_tests/multi_gpu_with_lstm_learning_tests.yaml b/...se/rllib_tests/multi_gpu_with_lstm_learning_tests/multi_gpu_with_lstm_learning_tests.yaml
@@ -4,7 +4,7 @@ a2c-stateless-cartpole:
     run: A2C
     # Minimum reward and total ts (in given time_total_s) to pass this test.
     pass_criteria:
-        sampler_results/episode_reward_mean:: 150.0
+        sampler_results/episode_reward_mean: 150.0
         timesteps_total: 500000
     stop:
         time_total_s: 600
@@ -24,7 +24,7 @@ appo-stateless-cartpole-no-vtrace:
     run: APPO
     # Minimum reward and total ts (in given time_total_s) to pass this test.
     pass_criteria:
-        sampler_results/episode_reward_mean:: 150.0
+        sampler_results/episode_reward_mean: 150.0
         timesteps_total: 500000
     stop:
         time_total_s: 600
@@ -50,7 +50,7 @@ appo-stateless-cartpole-vtrace:
     run: APPO
     # Minimum reward and total ts (in given time_total_s) to pass this test.
     pass_criteria:
-        sampler_results/episode_reward_mean:: 150.0
+        sampler_results/episode_reward_mean: 150.0
         timesteps_total: 500000
     stop:
         time_total_s: 600
@@ -75,7 +75,7 @@ impala-stateless-cartpole:
     run: IMPALA
     # Minimum reward and total ts (in given time_total_s) to pass this test.
     pass_criteria:
-        sampler_results/episode_reward_mean:: 150.0
+        sampler_results/episode_reward_mean: 150.0
         timesteps_total: 500000
     stop:
         time_total_s: 600
@@ -94,7 +94,7 @@ pg-stateless-cartpole:
     run: PG
     # Minimum reward and total ts (in given time_total_s) to pass this test.
     pass_criteria:
-        sampler_results/episode_reward_mean:: 130.0
+        sampler_results/episode_reward_mean: 130.0
         timesteps_total: 500000
     stop:
         time_total_s: 600
@@ -114,7 +114,7 @@ ppo-stateless-cartpole:
     run: PPO
     # Minimum reward and total ts (in given time_total_s) to pass this test.
     pass_criteria:
-        sampler_results/episode_reward_mean:: 150.0
+        sampler_results/episode_reward_mean: 150.0
         timesteps_total: 200000
     stop:
         time_total_s: 600
@@ -140,7 +140,7 @@ ppo-stateless-cartpole:
 #     run: R2D2
 #     # Minimum reward and total ts (in given time_total_s) to pass this test.
 #     pass_criteria:
-#         sampler_results/episode_reward_mean:: 150.0
+#         sampler_results/episode_reward_mean: 150.0
 #         timesteps_total: 65000
 #     stop:
 #         time_total_s: 800