eepy

Learning-and-Intelligent-Systems · Sep 13, 2024 · 4e42452 · 4e42452
1 parent 860fcb3
commit 4e42452
Show file tree

Hide file tree

Showing 3 changed files with 104 additions and 0 deletions.
diff --git a/scripts/configs/RLBRIDGE_rwdshape_coffee.yaml b/scripts/configs/RLBRIDGE_rwdshape_coffee.yaml
@@ -0,0 +1,35 @@
+# rl_bridge_approach experiments in gridrowdoor env.
+---
+APPROACHES:
+  rl_rwd_shape:
+    NAME: "rl_bridge_policy"
+    FLAGS:
+      explorer: "maple_q"
+      bilevel_plan_without_sim: True
+      mlp_regressor_max_itr: 100000
+      segmenter: "oracle"
+      demonstrator: "oracle"
+      sesame_max_skeletons_optimized: 50
+      use_obj_centric: True
+      rl_rwd_shape: True
+
+ENVS:
+  RLBRIDGE_coffee:
+    NAME: "coffee"
+ARGS:
+  - "debug"
+FLAGS:
+  max_initial_demos: 0
+  sampler_learner: "oracle"
+  strips_learner: "oracle"
+  num_online_learning_cycles: 100
+  num_test_tasks: 10
+  num_train_tasks: 1
+  interactive_num_requests_per_cycle: 5
+  online_nsrt_learning_requests_per_cycle: 5
+  max_num_steps_interaction_request: 100
+  timeout: 1000
+  active_sampler_learning_num_samples: 100
+  same_levels: True
+START_SEED: 0
+NUM_SEEDS: 8
diff --git a/scripts/configs/RLBRIDGE_rwdshape_doorknobs.yaml b/scripts/configs/RLBRIDGE_rwdshape_doorknobs.yaml
@@ -0,0 +1,35 @@
+# rl_bridge_approach experiments in gridrowdoor env.
+---
+APPROACHES:
+  rl_rwd_shape:
+    NAME: "rl_bridge_policy"
+    FLAGS:
+      explorer: "maple_q"
+      bilevel_plan_without_sim: True
+      mlp_regressor_max_itr: 100000
+      segmenter: "oracle"
+      demonstrator: "oracle"
+      sesame_max_skeletons_optimized: 50
+      use_obj_centric: True
+      rl_rwd_shape: True
+
+ENVS:
+  RLBRIDGE_doorknobs:
+    NAME: "doorknobs"
+ARGS:
+  - "debug"
+FLAGS:
+  max_initial_demos: 0
+  sampler_learner: "oracle"
+  strips_learner: "oracle"
+  num_online_learning_cycles: 100
+  num_test_tasks: 10
+  num_train_tasks: 1
+  interactive_num_requests_per_cycle: 5
+  online_nsrt_learning_requests_per_cycle: 5
+  max_num_steps_interaction_request: 100
+  timeout: 1000
+  active_sampler_learning_num_samples: 10
+  same_levels: True
+START_SEED: 0
+NUM_SEEDS: 8
diff --git a/scripts/configs/RLBRIDGE_rwdshape_gridrowdoor.yaml b/scripts/configs/RLBRIDGE_rwdshape_gridrowdoor.yaml
@@ -0,0 +1,34 @@
+# rl_bridge_approach experiments in gridrowdoor env.
+---
+APPROACHES:
+  rl_rwd_shape:
+    NAME: "maple_q"
+    FLAGS:
+      explorer: "maple_q"
+      bilevel_plan_without_sim: True
+      mlp_regressor_max_itr: 100000
+      segmenter: "oracle"
+      demonstrator: "oracle"
+      sesame_max_skeletons_optimized: 50
+      use_obj_centric: False
+      rl_rwd_shape: True
+ENVS:
+  RLBRIDGE_gridrowdoor:
+    NAME: "grid_row_door"
+ARGS:
+  - "debug"
+FLAGS:
+  max_initial_demos: 0
+  sampler_learner: "oracle"
+  strips_learner: "oracle"
+  num_online_learning_cycles: 100
+  num_test_tasks: 10
+  num_train_tasks: 1
+  interactive_num_requests_per_cycle: 5
+  online_nsrt_learning_requests_per_cycle: 5
+  max_num_steps_interaction_request: 100
+  timeout: 1000
+  active_sampler_learning_num_samples: 100
+  same_levels: True
+START_SEED: 0
+NUM_SEEDS: 8