naming convention

qiaoting159753 · Jan 1, 2025 · 97d1b64 · 97d1b64
1 parent 92f5bac
commit 97d1b64
Show file tree

Hide file tree

Showing 636 changed files with 6,475 additions and 517 deletions.
diff --git a/env_acrobot_swingup/Dyna/DynaSAC_Bounded_01_10/alg_config.json b/env_acrobot_swingup/Dyna/DynaSAC_Bounded_01_10/alg_config.json
@@ -0,0 +1,33 @@
+{
+    "algorithm": "DynaSAC_Bounded",
+    "type": "mbrl",
+    "G": 1,
+    "G_model": 5.0,
+    "batch_size": 256,
+    "buffer_size": 1000000,
+    "max_steps_exploration": 256,
+    "max_steps_training": 1000000,
+    "number_steps_per_train_policy": 1,
+
+    "reward_scale": 1.0,
+    "actor_lr": 3e-4,
+    "critic_lr": 3e-4,
+    "alpha_lr": 3e-4,
+    "gamma": 0.99,
+    "tau": 0.005,
+
+    "min_noise": 0.0,
+    "noise_scale": 0.1,
+    "noise_decay": 1.0,
+
+    "num_models": 6,
+    "world_model_lr": 0.001,
+    "horizon": 1,
+    "num_samples": 10,
+    "sas": false,
+    "train_reward": true,
+    "train_both": false,
+    "gripper": false,
+    "threshold": 0.1,
+    "exploration_sample": 10
+}
diff --git a/env_acrobot_config.json → ...yna/DynaSAC_Bounded_01_10/env_config.json b/env_acrobot_config.json → ...yna/DynaSAC_Bounded_01_10/env_config.json
diff --git a/...un/DynaSAC_Bounded_01_5/train_config.json → ...a/DynaSAC_Bounded_01_10/train_config.json b/...un/DynaSAC_Bounded_01_5/train_config.json → ...a/DynaSAC_Bounded_01_10/train_config.json
diff --git a/env_acrobot_swingup/Dyna/DynaSAC_Bounded_01_2/alg_config.json b/env_acrobot_swingup/Dyna/DynaSAC_Bounded_01_2/alg_config.json
@@ -0,0 +1,33 @@
+{
+    "algorithm": "DynaSAC_Bounded",
+    "type": "mbrl",
+    "G": 1,
+    "G_model": 5.0,
+    "batch_size": 256,
+    "buffer_size": 1000000,
+    "max_steps_exploration": 256,
+    "max_steps_training": 1000000,
+    "number_steps_per_train_policy": 1,
+
+    "reward_scale": 1.0,
+    "actor_lr": 3e-4,
+    "critic_lr": 3e-4,
+    "alpha_lr": 3e-4,
+    "gamma": 0.99,
+    "tau": 0.005,
+
+    "min_noise": 0.0,
+    "noise_scale": 0.1,
+    "noise_decay": 1.0,
+
+    "num_models": 6,
+    "world_model_lr": 0.001,
+    "horizon": 1,
+    "num_samples": 10,
+    "sas": false,
+    "train_reward": true,
+    "train_both": false,
+    "gripper": false,
+    "threshold": 0.1,
+    "exploration_sample": 2
+}
diff --git a/env_acrobot_swingup/Dyna/DynaSAC_Bounded_01_2/env_config.json b/env_acrobot_swingup/Dyna/DynaSAC_Bounded_01_2/env_config.json
@@ -0,0 +1,5 @@
+{
+    "gym": "dmcs",
+    "task": "swingup",
+    "domain": "acrobot"
+}
diff --git a/...un/DynaSAC_Bounded_03_5/train_config.json → ...na/DynaSAC_Bounded_01_2/train_config.json b/...un/DynaSAC_Bounded_03_5/train_config.json → ...na/DynaSAC_Bounded_01_2/train_config.json
diff --git a/..._run/DynaSAC_Bounded_01_5/alg_config.json → ...Dyna/DynaSAC_Bounded_01_5/alg_config.json b/..._run/DynaSAC_Bounded_01_5/alg_config.json → ...Dyna/DynaSAC_Bounded_01_5/alg_config.json
diff --git a/env_acrobot_swingup/Dyna/DynaSAC_Bounded_01_5/env_config.json b/env_acrobot_swingup/Dyna/DynaSAC_Bounded_01_5/env_config.json
@@ -0,0 +1,5 @@
+{
+    "gym": "dmcs",
+    "task": "swingup",
+    "domain": "acrobot"
+}
diff --git a/...un/DynaSAC_Bounded_05_5/train_config.json → ...na/DynaSAC_Bounded_01_5/train_config.json b/...un/DynaSAC_Bounded_05_5/train_config.json → ...na/DynaSAC_Bounded_01_5/train_config.json
diff --git a/env_acrobot_swingup/Dyna/DynaSAC_Bounded_03_10/alg_config.json b/env_acrobot_swingup/Dyna/DynaSAC_Bounded_03_10/alg_config.json
@@ -0,0 +1,33 @@
+{
+    "algorithm": "DynaSAC_Bounded",
+    "type": "mbrl",
+    "G": 1,
+    "G_model": 5.0,
+    "batch_size": 256,
+    "buffer_size": 1000000,
+    "max_steps_exploration": 256,
+    "max_steps_training": 1000000,
+    "number_steps_per_train_policy": 1,
+
+    "reward_scale": 1.0,
+    "actor_lr": 3e-4,
+    "critic_lr": 3e-4,
+    "alpha_lr": 3e-4,
+    "gamma": 0.99,
+    "tau": 0.005,
+
+    "min_noise": 0.0,
+    "noise_scale": 0.1,
+    "noise_decay": 1.0,
+
+    "num_models": 6,
+    "world_model_lr": 0.001,
+    "horizon": 1,
+    "num_samples": 10,
+    "sas": false,
+    "train_reward": true,
+    "train_both": false,
+    "gripper": false,
+    "threshold": 0.3,
+    "exploration_sample": 10
+}
diff --git a/env_acrobot_swingup/Dyna/DynaSAC_Bounded_03_10/env_config.json b/env_acrobot_swingup/Dyna/DynaSAC_Bounded_03_10/env_config.json
@@ -0,0 +1,5 @@
+{
+    "gym": "dmcs",
+    "task": "swingup",
+    "domain": "acrobot"
+}
diff --git a/...un/DynaSAC_Bounded_07_5/train_config.json → ...a/DynaSAC_Bounded_03_10/train_config.json b/...un/DynaSAC_Bounded_07_5/train_config.json → ...a/DynaSAC_Bounded_03_10/train_config.json
diff --git a/..._run/DynaSAC_Bounded_03_2/alg_config.json → ...Dyna/DynaSAC_Bounded_03_2/alg_config.json b/..._run/DynaSAC_Bounded_03_2/alg_config.json → ...Dyna/DynaSAC_Bounded_03_2/alg_config.json
diff --git a/env_acrobot_swingup/Dyna/DynaSAC_Bounded_03_2/env_config.json b/env_acrobot_swingup/Dyna/DynaSAC_Bounded_03_2/env_config.json
@@ -0,0 +1,5 @@
+{
+    "gym": "dmcs",
+    "task": "swingup",
+    "domain": "acrobot"
+}
diff --git a/...un/DynaSAC_Bounded_09_5/train_config.json → ...na/DynaSAC_Bounded_03_2/train_config.json b/...un/DynaSAC_Bounded_09_5/train_config.json → ...na/DynaSAC_Bounded_03_2/train_config.json
diff --git a/..._run/DynaSAC_Bounded_03_5/alg_config.json → ...Dyna/DynaSAC_Bounded_03_5/alg_config.json b/..._run/DynaSAC_Bounded_03_5/alg_config.json → ...Dyna/DynaSAC_Bounded_03_5/alg_config.json
diff --git a/env_acrobot_swingup/Dyna/DynaSAC_Bounded_03_5/env_config.json b/env_acrobot_swingup/Dyna/DynaSAC_Bounded_03_5/env_config.json
@@ -0,0 +1,5 @@
+{
+    "gym": "dmcs",
+    "task": "swingup",
+    "domain": "acrobot"
+}
diff --git a/...eetah_run/Dyna_SAC_1_10/train_config.json → ...na/DynaSAC_Bounded_03_5/train_config.json b/...eetah_run/Dyna_SAC_1_10/train_config.json → ...na/DynaSAC_Bounded_03_5/train_config.json
diff --git a/env_acrobot_swingup/Dyna/DynaSAC_Bounded_05_10/alg_config.json b/env_acrobot_swingup/Dyna/DynaSAC_Bounded_05_10/alg_config.json
@@ -0,0 +1,33 @@
+{
+    "algorithm": "DynaSAC_Bounded",
+    "type": "mbrl",
+    "G": 1,
+    "G_model": 5.0,
+    "batch_size": 256,
+    "buffer_size": 1000000,
+    "max_steps_exploration": 256,
+    "max_steps_training": 1000000,
+    "number_steps_per_train_policy": 1,
+
+    "reward_scale": 1.0,
+    "actor_lr": 3e-4,
+    "critic_lr": 3e-4,
+    "alpha_lr": 3e-4,
+    "gamma": 0.99,
+    "tau": 0.005,
+
+    "min_noise": 0.0,
+    "noise_scale": 0.1,
+    "noise_decay": 1.0,
+
+    "num_models": 6,
+    "world_model_lr": 0.001,
+    "horizon": 1,
+    "num_samples": 10,
+    "sas": false,
+    "train_reward": true,
+    "train_both": false,
+    "gripper": false,
+    "threshold": 0.5,
+    "exploration_sample": 10
+}
diff --git a/env_acrobot_swingup/Dyna/DynaSAC_Bounded_05_10/env_config.json b/env_acrobot_swingup/Dyna/DynaSAC_Bounded_05_10/env_config.json
@@ -0,0 +1,5 @@
+{
+    "gym": "dmcs",
+    "task": "swingup",
+    "domain": "acrobot"
+}
diff --git a/...rd/DynaSAC_Bounded_01_5/train_config.json → ...a/DynaSAC_Bounded_05_10/train_config.json b/...rd/DynaSAC_Bounded_01_5/train_config.json → ...a/DynaSAC_Bounded_05_10/train_config.json
diff --git a/env_acrobot_swingup/Dyna/DynaSAC_Bounded_05_2/alg_config.json b/env_acrobot_swingup/Dyna/DynaSAC_Bounded_05_2/alg_config.json
@@ -0,0 +1,33 @@
+{
+    "algorithm": "DynaSAC_Bounded",
+    "type": "mbrl",
+    "G": 1,
+    "G_model": 5.0,
+    "batch_size": 256,
+    "buffer_size": 1000000,
+    "max_steps_exploration": 256,
+    "max_steps_training": 1000000,
+    "number_steps_per_train_policy": 1,
+
+    "reward_scale": 1.0,
+    "actor_lr": 3e-4,
+    "critic_lr": 3e-4,
+    "alpha_lr": 3e-4,
+    "gamma": 0.99,
+    "tau": 0.005,
+
+    "min_noise": 0.0,
+    "noise_scale": 0.1,
+    "noise_decay": 1.0,
+
+    "num_models": 6,
+    "world_model_lr": 0.001,
+    "horizon": 1,
+    "num_samples": 10,
+    "sas": false,
+    "train_reward": true,
+    "train_both": false,
+    "gripper": false,
+    "threshold": 0.5,
+    "exploration_sample": 2
+}
diff --git a/env_acrobot_swingup/Dyna/DynaSAC_Bounded_05_2/env_config.json b/env_acrobot_swingup/Dyna/DynaSAC_Bounded_05_2/env_config.json
@@ -0,0 +1,5 @@
+{
+    "gym": "dmcs",
+    "task": "swingup",
+    "domain": "acrobot"
+}
diff --git a/...rd/DynaSAC_Bounded_03_5/train_config.json → ...na/DynaSAC_Bounded_05_2/train_config.json b/...rd/DynaSAC_Bounded_03_5/train_config.json → ...na/DynaSAC_Bounded_05_2/train_config.json
diff --git a/..._run/DynaSAC_Bounded_05_5/alg_config.json → ...Dyna/DynaSAC_Bounded_05_5/alg_config.json b/..._run/DynaSAC_Bounded_05_5/alg_config.json → ...Dyna/DynaSAC_Bounded_05_5/alg_config.json
diff --git a/env_acrobot_swingup/Dyna/DynaSAC_Bounded_05_5/env_config.json b/env_acrobot_swingup/Dyna/DynaSAC_Bounded_05_5/env_config.json
@@ -0,0 +1,5 @@
+{
+    "gym": "dmcs",
+    "task": "swingup",
+    "domain": "acrobot"
+}
diff --git a/...rd/DynaSAC_Bounded_05_5/train_config.json → ...na/DynaSAC_Bounded_05_5/train_config.json b/...rd/DynaSAC_Bounded_05_5/train_config.json → ...na/DynaSAC_Bounded_05_5/train_config.json
diff --git a/...cheetah_run/Dyna_SAC_1_10/alg_config.json → ...wingup/Dyna/Dyna_SAC_1_10/alg_config.json b/...cheetah_run/Dyna_SAC_1_10/alg_config.json → ...wingup/Dyna/Dyna_SAC_1_10/alg_config.json
diff --git a/env_acrobot_swingup/Dyna/Dyna_SAC_1_10/env_config.json b/env_acrobot_swingup/Dyna/Dyna_SAC_1_10/env_config.json
@@ -0,0 +1,5 @@
+{
+    "gym": "dmcs",
+    "task": "swingup",
+    "domain": "acrobot"
+}
diff --git a/...rd/DynaSAC_Bounded_07_5/train_config.json → ...ngup/Dyna/Dyna_SAC_1_10/train_config.json b/...rd/DynaSAC_Bounded_07_5/train_config.json → ...ngup/Dyna/Dyna_SAC_1_10/train_config.json
diff --git a/env_acrobot_swingup/STEVE/STEVESAC_3/alg_config.json b/env_acrobot_swingup/STEVE/STEVESAC_3/alg_config.json
@@ -0,0 +1,32 @@
+{
+    "algorithm": "STEVESAC",
+    "type": "mbrl",
+    "G": 1,
+    "G_model": 5.0,
+    "batch_size": 256,
+    "buffer_size": 1000000,
+    "max_steps_exploration": 256,
+    "max_steps_training": 1000000,
+    "number_steps_per_train_policy": 1,
+
+    "reward_scale": 1.0,
+    "actor_lr": 3e-4,
+    "critic_lr": 3e-4,
+    "alpha_lr": 3e-4,
+    "gamma": 0.99,
+    "tau": 0.005,
+
+    "min_noise": 0.0,
+    "noise_scale": 0.1,
+    "noise_decay": 1.0,
+
+    "num_models": 6,
+    "world_model_lr": 0.001,
+    "horizon": 3,
+    "num_rwd_models": 5,
+
+    "sas": false,
+    "train_reward": true,
+    "train_both": false,
+    "gripper": false
+}
diff --git a/env_acrobot_swingup/STEVE/STEVESAC_3/env_config.json b/env_acrobot_swingup/STEVE/STEVESAC_3/env_config.json
@@ -0,0 +1,5 @@
+{
+    "gym": "dmcs",
+    "task": "swingup",
+    "domain": "acrobot"
+}
diff --git a/env_acrobot_swingup/STEVE/STEVESAC_3/train_config.json b/env_acrobot_swingup/STEVE/STEVESAC_3/train_config.json
@@ -0,0 +1,5 @@
+{
+    "seeds": [15,25,35,45,55],
+    "number_steps_per_evaluation": 10000,
+    "number_eval_episodes": 10
+}
diff --git a/env_acrobot_swingup/STEVE/STEVESAC_3_01_10/alg_config.json b/env_acrobot_swingup/STEVE/STEVESAC_3_01_10/alg_config.json
@@ -0,0 +1,34 @@
+{
+    "algorithm": "STEVESAC_Bounded",
+    "type": "mbrl",
+    "G": 1,
+    "G_model": 5.0,
+    "batch_size": 256,
+    "buffer_size": 1000000,
+    "max_steps_exploration": 256,
+    "max_steps_training": 1000000,
+    "number_steps_per_train_policy": 1,
+
+    "reward_scale": 1.0,
+    "actor_lr": 3e-4,
+    "critic_lr": 3e-4,
+    "alpha_lr": 3e-4,
+    "gamma": 0.99,
+    "tau": 0.005,
+
+    "min_noise": 0.0,
+    "noise_scale": 0.1,
+    "noise_decay": 1.0,
+
+    "num_models": 6,
+    "num_rwd_models": 5,
+
+    "world_model_lr": 0.001,
+    "horizon": 3,
+    "sas": false,
+    "train_reward": true,
+    "train_both": false,
+    "gripper": false,
+    "threshold": 0.1,
+    "exploration_sample": 10
+}
diff --git a/env_acrobot_swingup/STEVE/STEVESAC_3_01_10/env_config.json b/env_acrobot_swingup/STEVE/STEVESAC_3_01_10/env_config.json
@@ -0,0 +1,5 @@
+{
+    "gym": "dmcs",
+    "task": "swingup",
+    "domain": "acrobot"
+}
diff --git a/env_acrobot_swingup/STEVE/STEVESAC_3_01_10/train_config.json b/env_acrobot_swingup/STEVE/STEVESAC_3_01_10/train_config.json
@@ -0,0 +1,5 @@
+{
+    "seeds": [15,25,35,45,55],
+    "number_steps_per_evaluation": 10000,
+    "number_eval_episodes": 10
+}
diff --git a/env_acrobot_swingup/STEVE/STEVESAC_3_01_2/alg_config.json b/env_acrobot_swingup/STEVE/STEVESAC_3_01_2/alg_config.json
@@ -0,0 +1,34 @@
+{
+    "algorithm": "STEVESAC_Bounded",
+    "type": "mbrl",
+    "G": 1,
+    "G_model": 5.0,
+    "batch_size": 256,
+    "buffer_size": 1000000,
+    "max_steps_exploration": 256,
+    "max_steps_training": 1000000,
+    "number_steps_per_train_policy": 1,
+
+    "reward_scale": 1.0,
+    "actor_lr": 3e-4,
+    "critic_lr": 3e-4,
+    "alpha_lr": 3e-4,
+    "gamma": 0.99,
+    "tau": 0.005,
+
+    "min_noise": 0.0,
+    "noise_scale": 0.1,
+    "noise_decay": 1.0,
+
+    "num_models": 6,
+    "num_rwd_models": 5,
+
+    "world_model_lr": 0.001,
+    "horizon": 3,
+    "sas": false,
+    "train_reward": true,
+    "train_both": false,
+    "gripper": false,
+    "threshold": 0.1,
+    "exploration_sample": 2
+}
diff --git a/env_acrobot_swingup/STEVE/STEVESAC_3_01_2/env_config.json b/env_acrobot_swingup/STEVE/STEVESAC_3_01_2/env_config.json
@@ -0,0 +1,5 @@
+{
+    "gym": "dmcs",
+    "task": "swingup",
+    "domain": "acrobot"
+}
diff --git a/env_acrobot_swingup/STEVE/STEVESAC_3_01_2/train_config.json b/env_acrobot_swingup/STEVE/STEVESAC_3_01_2/train_config.json
@@ -0,0 +1,5 @@
+{
+    "seeds": [15,25,35,45,55],
+    "number_steps_per_evaluation": 10000,
+    "number_eval_episodes": 10
+}