run.sh

#!/bin/bash

# SAC
python main_gs.py --cuda --cache experiments/ant --env-name Ant-v2 --start_steps 10000 --num_layers 2 --alpha 0.05 --log-interval 1000 --eval-interval 10000 --ckpt-interval 50000 --seed -1 --exp-num 1

python main_gs.py --cuda --cache experiments/halfcheetah --env-name HalfCheetah-v2 --start_steps 10000 --num_layers 2 --alpha 0.05 --log-interval 1000 --eval-interval 10000 --ckpt-interval 50000 --seed -1 --exp-num 1

python main_gs.py --cuda --cache experiments/hopper --env-name Hopper-v2 --start_steps 10000 --num_layers 2 --alpha 0.05 --log-interval 1000 --eval-interval 10000 --ckpt-interval 50000 --seed -1 --exp-num 1

python main_gs.py --cuda --cache experiments/walker --env-name Walker2d-v2 --start_steps 10000 --num_layers 2 --alpha 0.05 --log-interval 1000 --eval-interval 10000 --ckpt-interval 50000 --seed -1 --exp-num 1

python main_gs.py --cuda --cache experiments/humanoid --env-name Humanoid-v2 --start_steps 10000 --num_layers 2 --alpha 0.05 --log-interval 1000 --eval-interval 10000 --ckpt-interval 50000 --seed -1 --exp-num 1

python main_gs.py --cuda --cache experiments/humanoidrllab --env-name Humanoidrllab --start_steps 10000 --num_layers 2 --alpha 0.05 --log-interval 1000 --eval-interval 10000 --ckpt-interval 50000 --seed -1 --exp-num 1


# SAC-NF
python main_nf.py --cuda --cache experiments/ant --env-name Ant-v2 --start_steps 10000 --n_flows 4 --flow_family radial --sigma -1 --alpha 0.05 --log-interval 1000 --eval-interval 10000 --ckpt-interval 20000 --seed -1 --exp-num 1

python main_nf.py --cuda --cache experiments/halfcheetah --env-name HalfCheetah-v2 --start_steps 10000 --n_flows 3 --flow_family radial --sigma 0 --alpha 0.05 --log-interval 1000 --eval-interval 10000 --ckpt-interval 20000 --seed -1 --exp-num 1

python main_nf.py --cuda --cache experiments/hopper --env-name Hopper-v2 --start_steps 10000 --n_flows 5 --flow_family radial --sigma -1 --alpha 0.05 --log-interval 1000 --eval-interval 10000 --ckpt-interval 20000 --seed -1 --exp-num 1

python main_nf.py --cuda --cache experiments/walker --env-name Walker2d-v2 --start_steps 10000 --n_flows 5 --flow_family radial --sigma 0 --alpha 0.05 --log-interval 1000 --eval-interval 10000 --ckpt-interval 20000 --seed -1 --exp-num 1

python main_nf.py --cuda --cache experiments/humanoid --env-name Humanoid-v2 --start_steps 10000 --n_flows 4 --flow_family radial --sigma -1 --alpha 0.05 --log-interval 1000 --eval-interval 10000 --ckpt-interval 20000 --seed -1 --exp-num 1

python main_nf.py --cuda --cache experiments/humanoidrllab --env-name Humanoidrllab --start_steps 10000 --n_flows 2 --flow_family radial --sigma 0 --alpha 0.05 --log-interval 1000 --eval-interval 10000 --ckpt-interval 20000 --seed -1 --exp-num 1


# SAC-AR-DAE
python main_ardae.py --cuda --cache experiments/ant --env-name Ant-v2 --noise_size 10 --alpha 0.05 --start_steps 10000 --policy_type mlp --policy_nonlin elu --num_enc_layers 1 --num_fc_layers 1 --lmbd 100000 --nu 1.1 --eta 0.01 --num-pert-samples 10 --jac-act tanh --gqnet_nonlin relu --gqnet_num_layers 1 --dae-type grad --dae-nonlin elu --dae_num_layers 5 --dae-enc-ctx true --dae-ctx-type state --train-nz-cdae 128 --train-nstd-cdae 1 --num-cdae-updates 1 --std-scale 10000 --delta 0.1 --d-optimizer adam --d-lr 0.0003 --d-beta1 0.9 --d-momentum 0.9 --q-optimizer adam --lr 0.0003 --q-beta1 0.9 --q-momentum 0.9 --mean-sub-method none --mean-upd-method avg --mean-sub-tau 0.005 --use-ptfnc 100 --log-interval 1000 --eval-interval 10000 --ckpt-interval 20000 --seed -1 --exp-num 1

python main_ardae.py --cuda --cache experiments/halfcheetah --env-name HalfCheetah-v2 --noise_size 10 --alpha 0.05 --start_steps 10000 --policy_type mlp --policy_nonlin elu --num_enc_layers 1 --num_fc_layers 1 --lmbd 100000 --nu 1.1 --eta 0.1 --num-pert-samples 10 --jac-act tanh --gqnet_nonlin relu --gqnet_num_layers 1 --dae-type grad --dae-nonlin elu --dae_num_layers 5 --dae-enc-ctx true --dae-ctx-type state --train-nz-cdae 64 --train-nstd-cdae 1 --num-cdae-updates 1 --std-scale 10000 --delta 0.1 --d-optimizer adam --d-lr 0.0003 --d-beta1 0.9 --d-momentum 0.9 --q-optimizer adam --lr 0.0003 --q-beta1 0.9 --q-momentum 0.9 --mean-sub-method none --mean-upd-method avg --mean-sub-tau 0.005 --use-ptfnc 10 --log-interval 1000 --eval-interval 10000 --ckpt-interval 20000 --seed -1 --exp-num 1

python main_ardae.py --cuda --cache experiments/hopper --env-name Hopper-v2 --noise_size 10 --alpha 0.05 --start_steps 10000 --policy_type mlp --policy_nonlin elu --num_enc_layers 1 --num_fc_layers 2 --lmbd 100000 --nu 1.1 --eta 0.01 --num-pert-samples 10 --jac-act tanh --gqnet_nonlin relu --gqnet_num_layers 1 --dae-type grad --dae-nonlin elu --dae_num_layers 5 --dae-enc-ctx false --dae-ctx-type state --train-nz-cdae 128 --train-nstd-cdae 1 --num-cdae-updates 1 --std-scale 10000 --delta 0.1 --d-optimizer adam --d-lr 0.0003 --d-beta1 0.9 --d-momentum 0.9 --q-optimizer adam --lr 0.0003 --q-beta1 0.9 --q-momentum 0.9 --mean-sub-method entms --mean-upd-method avg --mean-sub-tau 0.005 --use-ptfnc 100 --log-interval 1000 --eval-interval 10000 --ckpt-interval 20000 --seed -1 --exp-num 1

python main_ardae.py --cuda --cache experiments/walker --env-name Walker2d-v2 --noise_size 10 --alpha 0.05 --start_steps 10000 --policy_type mlp --policy_nonlin elu --num_enc_layers 2 --num_fc_layers 1 --lmbd 100000 --nu 1.1 --eta 0.01 --num-pert-samples 10 --jac-act tanh --gqnet_nonlin relu --gqnet_num_layers 1 --dae-type grad --dae-nonlin elu --dae_num_layers 5 --dae-enc-ctx part --dae-ctx-type state --train-nz-cdae 128 --train-nstd-cdae 1 --num-cdae-updates 1 --std-scale 10000 --delta 0.1 --d-optimizer adam --d-lr 0.0003 --d-beta1 0.9 --d-momentum 0.9 --q-optimizer adam --lr 0.0003 --q-beta1 0.9 --q-momentum 0.9 --mean-sub-method none --mean-upd-method avg --mean-sub-tau 0.005 --use-ptfnc 100 --log-interval 1000 --eval-interval 10000 --ckpt-interval 20000 --seed -1 --exp-num 1

python main_ardae.py --cuda --cache experiments/humanoid --env-name Humanoid-v2 --noise_size 32 --alpha 0.05 --start_steps 10000 --policy_type mlpdeep --policy_nonlin elu --num_enc_layers 2 --num_fc_layers 3 --lmbd 100000 --nu 1.3 --eta 0.1 --num-pert-samples 10 --jac-act tanh --gqnet_nonlin relu --gqnet_num_layers 1 --dae-type grad --dae-nonlin elu --dae_num_layers 5 --dae-enc-ctx part --dae-ctx-type state --train-nz-cdae 64 --train-nstd-cdae 4 --num-cdae-updates 1 --std-scale 10000 --delta 0.1 --d-optimizer adam --d-lr 0.0003 --d-beta1 0.9 --d-momentum 0.9 --q-optimizer adam --lr 0.0003 --q-beta1 0.9 --q-momentum 0.9 --mean-sub-method none --mean-upd-method avg --mean-sub-tau 0.005 --use-ptfnc 10 --log-interval 1000 --eval-interval 10000 --ckpt-interval 20000 --seed -1 --exp-num 1

python main_ardae.py --cuda --cache experiments/humanoidrllab --env-name Humanoidrllab --noise_size 100 --alpha 0.05 --start_steps 10000 --policy_type mlpdeep --policy_nonlin elu --num_enc_layers 2 --num_fc_layers 3 --lmbd 100000 --nu 1.3 --eta 0.1 --num-pert-samples 10 --jac-act tanh --gqnet_nonlin relu --gqnet_num_layers 1 --dae-type grad --dae-nonlin elu --dae_num_layers 5 --dae-enc-ctx part --dae-ctx-type state --train-nz-cdae 64 --train-nstd-cdae 4 --num-cdae-updates 1 --std-scale 10000 --delta 0.1 --d-optimizer adam --d-lr 0.0003 --d-beta1 0.9 --d-momentum 0.9 --q-optimizer adam --lr 0.0003 --q-beta1 0.9 --q-momentum 0.9 --mean-sub-method none --mean-upd-method avg --mean-sub-tau 0.005 --use-ptfnc 10 --log-interval 1000 --eval-interval 10000 --ckpt-interval 30000 --seed -1 --exp-num 1


# SAC-AR-DAE (w/o jc)
python main_ardae.py --cuda --cache experiments/ant --env-name Ant-v2 --noise_size 10 --alpha 0.05 --start_steps 10000 --policy_type mlp --policy_nonlin elu --num_enc_layers 1 --num_fc_layers 1 --lmbd 0 --nu 0 --eta 0 --num-pert-samples 0 --jac-act tanh --gqnet_nonlin relu --gqnet_num_layers 1 --dae-type grad --dae-nonlin elu --dae_num_layers 5 --dae-enc-ctx true --dae-ctx-type state --train-nz-cdae 128 --train-nstd-cdae 1 --num-cdae-updates 1 --std-scale 10000 --delta 0.1 --d-optimizer adam --d-lr 0.0003 --d-beta1 0.9 --d-momentum 0.9 --q-optimizer adam --lr 0.0003 --q-beta1 0.9 --q-momentum 0.9 --mean-sub-method none --mean-upd-method avg --mean-sub-tau 0.005 --use-ptfnc 100 --log-interval 1000 --eval-interval 10000 --ckpt-interval 20000 --seed -1 --exp-num 1

python main_ardae.py --cuda --cache experiments/halfcheetah --env-name HalfCheetah-v2 --noise_size 10 --alpha 0.05 --start_steps 10000 --policy_type mlp --policy_nonlin elu --num_enc_layers 1 --num_fc_layers 1 --lmbd 0 --nu 0 --eta 0 --num-pert-samples 0 --jac-act tanh --gqnet_nonlin relu --gqnet_num_layers 1 --dae-type grad --dae-nonlin elu --dae_num_layers 5 --dae-enc-ctx true --dae-ctx-type state --train-nz-cdae 64 --train-nstd-cdae 1 --num-cdae-updates 1 --std-scale 10000 --delta 0.1 --d-optimizer adam --d-lr 0.0003 --d-beta1 0.9 --d-momentum 0.9 --q-optimizer adam --lr 0.0003 --q-beta1 0.9 --q-momentum 0.9 --mean-sub-method none --mean-upd-method avg --mean-sub-tau 0.005 --use-ptfnc 10 --log-interval 1000 --eval-interval 10000 --ckpt-interval 20000 --seed -1 --exp-num 1

python main_ardae.py --cuda --cache experiments/hopper --env-name Hopper-v2 --noise_size 10 --alpha 0.05 --start_steps 10000 --policy_type mlp --policy_nonlin elu --num_enc_layers 1 --num_fc_layers 2 --lmbd 0 --nu 0 --eta 0 --num-pert-samples 0 --jac-act tanh --gqnet_nonlin relu --gqnet_num_layers 1 --dae-type grad --dae-nonlin elu --dae_num_layers 5 --dae-enc-ctx false --dae-ctx-type state --train-nz-cdae 128 --train-nstd-cdae 1 --num-cdae-updates 1 --std-scale 10000 --delta 0.1 --d-optimizer adam --d-lr 0.0003 --d-beta1 0.9 --d-momentum 0.9 --q-optimizer adam --lr 0.0003 --q-beta1 0.9 --q-momentum 0.9 --mean-sub-method entms --mean-upd-method avg --mean-sub-tau 0.005 --use-ptfnc 100 --log-interval 1000 --eval-interval 10000 --ckpt-interval 20000 --seed -1 --exp-num 1

python main_ardae.py --cuda --cache experiments/walker --env-name Walker2d-v2 --noise_size 10 --alpha 0.05 --start_steps 10000 --policy_type mlp --policy_nonlin elu --num_enc_layers 2 --num_fc_layers 1 --lmbd 0 --nu 0 --eta 0 --num-pert-samples 0 --jac-act tanh --gqnet_nonlin relu --gqnet_num_layers 1 --dae-type grad --dae-nonlin elu --dae_num_layers 5 --dae-enc-ctx part --dae-ctx-type state --train-nz-cdae 128 --train-nstd-cdae 1 --num-cdae-updates 1 --std-scale 10000 --delta 0.1 --d-optimizer adam --d-lr 0.0003 --d-beta1 0.9 --d-momentum 0.9 --q-optimizer adam --lr 0.0003 --q-beta1 0.9 --q-momentum 0.9 --mean-sub-method none --mean-upd-method avg --mean-sub-tau 0.005 --use-ptfnc 100 --log-interval 1000 --eval-interval 10000 --ckpt-interval 20000 --seed -1 --exp-num 1

python main_ardae.py --cuda --cache experiments/humanoid --env-name Humanoid-v2 --noise_size 32 --alpha 0.05 --start_steps 10000 --policy_type mlpdeep --policy_nonlin elu --num_enc_layers 2 --num_fc_layers 3 --lmbd 0 --nu 0 --eta 0 --num-pert-samples 0 --jac-act tanh --gqnet_nonlin relu --gqnet_num_layers 1 --dae-type grad --dae-nonlin elu --dae_num_layers 5 --dae-enc-ctx part --dae-ctx-type state --train-nz-cdae 64 --train-nstd-cdae 4 --num-cdae-updates 1 --std-scale 10000 --delta 0.1 --d-optimizer adam --d-lr 0.0003 --d-beta1 0.9 --d-momentum 0.9 --q-optimizer adam --lr 0.0003 --q-beta1 0.9 --q-momentum 0.9 --mean-sub-method none --mean-upd-method avg --mean-sub-tau 0.005 --use-ptfnc 10 --log-interval 1000 --eval-interval 10000 --ckpt-interval 20000 --seed -1 --exp-num 1

python main_ardae.py --cuda --cache experiments/humanoidrllab --env-name Humanoidrllab --noise_size 100 --alpha 0.05 --start_steps 10000 --policy_type mlpdeep --policy_nonlin elu --num_enc_layers 2 --num_fc_layers 3 --lmbd 0 --nu 0 --eta 0 --num-pert-samples 0 --jac-act tanh --gqnet_nonlin relu --gqnet_num_layers 1 --dae-type grad --dae-nonlin elu --dae_num_layers 5 --dae-enc-ctx part --dae-ctx-type state --train-nz-cdae 64 --train-nstd-cdae 4 --num-cdae-updates 1 --std-scale 10000 --delta 0.1 --d-optimizer adam --d-lr 0.0003 --d-beta1 0.9 --d-momentum 0.9 --q-optimizer adam --lr 0.0003 --q-beta1 0.9 --q-momentum 0.9 --mean-sub-method none --mean-upd-method avg --mean-sub-tau 0.005 --use-ptfnc 10 --log-interval 1000 --eval-interval 10000 --ckpt-interval 30000 --seed -1 --exp-num 1