我的第一个开源项目
tensorflow 2.11
gym 0.26.2
python 3.8
根据动作状态空间是否连续,考虑两种游戏环境:
- 离散环境 CartPole-v0
- 连续环境 Pendulum-v1
Q-Learning
SARSA
Double DQN
Dueling DQN
REINFORCEMENT
ActorCritic
Advantage ActorCritic
DDPG
TD3
SAC
SAC with automatic entropy tuning
PPO
Behavior Cloning