概要 強化学習アルゴリズムの一つである PPO with Clipping を PyTorch ベースで実装し、 CartPole-v0 を解きます。 色々と参考にしたコードベースや本がありますが、個人の実装なのでバグ等あるかもしれません。あしからず。 できるだけシンプルなままのモデルで書いてみました。 PPO Original paper: https://arxiv.org/abs/1707.06347