Deep deterministic Policy Gradient on `HalfCheetah-v2`

Dependencies

Simply type on the terminal python main.py --mode train/test.

After ~ 18000 episodes the mean reward converges to 2700.

Name		Name	Last commit message	Last commit date
Latest commit History 11 Commits
Report		Report
networks		networks
.gitignore		.gitignore
Actor.py		Actor.py
Critic.py		Critic.py
OU_Noise.py		OU_Noise.py
README.md		README.md
main.py		main.py