Deep Reinforcement Learning that Matters

DDPG

环境

Halfcheetah 较好

Hopper 还行

Swimmer 不行

Gym continuous environments http://inksci.com/hios/hios-456.html


代码

openai baselines 较好


Layer Norm

有更好

(reward scale Halfcheetah 为 1)

不敏感项

激活函数



深度学习推荐
深度学习推荐

墨之科技,版权所有 © Copyright 2017-2027

湘ICP备14012786号     邮箱:ai@inksci.com