PPO对于离散动作空间的学习效果较好
对于连续动作空间(Pendulum-v0),当仅训练 value loss 时,奖励不上升反而下降。
因此,将 value network 和 policy network 分开,得到得分(100个回合的均值)随训练回合的变化
墨之科技,版权所有 © Copyright 2017-2027
湘ICP备14012786号 邮箱:ai@inksci.com