近端策略优化算法 Proximal Policy Optimization Algorithms

在 TRPO 算法中,使用 KL 约束,即约束前后两个策略的更新距离:

PPO ... ...

评论:
  • [#{{item.num}}] {{item.post.nickname}}

    {{item.post.textarea}}

图文信息
发布者 inksci
更新时间 2019-07-27 15:41:03
访问数 10
全部 全部文章

墨之科技,版权所有 © Copyright 2017-2027

湘ICP备14012786号     邮箱:ai@inksci.com