近端策略优化算法 Proximal Policy Optimization Algorithms/图文 - Deepolicy

近端策略优化算法 Proximal Policy Optimization Algorithms

在 TRPO 算法中，使用 KL 约束，即约束前后两个策略的更新距离：

PPO ... ...

评论：

[#{{item.num}}] {{item.post.nickname}}

{{item.post.textarea}}

{{login["user_name"]}} 退出

登录

图文信息

发布者	inksci
更新时间	2019-07-27 15:41:03
访问数	10
全部	全部文章

最新文章

墨之科技，版权所有 © Copyright 2017-2027

湘ICP备14012786号邮箱：ai@inksci.com