在 TRPO 算法中,使用 KL 约束,即约束前后两个策略的更新距离:
PPO ... ...
{{item.post.textarea}}
墨之科技,版权所有 © Copyright 2017-2027
湘ICP备14012786号 邮箱:ai@inksci.com