关于“对抗生成网络”,可以参考:对抗生成网络 Generative Adversarial Networks
在关于模仿学习的论文中,通常都会指出逆增强学习的不足。即逆增强学习不够直接,提取奖励函数似乎是多此一举。
那么“GAIL 生成对抗模仿学习”中有没有用到奖励函数?
当然是用到的,学习者与专家行为的相似性就是奖励函数。有了这样一个奖励函数,就可以使用诸如 TRPO、PPO 这样的算法来优化策略。
这个奖励函数如何 ... ...
{{item.post.textarea}}
墨之科技,版权所有 © Copyright 2017-2027
湘ICP备14012786号 邮箱:ai@inksci.com