生成对抗模仿学习 Generative Adversarial Imitation Learning

关于“对抗生成网络”,可以参考:对抗生成网络 Generative Adversarial Networks


在关于模仿学习的论文中,通常都会指出逆增强学习的不足。即逆增强学习不够直接,提取奖励函数似乎是多此一举。

那么“GAIL 生成对抗模仿学习”中有没有用到奖励函数?

当然是用到的,学习者与专家行为的相似性就是奖励函数。有了这样一个奖励函数,就可以使用诸如 TRPO、PPO 这样的算法来优化策略。

这个奖励函数如何 ... ...

评论:
  • [#{{item.num}}] {{item.post.nickname}}

    {{item.post.textarea}}

图文信息
发布者 inksci
更新时间 2019-11-30 18:19:08
访问数 43
全部 全部文章

墨之科技,版权所有 © Copyright 2017-2027

湘ICP备14012786号     邮箱:ai@inksci.com