生成对抗模仿学习 Generative Adversarial Imitation Learning/图文

生成对抗模仿学习 Generative Adversarial Imitation Learning

在关于模仿学习的论文中，通常都会指出逆增强学习的不足。即逆增强学习不够直接，提取奖励函数似乎是多此一举。

那么“GAIL 生成对抗模仿学习”中有没有用到奖励函数？

当然是用到的，学习者与专家行为的相似性就是奖励函数。有了这样一个奖励函数，就可以使用诸如 TRPO、PPO 这样的算法来优化策略。

这个奖励函数如何 ... ...

评论：

{{login["user_name"]}} 退出

图文信息

最新文章