无奖励工程的端到端机器人强化学习 End-to-End Robotic Reinforcement Learning without Reward Engineering

这篇文章,重要的一点,是看懂这一个算法(RAQ):


在 for each iteration do 循环迭代中,分为 3 个部分:

1、增强学习中的采样

2、增强学习中的训练

第 3 部分,是文章的创新点。首先,选择奖励值最大的 k 对应的样本 $ s_k $ ,而后人为地判断这个状态 $ s_k $ 有没有成功,即人为地标记数据,然后加入到训练集 D 中,D 是用来训练奖励函数 $ \log p_g(y_t|s_t) $ 的。


有任何问题,请留言,我将回复。


算法 3 是关于 RAQ 的,所谓 RAQ 就是 Reinforc ... ...

评论:
  • [#{{item.num}}] {{item.post.nickname}}

    {{item.post.textarea}}

图文信息
发布者 inksci
更新时间 2019-08-05 20:01:47
访问数 10
全部 全部文章

墨之科技,版权所有 © Copyright 2017-2027

湘ICP备14012786号     邮箱:ai@inksci.com