无奖励工程的端到端机器人强化学习 End-to-End Robotic Reinforcement Learning without Reward Engineering /图文

无奖励工程的端到端机器人强化学习 End-to-End Robotic Reinforcement Learning without Reward Engineering

这篇文章，重要的一点，是看懂这一个算法（RAQ）：

在 for each iteration do 循环迭代中，分为 3 个部分：

1、增强学习中的采样

2、增强学习中的训练

第 3 部分，是文章的创新点。首先，选择奖励值最大的 k 对应的样本 $ s_k $ ，而后人为地判断这个状态 $ s_k $ 有没有成功，即人为地标记数据，然后加入到训练集 D 中，D 是用来训练奖励函数 $ \log p_g(y_t|s_t) $ 的。

有任何问题，请留言，我将回复。

算法 3 是关于 RAQ 的，所谓 RAQ 就是 Reinforc ... ...

评论：

{{login["user_name"]}} 退出

图文信息

最新文章