这篇文章,重要的一点,是看懂这一个算法(RAQ):
在 for each iteration do 循环迭代中,分为 3 个部分:
1、增强学习中的采样
2、增强学习中的训练
第 3 部分,是文章的创新点。首先,选择奖励值最大的 k 对应的样本 $ s_k $ ,而后人为地判断这个状态 $ s_k $ 有没有成功,即人为地标记数据,然后加入到训练集 D 中,D 是用来训练奖励函数 $ \log p_g(y_t|s_t) $ 的。
有任何问题,请留言,我将回复。
算法 3 是关于 RAQ 的,所谓 RAQ 就是 Reinforc ... ...
{{item.post.textarea}}
墨之科技,版权所有 © Copyright 2017-2027
湘ICP备14012786号 邮箱:ai@inksci.com