但是,这个函数有一个问题。在采样动作的时候使用的是高斯分布,而不是均匀分布。那些离均值近的动作被采样的频率更高,导致它们的“投票次数”更多。
解决这一问题的方法是使用重要性采样,除以采样频率。
三大要素:
A 的计算
用对正确的公式
稳
墨之科技,版权所有 © Copyright 2017-2027
湘ICP备14012786号 邮箱:ai@inksci.com