重要性采样,从分布说起


但是,这个函数有一个问题。在采样动作的时候使用的是高斯分布,而不是均匀分布。那些离均值近的动作被采样的频率更高,导致它们的“投票次数”更多。

解决这一问题的方法是使用重要性采样,除以采样频率。

三大要素:

A 的计算

用对正确的公式


深度学习推荐
深度学习推荐

墨之科技,版权所有 © Copyright 2017-2027

湘ICP备14012786号     邮箱:ai@inksci.com