同一个算法,进行了 5 次实验,两次成功收敛,三次没有收敛到最优(reward = 1.0),如图:
===========================================================
========================================================
注意到成功收敛的两张奖励图,在时间前期,奖励的值就偏好。因此,按时间线对大于 0.99/0.83 的奖励个数进行计数。如图:
> 0.99
> 0.83
可见,能够收敛到最优的实验,在前期获得高奖励的次数就偏多。
墨之科技,版权所有 © Copyright 2017-2027
湘ICP备14012786号 邮箱:ai@inksci.com