强化学习 policy是什么意思
答案:2 悬赏:30 手机版
解决时间 2021-02-13 04:54
- 提问者网友:放下
- 2021-02-12 04:30
强化学习 policy是什么意思
最佳答案
- 五星知识达人网友:十鸦
- 2021-02-12 05:45
policy 英[ˈpɒləsi] 美[ˈpɑ:ləsi]
n. 政策; 策略; 保险单; 策略性;
[例句]You are advised to read the small print of household and motor insurance policies.
建议阅读家庭财产和汽车保险单中的附属细则。
[其他] 复数:policies
n. 政策; 策略; 保险单; 策略性;
[例句]You are advised to read the small print of household and motor insurance policies.
建议阅读家庭财产和汽车保险单中的附属细则。
[其他] 复数:policies
全部回答
- 1楼网友:北方的南先生
- 2021-02-12 06:36
你好,关于强化学习中on-policy 与off-policy有什么区别
强化学习可以分成off-policy(离线)和on-policy(在线)两种学习方法,按照个人理解,判断一个强化学习是off-policy还是on-policy的依据在于生成样本的policy(value-funciton)和网络参数更新时的policy(value-funciton)是否相同。
q-learning在计算下一状态的预期收益时使用了max操作,直接选择最优动作,而当前policy并不一定能选择到最优动作,因此这里生成样本的policy和学习时的policy不同,为off-policy算法;
而saras则是基于当前的policy直接执行一次动作选择,然后用这个样本更新当前的policy,因此生成样本的policy和学习时的policy相同,算法为on-policy算法。
on-policy 与 off-policy的本质区别在于:更新q值时所使用的方法是沿用既定的策略(on-policy)还是使用新策略(off-policy)。
个人见解,不足之处还望大神指正
我要举报
如以上回答内容为低俗、色情、不良、暴力、侵权、涉及违法等信息,可以点下面链接进行举报!
点此我要举报以上问答信息
大家都在看
推荐资讯