如何让强化学习采样变得更简单
答案:2 悬赏:60 手机版
解决时间 2021-04-04 03:33
- 提问者网友:十年饮冰
- 2021-04-03 21:56
如何让强化学习采样变得更简单
最佳答案
- 五星知识达人网友:怀裏藏嬌
- 2021-04-03 22:56
在机器学习领域一般将机器学习划分为三大类型:有监督学习,无监督学习和强化学习。有监督学习和无监督学习都主要是为了解决分类问题,而强化学习比较特殊,强化学习的目的是为了研究策略,比如让机器人自主的学会如何把花养好,如何在一个未知环境进行探索等。
强化学习的核心问题在于通过研究各种不同策略的价值并给予评价,来自主选择最优策略。策略,即是决策层对于不同的状态所作出的不同反应。以种花而言,看到花处于枯萎的状态,就要施加浇水的动作,看到花叶子变黄的状态,就应当加以施肥的动作。状态在施加不同动作之后,就可能向各个其他状态转移,所以强化学习是在一个高动态的,高复杂性的环境中寻找最佳选择的一种算法。
在程序流程进行时,主要有以下几个方面需要解决:
需要了解各个状态和动作之间的转移关系
实际应用中,我们很难知道在某一个状态施加某动作之后,转移到下一个状态的概率。比如在花枯萎的时候,浇水也不一定会让花恢复健康,可能花还会继续枯萎,甚至死亡。但是我们并不是很容易知道这样的转移概率是多少,是P(健康|枯萎,浇水)的概率大呢,还是P(死亡|枯萎,浇水)的概率更大。这些都需要实际应用中的样本来说明。
需要正确评价各个执行动作的优劣
即使知晓了状态-动作之间的转移关系,为了达到目标,应该以什么准则去评价在不同状态下选择的动作呢(我们将其称之为策略的评估)。一般我们采用状态收益函数和状态-动作收益函数作为评价的标准。在后文中我们会详细说明。
在了解了强化学习的基本思想之后,我们需要探寻的就是具体如何去进行学习了。
1.2.基本记号
在强化学习中,每一个状态一般用s表示,转移概率用p表示,每个状态的收益用r表示,这样,一个普通的状态转换对就可以表示为:,这表示状态s以p的概率转移到状态s’并且得到数值为r的收益。这描述的是一个自然的,无人为干涉的过程,状态之间的转换都是自然发生的,这样的话,我们就没有讨论的意义了,所以,我们加上了a来表示不同状态下才去的动作(人为干涉),从而让我们的状态对变成这样,实际上每一个p所代表的就是特定状态特定动作的转移概率p(s′|s,a)了。在了解了基本记号之后,就可以去设计一个收益方程来评价状态-动作对了。
强化学习的核心问题在于通过研究各种不同策略的价值并给予评价,来自主选择最优策略。策略,即是决策层对于不同的状态所作出的不同反应。以种花而言,看到花处于枯萎的状态,就要施加浇水的动作,看到花叶子变黄的状态,就应当加以施肥的动作。状态在施加不同动作之后,就可能向各个其他状态转移,所以强化学习是在一个高动态的,高复杂性的环境中寻找最佳选择的一种算法。
在程序流程进行时,主要有以下几个方面需要解决:
需要了解各个状态和动作之间的转移关系
实际应用中,我们很难知道在某一个状态施加某动作之后,转移到下一个状态的概率。比如在花枯萎的时候,浇水也不一定会让花恢复健康,可能花还会继续枯萎,甚至死亡。但是我们并不是很容易知道这样的转移概率是多少,是P(健康|枯萎,浇水)的概率大呢,还是P(死亡|枯萎,浇水)的概率更大。这些都需要实际应用中的样本来说明。
需要正确评价各个执行动作的优劣
即使知晓了状态-动作之间的转移关系,为了达到目标,应该以什么准则去评价在不同状态下选择的动作呢(我们将其称之为策略的评估)。一般我们采用状态收益函数和状态-动作收益函数作为评价的标准。在后文中我们会详细说明。
在了解了强化学习的基本思想之后,我们需要探寻的就是具体如何去进行学习了。
1.2.基本记号
在强化学习中,每一个状态一般用s表示,转移概率用p表示,每个状态的收益用r表示,这样,一个普通的状态转换对就可以表示为:
全部回答
- 1楼网友:有你哪都是故乡
- 2021-04-03 23:44
把学习看作一种爱好!! 把爱好看作一种乐趣!! 把乐趣看作一种娱乐!! 把娱乐看作一种习惯!! 在坚持自己的习惯就可以了!
我要举报
如以上回答内容为低俗、色情、不良、暴力、侵权、涉及违法等信息,可以点下面链接进行举报!
点此我要举报以上问答信息
大家都在看
推荐资讯