强化学习的简单认识

数据挖掘与机器学习 fireling 4673℃

机器学习有几大类:有监督学习、无监督学习、半监督学习及强化学习。之前对强化学习不怎么了解,简单看了点资料。总结一下:

强化学习是一个序列决策问题。它是不断通过当前的state(状态)采取相应的action(动作),从而获得相应的reward(奖赏)来对policy(策略)进行训练,以期望在未来的state(状态)下采取更好的action(动作)。

跟HMM模型中Viterbi算法采用的动态规划思想一致,强化学习最后获得的是一个最佳的action(动作)序列,换句话说,强化学习训练出来的是最佳的policy function(策略函数)

转载请注明:宁哥的小站 » 强化学习的简单认识

喜欢 (3)