本文出自:【InTheWorld的博客】 (欢迎留言、交流)
Policy Gradient方法是强化学习中非常重要的方法。不同于基于最优价值的算法,Policy Gradient算法更着眼于算法的长期回报。策略梯度根据目标函数的梯度方向去寻找最优策略。策略梯度算法中,整个回合结束之后才会进行学习,所以策略梯度算法对全局过程有更好的把握。DeepMind的David Silver在深度学习讲座中这样评价基于策略的方法:
Policy Based强化学习方法优点:
- 收敛性好
- 在高维和连续问题中比较有效
- 能学习随机策略
其缺点有:
- 容易陷入局部最优
- 评价一个策略比较低效
基本理论
从理论上讲,其实策略梯度其实是更容易理解的一种方法,毕竟我们对梯度下降再… 【查看更多】
最新评论