8月 | 2018 | InTheWorld

Post Views: 4,768

Policy Gradient方法是强化学习中非常重要的方法。不同于基于最优价值的算法，Policy Gradient算法更着眼于算法的长期回报。策略梯度根据目标函数的梯度方向去寻找最优策略。策略梯度算法中，整个回合结束之后才会进行学习，所以策略梯度算法对全局过程有更好的把握。DeepMind的David Silver在深度学习讲座中这样评价基于策略的方法：
Policy Based强化学习方法优点：
- 收敛性好
- 在高维和连续问题中比较有效
- 能学习随机策略

其缺点有：
- 容易陷入局部最优
- 评价一个策略比较低效

基本理论

从理论上讲，其实策略梯度其实是更容易理解的一种方法，毕竟我们对梯度下降再�… 【查看更多】

强化学习之Policy Gradient笔记

基本理论

近期文章

最新评论

归档

分类

Follow Me

功能

强化学习之Policy Gradient笔记

基本理论

近期文章

最新评论

归档

标签

分类

Follow Me

功能