• 强化学习之Policy Gradient笔记

    本文出自:【InTheWorld的博客】 (欢迎留言、交流)

    Policy Gradient方法是强化学习中非常重要的方法。不同于基于最优价值的算法,Policy Gradient算法更着眼于算法的长期回报。策略梯度根据目标函数的梯度方向去寻找最优策略。策略梯度算法中,整个回合结束之后才会进行学习,所以策略梯度算法对全局过程有更好的把握。DeepMind的David Silver在深度学习讲座中这样评价基于策略的方法:
    Policy Based强化学习方法优点:
    – 收敛性好
    – 在高维和连续问题中比较有效
    – 能学习随机策略

    其缺点有:
    – 容易陷入局部最优
    – 评价一个策略比较低效

    基本理论

    从理论上讲,其实策略梯度其实是更容易理解的一种方法,毕竟我们对梯度下降再… 【查看更多】