Deel Reinforcement Learning笔记

发表于 2018-11-09 更新于 2021-04-08 分类于科研，机器学习，知识点热度：讨论区：

深度强化学习

https://blog.csdn.net/poulang5786/article/details/80900858
RL:
action 中有终止。
state中有终止。
MDP: 状态S、动作A、奖励R、P(经验)、r(discount vector，平衡近期奖励和远期奖励)
根据当前状态奖励，得到下一个动作的概率分布。
Q*函数：Bellman equation.

DRL:
由于S空间过大，计算Q困难，因此使用CNN等神经网络得到Q函数逼近Q函数。<训练使loss尽可能低，预测Q-value>
经验表：Experience Replay.
(选取一个bench..?)

DQN伪代码：一定概率随机探索，其他情况，模拟当前所有动作，选取所有动作中使Q-R-?函数最大的动作.

缺点：探索动作可能学习困难，试图learn the policy .（AC算法）