https://blog.csdn.net/poulang5786/article/details/80900858
RL:
action 中有终止。
state中有终止。
MDP: 状态S、动作A、奖励R、P(经验)、r(discount vector,平衡近期奖励和远期奖励)
根据当前状态奖励,得到下一个动作的概率分布。
Q*函数:Bellman equation.
DRL:
由于S空间过大,计算Q困难,因此使用CNN等神经网络得到Q函数逼近Q函数。<训练使loss尽可能低,预测Q-value>
经验表:Experience Replay.
(选取一个bench..?)
DQN伪代码:一定概率随机探索,其他情况,模拟当前所有动作,选取所有动作中使Q-R-?函数最大的动作.
缺点:探索动作可能学习困难,试图learn the policy .(AC算法)