与从零开始的强化学习相比,人类会根据现实生活中的经验推测。模仿学习:将人类的经验转移给智能体。
例子:人类进入游戏,看到门会意识到他需要一把钥匙。
传统强化学习: 在解决MDP时我们的最终目标是学习这样一种策略(序列),以便最大化我们的智能体的奖励。
DQN
贝尔曼方程(Bellman equation)
缺点:奖励稀疏性。 “蒙提祖玛的复仇”游戏 非常难的Atari 2600游戏
因此我们需要大量时间。
但是现实中的问题学习没有足够的时间。
模仿学习是通过在某种意义上模仿人类行为来暗示给予智能体关于世界的先前信息。
于是我们希望将人类的学习经验传给智能体。
于是人类需要以自己的行为为数据集。
但是现在没办法找这样的数据集。
所以这是一个没有有效解决的问题。
要点
机器学习还远远没有建立一个能够解决或多或少复杂的现实世界任务的自主智能体;
模仿学习是使这些智能体更接近的可能解决方案之一;
我们还概述了强化学习的基础知识,特别是详细描述了强化算法之一的DQN。