CIRL: Controllable Imitative Reinforcement Learning for Vision-based Self-driving

发表于 2019-09-19 更新于 2021-04-08 分类于科研，论文，论文笔记，深度学习，强化学习热度：讨论区：

开车，
action：沿路行，下个路口直行左右转。普通。
reward：方位和speed。
根据人类的驾驶视频setting。
实验效果一般般。

为了能train出DDPG，先使用监督的数据训练以达到一个好的初始化，通过controllable gating mechanism将各个可能的动作都执行，同时根据reward信号提升DDPG的效果.
清华组论文

-------------这么快就看完啦^ω^谢谢阅读哟-------------