0%

CIRL: Controllable Imitative Reinforcement Learning for Vision-based Self-driving

开车,
action:沿路行,下个路口直行左右转。普通。
reward:方位和speed。
根据人类的驾驶视频setting。
实验效果一般般。

为了能train出DDPG,先使用监督的数据训练以达到一个好的初始化,通过controllable gating mechanism将各个可能的动作都执行,同时根据reward信号提升DDPG的效果.
清华组论文

-------------这么快就看完啦^ω^谢谢阅读哟-------------