0%

Reinforced Cross-Modal Matching and Self-Supervised Imitation Learning for Vision-Language Navigation (cvpr2019满分)

CVPR 2019最佳论文,主要应该是效果好且实用。
Agent学习对应运动轨迹和语言子指令的映射,惩罚错误的轨迹。在环境变化时,智能体用模仿学习,利用之前比较好的轨迹迁移到新环境。

(引用)
具体来说,他们使用了一个匹配指标,它成为了鼓励模型增强外部指令和运动轨迹之间匹配的固有反馈;模型也使用了一个推理导航器,它用来在局部视觉场景中执行跨模态参照。在一个 VLN benchmark 数据集上进行的评估结果表明,们提出的 RCM 模型大幅超越已有模型,SPL 分数提高了 10%,成为了新的 SOTA。为了提高学习到的策略的泛化性,们还进一步提出了一个自模仿学习(SIL)方法,通过模仿自己以往的良好决策的方式探索未曾见过的环境。们表明了 SIL 可以逼近出更好、更高效的策略,这极大程度减小了智能体在见过和未见过的环境中的成功率表现的差别(从 30.7% 降低到 11.7%)

-------------这么快就看完啦^ω^谢谢阅读哟-------------