cvpr2019,使用DRL交互学习上下文网络和分割网络。
结合context的语义分割
C-net上下文网络:智能体。
S-net分割网络:生成p-map(预测结果),作为环境。原图提取特征和Pyramid Pooling。
将上下文学习问题定义为马尔科夫决策过程,并提出通过C Net、S Net之间的交互来学习上下文。这一优化过程可以通过深度强化学习解决,将p-map视作环境而C Net视作智能体。
细节不是很明确
文中几乎没有DRL有关state\action的细节,说明DRL不是文中重点而是工具,DRL正成为非differencial的优化问题一个很常见的解决框架。(因为细节比较相关,以后有代码看一下最好了)
DRL使用A3C,细节被忽略。