Environment Upgrade Reinforcement Learning for Non-differentiable Multi-stage Pipelines

主题：环境更新-解决多阶段不可约管道。
（多阶段流水线算法）
1.底层不能传到高层。2.碰到不可约函数，不能端到端优化。不能联合训练优化。

#单纯从文学方面讲，这个文章分点、介绍好像很清楚。

对比：Fang et al.[11]：多人动作识别。先设计human detector[27]，然后single person pose estimation algorithm [31]
train theagent to learn a good policy through reinforcement learning techniques[30, 29]
验证：instance segmentation task and a pose estimation task
related work:
动作识别：
传统算法[36 ->pictorial structures model to simulate the articulation connection of human body
DeepPose[43] was the ﬁrst work that applied ConvNet
[44, 2, 32] designing better network architectures/ as well as a more reasonable loss function
！生成对抗网络generative adversarial networks (GAN)[7, 6] ：exploiting more geometric constraints of joint interconnectivity, achieving remarkable results.
实例分割：!
[34]使用一种判别卷积网络，该卷积网络进行类不可知分割，然后分两个阶段进行目标分类。他们继续提出一种增广前馈网络，在[35 ]中提出一种新的自顶向下的细化方法。
[9]提出了一种级联结构，包括区分实例、估计掩码和对对象进行分类。
[24]首先提出了一种结合实例掩码预测和分类训练的全卷积端到端解决方案，在COCO 2016分段挑战中获一等奖。
[14]在快速R-CNN中增加用于预测对象掩模的分支与用于边界框识别的现有分支并行，从而击败了现有技术。
机器学习主动搜索：
[3 21 28]
其他：
[40 22 41]

我们的工作：新的反馈联合优化算法。将下层和上层用强化学习智能体联合。
将CV不同模块整合解决多层面的复杂问题。
*如整合目标检测、语义分割、姿态估计（object detection semantic segmentation and pose estimation）
*成为多人行为分析等。
现有问题：1.流水处理无反馈，底层性能过于依赖上层，上层出错结果必然错误。2.很多层连接不可分，问题无法协同处理，如图像分割和扭曲。

框架：

stage:某个处理层次，如目标检测/行为分析。
Agent:从stage2的输出出发，调整stage1
特点：环境和Agent互相训练。

组件：
Enviroment: 一串图像。带有recognition网络的变化的环境。
State:第二步输入、和第二步输出，传入agent。
Action:通过第二步的输入输出，修正第二步的输入图像Ω。
Agent: AC
Reward:

具体framework:

训练：
1.Agent训练：时间差学习
* back-propagation:反向传播算法
*没有用所有数据，否则会聚焦全局最小。我只需要最后一步最小。
#对gradient反向传播对Rnetwork消极影响。
2.环境升级：监督学习+agent

Intuitively ：直觉的
ablation : 消融，切除;冲蚀;消蚀;磨削
demonstrate:证明