0%

DAN是一种人脸对齐的方法,采用级联神经网络结构,充分利用人脸的全局信息而非局部信息,使其效果优于现有的人脸对齐方法。
       该方法的总体思想为如下几步:
       1)DAN 参考CSR的框架,通过前向深度网络提取特征代替人工特征,训练前向网络得到关键点位的偏差代替CSR中的回归器
       2)用级联的网络结构来实现CSR中的迭代
       3)利用人脸全局信息T(I)、H、F作为前向网络的输入,得到关键点位的偏差
       4)构造级联网络结构
       5)分级训练网络,每级网络loss停止收敛时,训练下一级网络。

开车,
action:沿路行,下个路口直行左右转。普通。
reward:方位和speed。
根据人类的驾驶视频setting。
实验效果一般般。

为了能train出DDPG,先使用监督的数据训练以达到一个好的初始化,通过controllable gating mechanism将各个可能的动作都执行,同时根据reward信号提升DDPG的效果.
清华组论文

待添加。
Deep Reinforcement Learning with Iterative Shift for Visual Tracking
Part-Activated Deep Reinforcement Learning for Action Prediction
Multi-Agent Deep Reinforcement Learning for Multi-Object Tracker
Improving Spatiotemporal Self-Supervision by Deep Reinforcement Learning
Language-driven Temporal Activity Localization: A Semantic Matching Reinforcement Learning Model

任务:

视频中的多行人追踪任务。由于人在场景中的数量自由变化且可能相互遮挡,适用自由度高注重交互的多agent。

概述:

任务分为两个部分,predict和decision。在每一帧形成一个多目标detect的结果,另外通过predict网络使用每一个物体的历史轨迹预测下一帧的各个物体位置(未使用DRL)。
然后,考虑离这个物体最近的其他物体neighbor,根据他定义的距离(分别比较2个结果),判断是否考虑可能造成遮挡的agent,然后将predict、detect、neighbor(或空白图),3张图片输入到Decision Network(DRL环境)。DRL用于学习判断对三张图片最优的利用方式。

Decision部分的DRL细节:

State:理论上包含当前帧的detect图,所有agent的上一帧位置,但multi-agentDRL系统,每个agent的decision网络输入只有3张图片。
action集:{block(Detection结果不存在,使用predict更新位置);ignore(认为detection结果不可信,使用predict更新位置);update(综合predict和detection更新位置);delete(detection结果不存在,predict预测物体已离开场景,删除agent);},另外已使用过的detect结果删除,如果发现有多余的detect,判断有新物体进入场景,初始化一个新的agent。
reward:根据综合选择动作后,预测的位置与ground truth的IoU

实验:

做得非常充分,各种offline和online多目标追踪的指标和对比方法,但是由于对比过多,直观的效果看着并不是很好?作者详细论证了某个指标出色的方法在其他指标表现不好,或者某些情况存在缺陷,以证明自己的方法综合来看比较好,能充分利用上下文信息。

评价:

从理解层面场景适合multi-agent解决。用DRL,利用最近的neighbor,衡量detection以及predict两个结果的可信度。实验非常充分,效果不能说很突出。文章细节写得不错。

思考:

*物体过多,遮挡后可能会出现id出错(认错人)的问题,保留前几帧的物体特征。但是对于行人的相似,还是有一些挑战。因为方法只能考虑两个agent的交互。
*multi-agent,输入Q网络的包括一些其他agent的信息,其他的相比普通drl不是很特别。
*为什么predict部分不用DRL的方法呢?
*类似我之前考虑的reward设计部分的问题,生成多个结果后用DRL判断应该使用哪个结果或综合考虑。然而真正drl的reward,如果再套用drl,这部分奖励很难定义。

协助的多智能体 deep RL algorithm 来学习进行联合物体定位的最优策略。我们的 proposal 服从现有的 RL 框架,但是允许多个智能体之间进行协作。在这个领域当中,有两个开放的问题:
  1. how to make communications effective in between different agents ;
  2. how to jointly learn good policies for all agents.
  
  本文提出通过 gated cross connections between the Q-networks 来学习 inter-agent communication。

方法:

多智能体联合搜索不同的物体。
智能体之间的message通道通过网络层互换,创建新的vitural agent训练比较自由。交互通道使用gate cross connections控制,选用自己的Q网络动作or 选用与其他物体交互的vitural agent的Q网络动作。
实验创造了关联的数据集子集,验证某些物体之间存在关系,比单智能体方法快。不是所有result都很powerful。

所提出的创新点:

  1. 是物体检测领域的第一个做 collaborative deep RL algorithm ;
  2. propose a novel multi-agent Q-learning solution that facilitates learnable inter-agent communication with gated cross connections between the Q-networks;
  3. 本文方法有效的探索了 相关物体之间有用的 contextual information,并且进一步的提升了检测的效果。

多个agent移动

评价:描述的问题很有趣,方法有限。

将强化学习的agent从一个任务迁移到另一个由变化环境,(游戏场景)使用GAN对图片Mapping,将state对应起来。
用模仿学习加速新任务的rl,从imperfect demonstrations,收集原有agent的几条轨迹,模仿学习一个新任务的policy。

参考

cvpr2019,使用DRL交互学习上下文网络和分割网络。
结合context的语义分割
C-net上下文网络:智能体。
S-net分割网络:生成p-map(预测结果),作为环境。原图提取特征和Pyramid Pooling。

将上下文学习问题定义为马尔科夫决策过程,并提出通过C Net、S Net之间的交互来学习上下文。这一优化过程可以通过深度强化学习解决,将p-map视作环境而C Net视作智能体。   

细节不是很明确
文中几乎没有DRL有关state\action的细节,说明DRL不是文中重点而是工具,DRL正成为非differencial的优化问题一个很常见的解决框架。(因为细节比较相关,以后有代码看一下最好了)

DRL使用A3C,细节被忽略。