DAN是一种人脸对齐的方法,采用级联神经网络结构,充分利用人脸的全局信息而非局部信息,使其效果优于现有的人脸对齐方法。
该方法的总体思想为如下几步:
1)DAN 参考CSR的框架,通过前向深度网络提取特征代替人工特征,训练前向网络得到关键点位的偏差代替CSR中的回归器
2)用级联的网络结构来实现CSR中的迭代
3)利用人脸全局信息T(I)、H、F作为前向网络的输入,得到关键点位的偏差
4)构造级联网络结构
5)分级训练网络,每级网络loss停止收敛时,训练下一级网络。
CIRL: Controllable Imitative Reinforcement Learning for Vision-based Self-driving
开车,
action:沿路行,下个路口直行左右转。普通。
reward:方位和speed。
根据人类的驾驶视频setting。
实验效果一般般。
为了能train出DDPG,先使用监督的数据训练以达到一个好的初始化,通过controllable gating mechanism将各个可能的动作都执行,同时根据reward信号提升DDPG的效果.
清华组论文
待阅读
待添加。
Deep Reinforcement Learning with Iterative Shift for Visual Tracking
Part-Activated Deep Reinforcement Learning for Action Prediction
Multi-Agent Deep Reinforcement Learning for Multi-Object Tracker
Improving Spatiotemporal Self-Supervision by Deep Reinforcement Learning
Language-driven Temporal Activity Localization: A Semantic Matching Reinforcement Learning Model
Deep Reinforcement Learning with Iterative Shift for Visual Tracking(ICLR2019)
Dual-Agent Deep Reinforcement Learning for Deformable Face Tracking(ECCV2018)
a tracking agent and an alignment agent,一个移动bounding box,原有1/2。另一个根据当前关键点位置,控制是否停止。共用一个环境。
MA-DRL的框架细节写得不清楚,看起来比较普通没有创新,不像DRL出身的团队。
Collaborative Deep Reinforcement Learning for Multi-Object Tracking
任务:
视频中的多行人追踪任务。由于人在场景中的数量自由变化且可能相互遮挡,适用自由度高注重交互的多agent。
概述:
任务分为两个部分,predict和decision。在每一帧形成一个多目标detect的结果,另外通过predict网络使用每一个物体的历史轨迹预测下一帧的各个物体位置(未使用DRL)。
然后,考虑离这个物体最近的其他物体neighbor,根据他定义的距离(分别比较2个结果),判断是否考虑可能造成遮挡的agent,然后将predict、detect、neighbor(或空白图),3张图片输入到Decision Network(DRL环境)。DRL用于学习判断对三张图片最优的利用方式。
Decision部分的DRL细节:
State:理论上包含当前帧的detect图,所有agent的上一帧位置,但multi-agentDRL系统,每个agent的decision网络输入只有3张图片。
action集:{block(Detection结果不存在,使用predict更新位置);ignore(认为detection结果不可信,使用predict更新位置);update(综合predict和detection更新位置);delete(detection结果不存在,predict预测物体已离开场景,删除agent);},另外已使用过的detect结果删除,如果发现有多余的detect,判断有新物体进入场景,初始化一个新的agent。
reward:根据综合选择动作后,预测的位置与ground truth的IoU
实验:
做得非常充分,各种offline和online多目标追踪的指标和对比方法,但是由于对比过多,直观的效果看着并不是很好?作者详细论证了某个指标出色的方法在其他指标表现不好,或者某些情况存在缺陷,以证明自己的方法综合来看比较好,能充分利用上下文信息。
评价:
从理解层面场景适合multi-agent解决。用DRL,利用最近的neighbor,衡量detection以及predict两个结果的可信度。实验非常充分,效果不能说很突出。文章细节写得不错。
思考:
*物体过多,遮挡后可能会出现id出错(认错人)的问题,保留前几帧的物体特征。但是对于行人的相似,还是有一些挑战。因为方法只能考虑两个agent的交互。
*multi-agent,输入Q网络的包括一些其他agent的信息,其他的相比普通drl不是很特别。
*为什么predict部分不用DRL的方法呢?
*类似我之前考虑的reward设计部分的问题,生成多个结果后用DRL判断应该使用哪个结果或综合考虑。然而真正drl的reward,如果再套用drl,这部分奖励很难定义。
Collaborative Deep Reinforcement Learning for Joint Object Search(CVPR2017)
协助的多智能体 deep RL algorithm 来学习进行联合物体定位的最优策略。我们的 proposal 服从现有的 RL 框架,但是允许多个智能体之间进行协作。在这个领域当中,有两个开放的问题:
1. how to make communications effective in between different agents ;
2. how to jointly learn good policies for all agents.
本文提出通过 gated cross connections between the Q-networks 来学习 inter-agent communication。
方法:
多智能体联合搜索不同的物体。
智能体之间的message通道通过网络层互换,创建新的vitural agent训练比较自由。交互通道使用gate cross connections控制,选用自己的Q网络动作or 选用与其他物体交互的vitural agent的Q网络动作。
实验创造了关联的数据集子集,验证某些物体之间存在关系,比单智能体方法快。不是所有result都很powerful。
所提出的创新点:
1. 是物体检测领域的第一个做 collaborative deep RL algorithm ;
2. propose a novel multi-agent Q-learning solution that facilitates learnable inter-agent communication with gated cross connections between the Q-networks;
3. 本文方法有效的探索了 相关物体之间有用的 contextual information,并且进一步的提升了检测的效果。
多个agent移动
Transfer Learning for Related Reinforcement Learning Tasks via Image-to-Image Translation
评价:描述的问题很有趣,方法有限。
将强化学习的agent从一个任务迁移到另一个由变化环境,(游戏场景)使用GAN对图片Mapping,将state对应起来。
用模仿学习加速新任务的rl,从imperfect demonstrations,收集原有agent的几条轨迹,模仿学习一个新任务的policy。
Attention-aware deep reinforcement learning for video face recognition
用drl训练注意力模型,判断两个视频的人脸是否相同。drl的工作是过滤帧,每一步在一堆帧中选择一个丢弃。
类似用GAN采样的用法。
FROM LANGUAGE TO GOALS INVERSE REINFORCEMENT LEARNING FOR VISION-BASED INSTRUCTION FOLLOWING
将语音控制机器人移动和拾取物品的,从policy改为从逆强化学习的reward。action和state很自然。
实验不是特别convincing,pick比navigate好.
作者提到的问题:人类语言不够精确。
Sampling Strategies for GAN Synthetic Data
将GAN生成的假数据采样的方法,包括
1判别器的confidence score,
2confidence on target label,
3RL:meaningful
Context-Reinforced Semantic Segmentation(cvpr2019)
cvpr2019,使用DRL交互学习上下文网络和分割网络。
结合context的语义分割
C-net上下文网络:智能体。
S-net分割网络:生成p-map(预测结果),作为环境。原图提取特征和Pyramid Pooling。
将上下文学习问题定义为马尔科夫决策过程,并提出通过C Net、S Net之间的交互来学习上下文。这一优化过程可以通过深度强化学习解决,将p-map视作环境而C Net视作智能体。
细节不是很明确
文中几乎没有DRL有关state\action的细节,说明DRL不是文中重点而是工具,DRL正成为非differencial的优化问题一个很常见的解决框架。(因为细节比较相关,以后有代码看一下最好了)
DRL使用A3C,细节被忽略。
分布式系统-知识点(1)
南京大学研究生-分布式系统-个人笔记。
Reinforcement Learning笔记
强化学习,链接
数据增强
数据增强
GAN的笔记(全链接)
GAN
python的参数传递
图像分割评估标准
第一个python+ml实验的踩坑记录
记下bug笔记,随时更新。