0%

受疫情影响,机房停电关门,有电的服务器连不了网了,而我环境没有装tensorflow,最后三天时间人工查找+下载+安装了60多个依赖包QwQ。吸取经验:即使暂时用不到,该有的实验环境包还是要有的。

阅读全文 »

受疫情影响,机房停电关门,有电的服务器连不了网了,而我环境没有装tensorflow,最后三天时间人工查找+下载+安装了60多个依赖包QwQ。吸取经验:即使暂时用不到,该有的实验环境包还是要有的。

阅读全文 »

动机和概述:

平衡MD和FA两个指标,分开使用两个Generator,每个Generator使用不同的网络,分别根据任务生成一个结果。最后会根据两个结果以及两个的平均结果?
使用Conditional GAN 进行交互和对抗。

+Conditional GAN:

一个挺通用而早期的GAN框架,与普通GAN的具体区别是输入包括判别条件以及图像两部分,以保证生成器生成的图像不但接近真实而且符合判别要求(如将标签作为判别条件输入G和D,保证生成器生成的不是其他种类的图片。)文中将input image作为条件,ground truth和两个生成的predicted image都输入cGAN,loss做了从两个到三个的简单的改动。

评价:

想法和动机像老师提到的idea一样不错。但是这个工作的Loss也是由好几个部分组成:

  •  cGAN生成的对抗loss;
    
  •  两种结果间的一致性loss;
    
  •  而且也对另外一个指标加进去了,只是加了个很小的权,据作者说可以达到更好的initialization.
    
  •  最后对这三种Loss的重要性加了个权,而且属于实验超参数-.-
    
    实验:红外数据集太少,于是收集了一部分真实数据并扩充了一部分人造数据,数据集开源了。。分别对比了普通的小物体检测和红外线图小物体检测方法,红外线图检测方法表现非常好(大概是研究的人少,任务相对困难),普通的小物体检测的Precision和F-measure还行,recall表现不够好,作者解释整体看结果还不错。

    总之Loss看起来不是很漂亮,不知道如果时间更加充足,有没有机会阅读更多paper加以改进。


*在红外线图等一些冷门的领域做实验,我觉得是可以的,(其实去年就有想到)

强化,模仿学习,迁移

提出通过合成数据渲染环境随后将策略迁移到真实环境中。虽然合成环境有利于来促进现实世界中的导航训练,

但真实环境与合成环境有两个方面不同。首先,两种环境的视觉表示具有显着的差异。其次,两个环境的房屋计划有很大不同。因此,需要在强化模型中调整两种类型的信息,即视觉表示和策略行为。视觉表征和策略行为的学习过程是互惠的。

我们提出联合调整视觉表现和策略行为,以实现环境和策略的相互影响。具体来说,我们的方法采用了用于视觉表征转移的对抗特征适应模型和用于策略行为模仿的模拟策略。实验结果表明,我们的方法在没有任何额外的人类注释的情况下优于基础模型高达21.73%。

应用场景:

本文提出的视觉特征适应模型和策略模拟模型可以有效将机器人在虚拟环境中学习到的策略和特征迁移到实际场景中,有利于导航机器人,无人车等需要大量数据训练的应用在缺乏复杂场景的真实数据时,通过渲染环境获得更好的策略。

视觉特征适应模型和策略模拟模型,可以有效将机器人在虚拟环境中学习到的策略和特征迁移到实际场景中

基于单视角深度图恢复完整三维场景,提出了一种基于三维 与 二维卷积神经网路协同学习的多视角补全技术,并首次将深度强化学习用于引入该问题的求解过程。本文的方法在公开数据集上获得了世界领先水平。

基于单视角深度图恢复完整三维场景,提出了一种基于三维 与 二维卷积神经网路协同学习的多视角补全技术,并首次将深度强化学习用于引入该问题的求解过程。本文的方法在公开数据集上获得了世界领先水平。

本工作受阿里巴巴创新研究计划资助。

智能体用DRL挑选合适的种子,GAN的G生成点云,D判断并给出reward
img1
img2
评价:文中其实只是用DRL帮G挑选合适的生成点云的种子,也不是特别新颖创新的。但DRL确实跟各种其他框架结合可以。

(以下内容来自引用)
RL GAN Net,其中强化学习RL代理提供对生成对抗性网络GAN的快速且稳健的控制。

框架应用于点云形状完成,通过控制GAN将嘈杂的部分点云数据转换为高保真完成形状。虽然GAN不稳定且难以训练,但我们通过在潜在空间表示上训练GAN来避免问题,其中空间表示与原始点云输入相比减小;

2使用RL代理来查找到GAN的正确输入生成最适合当前不完整点云输入的形状的潜在空间表示。建议的管道可以完美地完成具有大量缺失区域的点云。

据我们所知,这是第一次尝试训练RL代理来控制GAN,这有效地学习了从GAN的输入噪声到点云的潜在空间的高度非线性映射。

RL代理取代了复杂优化的需要,从而使我们的技术实时化。
此外,我们证明我们的管道可用于提高缺少数据的点云的分类准确性。

CVPR 2019最佳论文,主要应该是效果好且实用。
Agent学习对应运动轨迹和语言子指令的映射,惩罚错误的轨迹。在环境变化时,智能体用模仿学习,利用之前比较好的轨迹迁移到新环境。

(引用)
具体来说,他们使用了一个匹配指标,它成为了鼓励模型增强外部指令和运动轨迹之间匹配的固有反馈;模型也使用了一个推理导航器,它用来在局部视觉场景中执行跨模态参照。在一个 VLN benchmark 数据集上进行的评估结果表明,们提出的 RCM 模型大幅超越已有模型,SPL 分数提高了 10%,成为了新的 SOTA。为了提高学习到的策略的泛化性,们还进一步提出了一个自模仿学习(SIL)方法,通过模仿自己以往的良好决策的方式探索未曾见过的环境。们表明了 SIL 可以逼近出更好、更高效的策略,这极大程度减小了智能体在见过和未见过的环境中的成功率表现的差别(从 30.7% 降低到 11.7%)

强化学习聚类。解决action过大:用一个recommender推荐两个图片,action判断是否相连。(???这是个很奇怪的用法)按时间给不同操作加权。
逆强化学习:本质是reward不通过人为设定,而是从其他算法,用少量样本以及action,用短视的方法学习reward。

与block-wise qnn同作者,设计reward,通过强化学习生成的网络尽可能接近人工设计的经典网络模型。主要是比较规范。
关于NAS的文章很多,形成了一个体系。除了提升性能外,很多都在为减小搜索复杂性/看起来更加规范而创新。