0%

一.语义分割:全监督-半监督(包含交互式)-无监督(label?)
二.交互:

1
polygon-RNN

三.全监督:FCN。(1.从上到下和从下到上。2.网络结构,跨层。3.多规模。4.卷积)

1
Context Encoding for Semantic Segmentation

四.半监督难度:boundingbox->point&squiggles->image level
五.领域自适应: 

1
Fully Convolutional Adaptation Networks for Semantic Segmentation。

六.继续半监督
Class activation map(CAM)


img

1.基于阈值的分割方法

2.基于边缘的分割方法

3.基于区域的分割方法

4.基于聚类分析的图像分割方法

5.基于小波变换的分割方法

6.基于数学形态学的分割方法

7.基于人工神经网络的分割方法

基于阈值的分割方法

阈值分割方法作为一种常见的区域并行技术,就是用一个或几个阈值将图像的灰度直方图分成几个类,认为图像中灰度值在同一类中的像素属于同一物体。由于是直接利用图像的灰度特性,因此计算方便简明、实用性强。显然,阈值分割方法的关键和难点是如何取得一个合适的阈值。而实际应用中,阈值设定易受噪声和光亮度影响。近年来的方法有:用最大相关性原则选择阈值的方法、基于图像拓扑稳定状态的方法、Yager测度极小化方法、灰度共生矩阵方法、方差法、熵法、峰值和谷值分析法等,其中,自适应阈值法、最大熵法、模糊阈值法、类间阈值法是对传统阈值法改进较成功的几种算法。更多的情况下,阈值的选择会综合运用2种或2种以上的方法,这也是图像分割发展的一个趋势。

特点

阈值分割的优点是计算简单、运算效率较高、速度快。全局阈值对于灰度相差很大的不同目标和背景能进行有效的分割。当图像的灰度差异不明显或不同目标的灰度值范围有重叠时,应采用局部阈值或动态阈值分割法。另一方面,这种方法只考虑像素本身的灰度值,一般不考虑空间特征,因而对噪声很敏感。在实际应用中,阈值法通常与其他方法结合使用。

基于边缘的分割方法

基于边缘检测的分割方法试图通过检测包含不同区域的边缘来解决分割问题,是最常用的方法之一。通常不同的区域之间的边缘上像素灰度值的变化往往比较剧烈,这是边缘检测得以实现的主要假设之一。常用灰度的一阶或者二阶微分算子进行边缘检测。常用的微分算子有一次微分(sobel算子,Robert算子等),二次微分(拉普拉斯算子等)和模板操作(Prewit算子,Kirsch算子等)。

特点

基于边缘的分割方法其难点在于边缘检测时抗噪性和检测精度之间的矛盾。若提高检测精度,则噪声产生的伪边缘会导致不合理的轮廓;若提高抗噪性,则会产生轮廓漏检和位置偏差。为此,人们提出各种多尺度边缘检测方法,根据实际问题设计多尺度边缘信息的结合方案,以较好的兼顾抗噪性和检测精度。

基于区域的分割方法

区域分割的实质就是把具有某种相似性质的像索连通,从而构成最终的分割区域。它利用了图像的局部空间信息,可有效地克服其他方法存在的图像分割空间小连续的缺点。在此类方法中,如果从全图出发,按区域属性特征一致的准则决定每个像元的区域归属,形成区域图,常称之为区域生长的分割方法。如果从像元出发,按区域属性特征一致的准则,将属性接近的连通像元聚集为区域,则是区域增长的分割方法。若综合利用上述两种方法,就是分裂合并的方法。它是先将图像分割成很多的一致性较强的小区域,再按一定的规则将小区域融合成大区域,达到分割图像的目的。

特点

基于区域的分割方法往往会造成图像的过度分割,而单纯的基于边缘检测方法有时不能提供较好的区域结构,为此可将基于区域的方法和边缘检测的方法结合起来,发挥各自的优势以获得更好的分割效果。

基于聚类分析的图像分割方法

特征空间聚类法进行图像分割是将图像空间中的像素用对应的特征空间点表示,根据它们在特征空间的聚集对特征空间进行分割,然后将它们映射回原图像空间,得到分割结果。其中,K均值、模糊C均值聚类(FCM)算法是最常用的聚类算法。K均值算法先选K个初始类均值,然后将每个像素归入均值离它最近的类并计算新的类均值。迭代执行前面的步骤直到新旧类均值之差小于某一阈值。模糊C均值算法是在模糊数学基础上对K均值算法的推广,是通过最优化一个模糊目标函数实现聚类,它不像K均值聚类那样认为每个点只能属于某一类,而是赋予每个点一个对各类的隶属度,用隶属度更好地描述边缘像素亦此亦彼的特点,适合处理事物内在的不确定性。利用模糊C均值(FCM)非监督模糊聚类标定的特点进行图像分割,可以减少人为的干预,且较适合图像中存在不确定性和模糊性的特点。

聚类方法应注意几个问题:

(1)聚类的类数如何确定。

(2)怎样确定聚类的有效性准则。

(3)聚类中心的位置和特性事先不清楚时,如何设置初始值。

(4)运算的开销。

并且FCM算法对初始参数极为敏感,有时需要人工干预参数的初始化以接近全局最优解,提高分割速度。另外,传统FCM算法没有考虑空间信息,对噪声和灰度不均匀敏感。

基于小波变换的分割方法

基于小波变换的阈值图像分割方法的基本思想是,首先由二进小波变换将图像的直方图分解为不同层次的小波系数,然后依据给定的分割准则和小波系数选择阈值门限,最后利用阈值标出图像分割的区域。整个分割过程是从粗到细,有尺度变化来控制,即起始分割由粗略的L2(R)子空间上投影的直方图来实现,如果分割不理想,则利用直方图在精细的子空间上的小波系数逐步细化图像分割。分割算法的计算馈与图像尺寸大小呈线性变化。小波变换为信号在不同尺度上的分析和表征提供了一个精确和统一的框架。从图像分割的角度来看,小波分解提供了一个数学上完备的描述;小波变换通过选取合适的滤波器,可以极大地减少或去除所提取的不同特征之间的相关性,不仅具有“变焦”特性,而且在实现上有快速算法。

特点

小波变换是一种多尺度、多通道的分析工具它是空域和频域的局域变换,因而能有效地从信号中提取信息,通过伸缩和平移等运算功能对函数或信号进行多尺度分析,解决了傅立叶变换不能解决的许多问题。近年来多进制小波开始用于边缘检测。另外,利用正交小波基的小波变换也可提取多尺度边缘,并可通过对图像奇异度的计算和估计来区分一些边缘的类型。

基于数学形态学的分割方法

数学形态学是一种非线性滤波方法,可以用于抑制噪声、特性提取、边缘检测、图像分割等图像处理问题。数学形态学首先被用来处理二值图像,后来也被用来处理灰度图像,现在又有学者开始用软数学形态学和模糊形态学来解决计算机视觉方面的问题。数学形态学的特点是能将复杂的形状进行分解,并将有意义的形状分量从无用的信息中提取出来。它的基本思想是利用一个称为结构元素的探针来收集图像的信息,当探针在图像中不断的移动时,不仅可根据图像各个部分间的相互关系来了解图像的结构特征,而且利用数学形态学基本运算还可以构造出许多非常有效的图像处理与分析方法。其基本的形态运算是腐蚀与膨胀。腐蚀具有使目标缩小、目标内孔增大以及外部孤立噪声消除的效果;而膨胀是将图像中与目标物体接触的所有背景点合并到物体中的过程,结果是使目标增大、孔径缩小,可以增补目标中的空间,使其形成连通域。数学形态学中另一对基本运算方法是开运算和闭运算。开运算具有消除图像是细小物体,并在物体影响纤细处分离物体和平滑较大物体边界的作用;闭运算具有填充物体影像内细小空间, 接邻近物体和平滑边界的作用。

特点

数学形态学应用于图像分割,具有定位效果好、分割精度高、抗噪声性能好的特点。同时这种方法也有着自身的局限性:由于在图像处理的前期工作中,采用数学形态学的开(闭)运算,进行图像处理后,依然存在大量与目标不符的短线和孤立点;由于预处理工作的不彻底,还需要进行一系列的基于点的开(闭)运算,因此运算速度明显下降。如何将数学形态学与其它方法综合运用以克服这些缺陷,将是数学形态学以后的工作方向。连接邻近物体和平滑边界的作用。

基于人工神经网络的分割方法

近年来,人工神经网络识别技术已经引起了广泛的关注,并应用于图像分割。基于神经网络的分割方法的基本思想是通过训练多层感知机来得到线性决策函数,然后用决策函数对像素进行分类来达到分割的目的

特点

用人工神经网络的方法分割图像,需要大量的训练数据。神经网络存在巨量的连接,容易引入空间信息,能较好地解决图像中的噪声和不均匀问题。选择何种网络结构是这种方法要解决的主要问题。

基于遗传学算法的分割方法

遗传算法(GA),是一种模拟自然选择和遗传机制的搜索和优化过程,它具有很强的全局优化搜索能力,是一种具有广泛适用性的自适应搜索方法。它在搜索空间中是在种群中而不是在单点上进行寻优,它在求解过程中使用遗传操作规则而不是确定性规则来工作。这些特点使得遗传算法很适于应用在图像分割中,尤其是阈值分割法以及区域生长法中。利用GA的全局寻优能力及对初始位置的不敏感特性,可以改进图像分割的性能。

特点

遗传算法应用于图像分割,其难点在于适应度函数的选择以及交叉概率和变异概率的确定。GA还有可能收敛于局部最优。可考虑使用能够自适应设置交叉概率和变异概率自适应遗传算法以及和模拟退火法相结合的混合遗传算法。

主题:视频中,基于骨架的行为识别。
解读:https://blog.csdn.net/b224618/article/details/81143736
解读:https://blog.csdn.net/chenhaojing/article/details/81476244

其他人:用DRL做行为识别的很少、类似的工作一般一次提取一个关键帧

框架:用DRL训练 FDNet提取关键帧,用GCNN训练。

img1

RL:

状态:F\M\Sb
F:global frames: 所有帧的信息:帧数关键点数三个维度。
    *帧非整数:双三次插值。保证首尾与原相同。
        * 双三次插值(英语:Bicubic interpolation)是二维空间中最常用的插值方法。
M:selected frames:当前被选择帧的信息。
Sb:被选择帧的掩码

动作:向哪个方向移动帧(3种)
    *移动有固定范围,不会交叉。上下界:当前帧和下一帧的一半
奖励:GCNN训练好。从绝对正确帧与错误帧跳跃时加大奖励惩罚,其他用
img2

GCNN:(这里有一些数学公式没看懂)
构图,后卷积
img3

loss function选取的是交叉熵(= =) 
    *交叉熵:度量两个概率分布间的差异性信息

训练:使用 policy gradient。Deep Q-learning工作量大。
算法:先用等间距帧训练GCNN,之后训练和用DRL调整。

评价

优点:在动作识别领域,增强学习的应用还不多。基于骨架的CNN,之前研究只考虑互连骨架,其实不互连的也有用。
缺点:1.关键帧数量。2.移动卡住,有些范围无法达到等问题。3.正确帧一个范围。4.有的帧从对到错,有的帧从错到对(r是累加的?还是一个?)
    *这个帧移动/奖励函数 的机制一定有问题,可以构造一下看看。但是DRL本来就不能解决。。


vertex
顶点
cross-entropy
交叉熵
sensory
感觉
mutually
交互地
frame
框架

concatenate
连接

aggregate
总计的

enforce
执行

主题:图像裁剪

image cropping    :根据图片的构图裁剪图像
点评:https://baijiahao.baidu.com/s?id=1594068742057154438&wfr=spider&for=pc
多数弱监督学习:基于滑动窗口机制。缺点:1.限定纵横比,裁剪大小任意。2.需要上万的备选窗口,费时间。

我们的工作概述:

将图像裁剪看成序列决策过程,提出弱监督强化学习框架:Aesthetics Aware Reinforcement Learning (A2-RL)

framework

-》尤其是提出一种关于美学图像裁剪的奖励函数
-》与人类裁剪图像相同,采用一种综合的状态表示法,表示当前视图和历史经验。
-》采用端到端的actor-critic结构训练agent智能体
-》agent采用一些不可视的裁剪数据集评估,发现跟原来的方法比时间快、窗口少,打到要求。

他人工作步骤:

密集提取备选窗口
找到每个窗口的特征
评估找到最佳区域

我们评价:

第一个使用强化学习解决图像裁剪问题。选择窗口很快得到任意形状的结果。
验证数据集:[34, 11, 4]

他人具体工作:

[15, 7, 19, 9]:设计手动的特征,基于人类的直觉和摄影的规则技巧
感谢深度学习和大规模数据集[22],[16, 20, 8]使用深度学习进行审美评价
两种类型方法:1.基于美学。2.基于注意力机制
    [28, 27, 24, 2] 基于注意力:找到最显眼的东西,不考虑构图
    基于审美:找到最合适构图。 评价基于美学质量分类法 [23, 11]。或使用RankSVM [4] or RankNet [5]对比原始图像和裁剪图像丢弃低质量。或重定向方法 [6, 3]调整目标和原始纵横比并不丢弃重要内容。
两种监督:1.监督(boxs贵)。2.弱监督(滑动窗口)。取决于是否使用 bounding box annotations
我们使用强化学习选择窗口。
*Hong et al. [12]也讲看作时间序列问题,但是使用了bba
强化学习在图像中的成功应用:图像主题〔26〕、物体检测〔1, 13〕和视觉关系检测〔18〕
*active object localization method [1]在无区域检测的检测算法中表现最好
*tree-RL method [13]用强化学习获取区域建议比RPN [25]更好
#上述强化学习算法用了bba做标记,我们只用美学质量做标记。

主题:智能体读取原始图像和窗口图像,根据经验状态做出动作分割图像,得到外部奖励,调整。

状态空间:st,当前+历史状态的集合。使用LSTM记忆历史视图。
动作空间:14个,大小、位置、长宽比。移动为0.05倍的图片。终止有触发器,自动停止,当奖励分数不再增加时。
奖励函数:用aesthetic score。比较每次和上一次。为了快点结束,加一个和次数t相关的奖励函数。
奖励函数:

。sign:符号函数?(-1/1)。t为操作次数。
*长宽比超过2或不足0.5,给出消极信号nr
ar和nr调整。

结构:

图像:5个卷积block,1个全连block。
接着分为两部分。Agent:3个全连层+LSTM(长短期记忆网络)。另一部分评估。
两个输出:actor:critical
image

模型训练:

A3C

模型评估:

数据集描述,数据集表现略。参数:相同面积/总截取面积。
和之前方法、不采用LSVM、不采用纵横比截取对比。

*来源:中科院自动化所智能计算与感知中心

cropping
裁剪
#proposal 
提议\建议(region proposal )
theoretically
理论上
composition
构图
optimize
优化
intuitional
直觉的
mechanism
机制
manipulate
操纵
convolution
卷积
supervision
监督
execute
执行
assess
评估
annotation
注释
converge
收敛
estimation
评价
novel
新的
heuristic
启发式
asynchronous
异步的
obtain
得到
corresponding
相应的
optimization
最优化
densely
密集的
penalty
刑罚
entropy

extract
提取
modify
修改
denote
代表
inevitably
不可避免地
capture
捕获
parameters
参数
discriminate
辨析
trigger
触发器

主题:多工具图像复原

1.大神经网络瞎搞 2.针对单一的问题。
缺点:耗时和浪费资源、不透明

我的改进:小型工具、多个不同复杂度的神经网络、通过RL选取合适工具。透明、快速。

难点:调整程度、工具使用顺序;不可逆、相互影响

Agent:

action(略)、state(当前图像,历史动作向量)
award: 处理前后PSNR差值(很方便换其他的,如perceptual loss [18],GAN loss)
img
结构:
Feature Extractor: 一个全联层+4层CNN
LSTM:长短期记忆网络
One-hot Encoder: 独热编码

训练:

Deep Q-learning
MSE均方误差最低。
损失函数:

 r = 0.99
两种更新:
1.随机。2.序列更新
联合训练:
对于输入图像,先通过工具链前向传播得到最后的复原图像,通过与清晰参考图像对比得到MSE损失,然后通过工具链对误差进行反向传播,根据平均的梯度值更新工具网络的参数
学习:初始学习度0.1,每20代减少0.1。使用Adam [21] optimizer训练Agent

结果:

和DnCNN [44]and VDSR [19]对比,效果相似的情况下复杂度明显降低

分析:

1.工具链长度、数量:12/3.
2.奖励函数:对比多个运行效果。采用的不见得最好,比其他表现好。
3.自动停止:奖励函数下降不超过0.15db时自动停止。小的失真如果不停止容易过度修复。

优点:新思路。

多工具自适应,解决其他图像处理的问题。
在细节上没有什么新鲜的,工具也比较简单。

来源:sensetime

complexity
复杂性
artifacts
人工制品
parameter
参数
specialized
专业的
degradation
毁坏
severity
严重程度
appropriate
合适的,适当的
inherently
固有地
progressively
逐步地
scheme
方案
collaboratively
协同地
deem
认为
conventional
传统的
philosophy
哲学
depict
描绘
distortions
畸变
adaptively
自适应
simultaneously
同时地
immense
巨大的
aforementioned
上述
extent
程度
demonstrated
论证
potentially
潜在地
simultaneously
同时地
discriminative
判别式
contaminated
污染
recursion
递归
compression
压缩
distortion
失真
orthogonal
正交
incorporated
合并
mechanism
机制
hallucination
幻觉
out-of-focus blur
失焦模糊
exposure
暴露
intermediate
中间的
irreversible
不可逆
Markov Decision Process
马尔可夫决策
refine
精炼
propose
建议
recurrent
复发的
plausible
貌似有理的
corrupt
腐坏的
robustness
鲁棒性
essential
本质的
derive
得到
empirically
经验性的
depict
描绘
concatenated
级联的
derived
衍生的
episode
片段
sequential
时序
gradient
梯度
iteration
迭代、重复

主题:二进制图像表示法。
问题:二进制图像表示法中出现模棱两可的位的处理方法。认为点之前有联系,建图,用DRL将某些点之间添加链接。
img

Bitwise Interaction Mining
descriptors
acyclic
crucial
Extracting
descriptors
essential
enhance
quantization
binarization
implicit
binomial
quantize
orientation
按位
交互
挖掘
描述符
无环的
关键的
提取
描述符
本质的
增强
量化
二值化
隐性的
二项式
量子化
方向

主题:用DRL改进基于RPN网络的目标检测。

Region Proposal Network:
每个点有3种长宽比*3种大小尺寸的窗口。选择跟groundtruth匹配度最高的窗口。
fast-RCNN:每一部分区域选择匹配最高的窗口,迭代。
文章:通过DRL选择窗口,提高准确度和速度。
img

主题:环境更新-解决多阶段不可约管道。
(多阶段流水线算法)
1.底层不能传到高层。2.碰到不可约函数,不能端到端优化。不能联合训练优化。

#单纯从文学方面讲,这个文章分点、介绍好像很清楚。

对比:Fang et al.[11]:多人动作识别。先设计human detector[27],然后single person pose estimation algorithm [31]
train theagent to learn a good policy through reinforcement learning techniques[30, 29]
验证:instance segmentation task and a pose estimation task
related work: 
动作识别:
传统算法[36 ->pictorial structures model to simulate the articulation connection of human body
DeepPose[43] was the first work that applied ConvNet
 [44, 2, 32]  designing better network architectures/ as well as a more reasonable loss function
!生成对抗网络generative adversarial networks (GAN)[7, 6]  :exploiting more geometric constraints of joint interconnectivity, achieving remarkable results.
实例分割:!
[34]使用一种判别卷积网络,该卷积网络进行类不可知分割,然后分两个阶段进行目标分类。他们继续提出一种增广前馈网络,在[35 ]中提出一种新的自顶向下的细化方法。
[9]提出了一种级联结构,包括区分实例、估计掩码和对对象进行分类。
[24]首先提出了一种结合实例掩码预测和分类训练的全卷积端到端解决方案,在COCO 2016分段挑战中获一等奖。
[14]在快速R-CNN中增加用于预测对象掩模的分支与用于边界框识别的现有分支并行,从而击败了现有技术。
机器学习主动搜索:
[3 21 28]
其他:
[40 22 41]

我们的工作:新的反馈联合优化算法。将下层和上层用强化学习智能体联合。
将CV不同模块整合解决多层面的复杂问题。
    *如整合目标检测、语义分割、姿态估计(object detection semantic segmentation and pose estimation)
    *成为多人行为分析等。
现有问题:1.流水处理无反馈,底层性能过于依赖上层,上层出错结果必然错误。2.很多层连接不可分,问题无法协同处理,如图像分割和扭曲。

框架:
img
stage:某个处理层次,如目标检测/行为分析。
Agent:从stage2的输出出发,调整stage1
特点:环境和Agent互相训练。

组件:
Enviroment: 一串图像。带有recognition网络的变化的环境。
State:第二步输入、和第二步输出,传入agent。
Action:通过第二步的输入输出,修正第二步的输入图像Ω。
Agent: AC
Reward:
img2

具体framework:
img3

训练:
1.Agent训练:时间差学习
    * back-propagation:反向传播算法
    *没有用所有数据,否则会聚焦全局最小。我只需要最后一步最小。
    #对gradient反向传播对Rnetwork消极影响。
2.环境升级:监督学习+agent

Intuitively :直觉的
ablation : 消融,切除;冲蚀;消蚀;磨削
demonstrate:证明

主题:色彩增强
原文:https://www.arxiv-vanity.com/papers/1804.04450/
简介:使用DRL的颜色增强方法,选取图像增强的操作。训练使用高质量图像,进行扭曲-恢复的训练。(!这个可以节省标记时间和成本和主观性,为其他提供参考)

#感觉跟修复受损图像的有点像啊

他人工作:

Exemplar-based methods:(不用管了)
基于学习: 源颜色分布到目标颜色分布

  • 多模态问题:??
    我们:马尔科夫决策过程,将修饰看作全局颜色调整。
    基本操作:亮度、对比度、白平衡

#不同图像受到不同人群喜爱:改变重一点轻一点。
#逆过程(有人要吗??);滤镜添加
#想法:锐化等。图像局部处理(目标检测/图像分割+处理过程)。
#随机训练:但是可能和现实可能见到的图片相差甚远。现实。死黑死白到失真问题。

对比:

基于关键词搜索;基于图片风格搜索; 数据库中找到候选图像,然后搜索局部颜色增强算子。
基于学习:深度。。
和我们最接近:Yan \etal[19] 。区别:我们的智能体直接选择一个操作。不需要按步骤评价。不受限于数据集。动作集不受限。
之前的数据集有分布偏差,需要训练对得到特定分布,泛化性差。
生成对抗网络:可以用于此工作。*一个生成对抗网络的应用例子。

模型:

目标函数:人类输入图像作为标准背景、我们要的图像跟它比最接近。
img1
最小。
对比函数:
img2
马尔可夫决策:状态(上下文+颜色)、动作。。
deterministic 每一步操作确定。
加上次数t:
img3

框架:Q-learning

学习:选取最高。
#此算法是贪心。考虑采用其他选取方法?

动作空间: #叠加有效。
img4

?语境特征: CIELab

训练:

1.扭曲-恢复训练。选取一些简单、实际、非线性类型的随机扭曲

基于tf, Adam优化器

特征选择:sixth layer of VGG16 [16] model

优点:1.最重要:扭曲恢复方法。2.强化学习还可以。


pose estimation 姿态估计
semantic <语>语义的,语义学的
segmentation 分割; 分段; 切分; 分节
sophisticated 复杂的; 精致的; 富有经验的; 深奥…
distortion 扭曲,变形; 失真,畸变; 扭转
terminate 结束; 使终结; 解雇; 到达终点站; 结束的
Notation 记号,标记法
recognition 意识
threshold 阈值
Temporal 时间的; 世俗的; 暂存的; <语>表示时…
Inference 推理; 推断; 推论
Intuitively 直觉地,直观地; 由直觉而得地
gradient 梯度,陡度; 变化率,梯度变化曲线; <…
in line with 本着; 跟…一致,符合
recognition network 识别网络

题目描述:一摞积木(1e5),每个长宽都是1*1,高h,密度ρ,由题目输入。每块积木承重a,由题目输入(超重不会塌)。现在我从第一块开始一块一块的堆积木,问堆到第几块的时候超重体积超过V,V由题目输入。

阅读全文 »