0%

主题:交互式图像分割的自动种子生成。保证少量用户输入的情况下的鲁棒性
用户只需要在一开始的时候指定一个背景里的点和一个目标物体的点,剩下的都会自动生成.
https://blog.csdn.net/chenhaojing/article/details/82667017

贡献:

1.将交互式分割任务变为马尔科夫过程,智能体添加种子辅助判断。
2.新的奖励函数。intersection-over-union (IoU) score.

他人工作:

交互式切割
1.Numerous methods such as GrabCut [26], random walks [13, 16], geodesics [5], and methods with shape prior [30, 14]
2.Wu et al. [33]considered interactive segmentation  as a weakly supervised learning problem   sweeping line multiple instance learning (MIL)
3.for extending seed information.
4.FCN etc.
img1
状态:整个图。
动作:给每个点标记为红/绿
分割网络:RW,成型的分割网络。
奖励:common metric。
除IoU,借鉴:我们认为分的点的类型和GT相比是对的就给奖励。
在IoU的基础上:一个GT-MASK 从中间向外分成4部分,当生成的新seed在不同的区域时,给不同的Reward.
img2
img3

实验

论证了我们的Reward和IoU的关系比较合理。

经典的分割:https://blog.csdn.net/xiangz_csdn/article/details/79303497

成型算法:
    FC-DenseNet: Fully convolutional densenets for semanbtic segmentation. CVPRW 2017.
    Random walk.
(来自SeedNet)交互式图像分割
交互方式: contour; scribble; bounding box.
成型算法: GrabCut[26]; random walks[13,16]; geodesics[5]; shape prior[30, 14]


数据集:
Pascal VOC(20类,6929图, 类别层面的标注和个体层面的标注,可做语义/实例分割)
CityScapes(30类,驾驶场景。5000精细(像素精细)标注和20000粗糙标注(大概的轮廓),两级别标注);
MSCOCO(难度相对大。  80 类,有超过 33 万张图片,其中 20 万张有标注,整个数据集中个体的数目超过 150 万个)


数据集2:
CVPPP leaf segmentation(实例分割)
KITTI car segmentation(实例分割)


VOC
https://blog.csdn.net/weixin_38437404/article/details/78230233?locationNum=6&fps=1

Annotations:17125个对象, .xml格式的标签
ImageSets:包括action layout main segmentation四个部分的内容,是数据集中每一种类型图片的信息。
JPEGImages: 17125张jpg图片,包括训练图片和测试图片。
SegmentationClass: 分类结果,2913张png图片
SegmentationObject: 也是物体分割后的结果,总共2913张png图片。
* SegmentationClass: 标注出每一个像素的类别 ;
* SegmentationObject:: 标注出每一个像素属于哪一个物体。


https://blog.csdn.net/Cxiazaiyu/article/details/81866173
Cityscape

技术流派:FCN改进
简称:DFN
来源:CVPR2018
效果: state-of-art,86.2% mean IOU on PASCAL VOC 2012、82.7% without pertrained, 80.3% mean IOU on Cityscapes dataset
对比:FCN、PSPNet、RefineNet+、ResNet-38+等
速度:未知
代码框架:tensorflow
trick:基于Res-101,多种论文提到的策略,加入了flip后的样本


https://arxiv.org/pdf/1804.09337.pdf
https://github.com/YuhuiMa/DFN-tensorflow


问题:特征提取时的类内不一致性以及类间相似性。基于FCN改进。
Discriminative Feature Network,分两部分:
类间相似,如相连的patch来自不同类但是内容相似:Border Network.       
    ->[24,40,6,30]认为一个dense recognition 问题,不解决此问题。   
    ->训练过程中整合语义边界损失,使类间不同。
类内不同,部分不相同:Smooth Network.     
    ->由于需要提取多规模特征,有的规模标签可能出错,因此需要合理选择特征。
    ->U-shape[30,19,31,11,36]提取多规模上下文信息+global average pooling[21,24,40,6]
    ->CAB,高级特征选择低级特征。


Related work:
    1,编码-解码
        FCN自带多规模特征的编码,经过pooling和stride convolution 因此有许多方法整合:
            ->SegNet [1] 保存pool索引,恢复.
            ->U-net [31] skip connection,
            ->Global Convolutional Network [30] 大尺寸的核. 
            ->LRR [11] adds the Laplacian Pyramid Reconstruction network
            ->RefineNet [19] utilizes multipath refinement network
        缺点:忽略了global context; 多数只考虑相邻阶段的特征,没有不同表示;
    2.Global-context
            ->ParseNet [24] firstly applies global average pooling in the semantic segmentation task. 
            ->PSPNet [40] and Deeplab v3 [6] respectively extend it to the Spatial Pyramid Pooling [13] and Atrous Spatial Pyramid Pooling [5]
        缺点:两种方法用atrous convolution [5, 38],采用8次降采样,费时费内存。
    3.注意力模型
            ->最近在DNN中有用[28, 33, 16, 3]。
            ->方法 [7] 注意不同尺度的特征。
        这里我们用注意力选择channel,得到和SENet [16]相似的特征。
    4.Semantic Boundary Detection (边界检测)
            ->boundary detection[39, 36, 37, 25]
        多数方法直接连接不同等级的特征。
        目标是获得类间差别尽可能准确的边界监督。设计了一个自下而上的结构来优化每个阶段的特征。


Method:
    类内不相似:主要是因为丢失空间信息。采用Global pooling获取全局信息,但是只有高级信息。高级信息有更好的上下文和语义信息,低级有更好的spatial predictions。


*语义分割两大体系:
    “Backbone-Style”,PSPNet [40], Deeplab v3 [6],嵌入不同规模的上下文信息,以提高与Pyramid Spatial Pooling module [13] or Atrous Spatial
Pyramid Pooling module [5].的网络一致性
    “EncoderDecoder-Style”, like RefineNet [19], Global Convolutional Network [30],不同阶段的内在多尺度语境,但缺乏一致性最强的全局语境。当网络结合了相邻阶段的特征时,它只是通过信道来总结这些特征。这种操作忽略了不同阶段的多样性一致性。


    为了弥补缺陷,我们首先嵌入全局平均池层(24)以将U形结构(27, 36)扩展到V形状的体系结构。引入全局平均池层,引入最强一致性约束作为指导。此外,为了增强一致性,我们设计了一个信道关注块,如图2(c)所示。该设计结合相邻阶段的特征来计算信道关注向量3(b)。高阶特征提供了强一致性的指导,而低阶特征给出了特征不同的判别信息。通过这种方式,信道注意向量可以选择判别特征。
    类间相关:容易混淆具有相似特征的不同物体,因此需要放大不同类物体的差异。我们训练一个自下而上的语义边界网络,同时从低级获取准确的边界信息,从高级获取语义信息,消除边缘缺乏语义信息的特点,高阶段语义信息帮助细化边缘信息。
    用focal loss 调整正负样本数不均衡的问题。


img

CVPR2017 弱监督 mIoU其实挺差的

Object Region Mining with Adversarial Erasing: A Simple Classification to
Semantic Segmentation Approach
https://www.leiphone.com/news/201709/pL7GwHcZmw9VylcZ.html


用对抗擦除删除的是物体的一个模糊的区域。

即使GT很高,图像的边界问题很严重。准确说用IoU判定这个Region有点问题。
对抗擦除会删除一些关键语义信息,如语义边界等。经过擦除后训练的物体可能人类都识别不了,网络出现一些问题。


开创性很好,有瓶颈比较难克服。。

VPR2017 实例分割 (RW比较有逻辑) 
对比Instance-FCN,MNC,DWT等。


主题:在一个bounding box不准确的情况下。根据距离变换的掩码分割。
工作:采用多阶段映射,在截断情况下取得每个像素点和像素边界的最小距离,通过逆距离变换 [3, 18]将多值映射转换成mask。
设计一个对象掩码网络(OMN),首先取得pixel-wise的多值映射,然后解码成mask.
对截断距离离散。
然后得到很多映射,每个是每一个像素点的activation。接下来把这些映射传递到新的残差卷积网络。不限于bounding-box,且可微。


RW:
通用框架1:先检测,再分割。
    方法1:对特定的类的对象检测。 [32, 16]
    方法2:通用object proposal。 [1, 28]。分类在后面的部分。
        [14]用Fast-RCNN box 构建多级流水线提取特征分类分割。
        通过Hypercolumn特征[15],使用全卷积网络(FCN),来编码特定于类别的 shape priors[21],改进了该框架
        [8]将Region Proposal Network集成到一个多任务网络casade(集联)用于分割。
    但是,都有bounding box内部分割,的问题。我们用边界感知的OMN预测超出框外的片段,集成到MNC(多任务网络级联)框架中。
框架2:跳过检测部分。
        [22]PFN,预测实例数目,每个像素的语义标签和边界框位置。
            缺点:依赖预测实例数目的准确性。
        [36]基于深度排序识别实例。
        [35]Markov Random Field
            缺点:列深相似情况。
        [33]同时预测深度、语义、direction encoding,然后用模板匹配过程生成实例。
            缺点:不能联合优化,次优问题。
        [29]用RNN
            缺点:认为看到的所有实例属于同一类。
框架3:class-agnostic region proposals[1,34,20](不知类,只区分前景和背景),依赖于深度架构[25, 26]
        [6]:用FCN计算一小组instance-aware的score map,在MNC中有效。
        我们的方法和这些方法有竞争力,甚至更好。此外我们将其集成到完整的实例分割网络中,得到state-of-art。


实例分割,目测是网络改进。
商汤+腾讯优图
https://arxiv.org/pdf/1803.01534.pdf
https://github.com/ShuLiu1993/PANet
基于FPN。基于ResNet50以及ResXNet101。
数据集:MSCOCO。包括目标检测和实例分割。也用了CityScapes,MVD
效果:COCO 2017 实例分割第一名、目标检测第二名
比Mask-RCNN高

主题:语义分割,数学角度的样本数量不均问题。
https://blog.csdn.net/zhangjunhit/article/details/72958125


解决这个问题目前有几个思路:
1)就是在建立数据库的时候就注意到样本的均匀分布问题,例如 ImageNet, Caltech101/256 or CIFAR10/100

2)通过对样本少的类别 over-sampling 或 对样本多的类别 under-sampling
over-sampling of minority classes or under-sampling from the majority classes when compiling the actual training data

3)通过引入样本类别分布的权值来改变算法行为
cost-sensitive learning changes the algorithmic behavior by introducing class-specific weights, often derived from the original data statistics


我们的工作:
主要是给每个像素的权值引入一个上限 L,就是占比大的像素权值有一个上限,这样防止学习到的分类器有偏向性。
如果从样本类别分布不均匀的角度来说,我们对每个样本类型乘以一个权重系数,达到归一化的目的。

https://www.cnblogs.com/xiangfeidemengzhu/p/7453207.html


1、使用了网络中的多层特征,并且能够端到端(一次前向传播)进行实验;

2、没有对腺体结构进行预测,因而无论是良性还是恶性的腺体切片图片都可作为输入进行检测分割;

3、多任务网络。同时实现腺体检测和腺体分割(成簇分割,如毗邻的腺体)。


迁移学习:

医疗数据集由于人工成本过高而较小,在训练数据匮乏的情况下,迁移学习不失为一种不错的选择。浅层网络参数具有普适性,而深层网络参数更针对具体任务,因而浅层网络的参数可以借助其他模型初始化,既能避免过拟合又能提升效果。

论文中作者采用了PASCAL VOC 2012 dataset迁移学习。下采样过程参数使用与训练模型初始化,其他层采用高斯分布随机数初始化,并使用SGF端到端训练。实验表明,如此初始化收敛更快。


*问题:针对正常细胞和变异细胞,两种方法(带轮廓线和不带轮廓线)分别取得了很好的成果,但是实际操作时怎么均衡这个问题。

主题:用强化学习自动生成神经网络。
https://baijiahao.baidu.com/s?id=1600615825111400186&wfr=spider&for=pc
https://blog.csdn.net/weixin_41313407/article/details/80189362

BlockQNN

将网络组件模块化,自动生成网络。
我们定义了一个五元组。第一个元素是指他所在的块的编号,第二个是指他这个块会所代表的含义,一共有七种。第三个是他卷积核的大小,第四个,第五个是他的前驱。
使用分布式异步Q- learning框架和早期停止策略

主题:半监督视频对象分割。
img

特点:首次用DRL

其他人的工作:
基于跟踪或匹配(1,16,43),找到前一个图像中的掩码对应。
    缺点:杂乱背景/无纹理前景的干扰。
强化学习用于对象定位和跟踪、姿态估计。

*同时用于切割物体以及决策上下文框
切割代理

结构:两个网络。CPN:(DRL)选择上下文框和物体框。CEN:FC-DenseNet56。进行掩码切割。

动作:物体框的缩放移动(8),不同规模大小的上下文框(3),停止。CPN。
奖励:和CEN交互得到。用IoU.

训练集:
CEN: saliency detection datasets: MSRA10K [6], PASCAL-S [21], SOD [27] and ECSSD [32]
优化:RMSprop, E-greedy strategy, (有经验池experience replay mechanism)
把视频通道改成RGB+object box四通道。
学习率随轮数下降。

结论:改进效果很不错,虽然不够高。和视频好像没有太大的关系。可能是视频分割中上下文框对分割效果影响较大。

主题:半监督视频对象分割。
img

特点:首次用DRL

其他人的工作:
基于跟踪或匹配(1,16,43),找到前一个图像中的掩码对应。
    缺点:杂乱背景/无纹理前景的干扰。
强化学习用于对象定位和跟踪、姿态估计。

*同时用于切割物体以及决策上下文框
切割代理

结构:两个网络。CPN:(DRL)选择上下文框和物体框。CEN:FC-DenseNet56。进行掩码切割。

动作:物体框的缩放移动(8),不同规模大小的上下文框(3),停止。CPN。
奖励:和CEN交互得到。用IoU.

训练集:
CEN: saliency detection datasets: MSRA10K [6], PASCAL-S [21], SOD [27] and ECSSD [32]
优化:RMSprop, E-greedy strategy, (有经验池experience replay mechanism)
把视频通道改成RGB+object box四通道。
学习率随轮数下降。

结论:改进效果很不错,虽然不够高。和视频好像没有太大的关系。可能是视频分割中上下文框对分割效果影响较大。

监督。课程学习。
用度量学习和密度聚类,将多种算法得到的图结合。

首先利用图像级标签得到像素级语义分割框和物体位置,然后利用这些中间结果来训练目标检测、语义分割和多标签图像分类网络。

由于图像级、对象级和像素级分析相互依赖,因此它们不是独立执行的,而是被组织成具有四个阶段的单个流水线。

在第一阶段,我们从自底向上和自顶向下的弱监督目标检测算法中收集训练图像中的目标定位结果。
在第二阶段中,我们结合度量学习和基于密度的聚类来过滤检测到的对象实例。通过这种方式,我们得到一个相对干净和完整的对象实例集。给定这些对象实例,我们进一步训练一个单标签对象分类器,该分类器应用于所有对象实例以获得它们的最终类标签。
第三,为了获得每个类和每个训练图像的相对干净的像素级概率图,我们融合了图像级注意力图、对象级注意力图和对象检测热图。像素级概率图用于训练完全卷积网络,该网络应用于所有训练图像以获得最终的像素级标签图。
最后,将所获得的目标实例和所有训练图像的像素级标签映射分别用于训练用于目标检测和语义分割的深层网络。
为了对训练图像进行逐像素的标签映射以帮助多标签图像分类,我们通过训练具有两个分支的单个深层网络来执行多任务学习,一个分支用于多标签图像分类,另一个分支用于像素标记。