0%

Learning a Discriminative Feature Network for Semantic Segmentation(cvpr2018)

技术流派:FCN改进
简称:DFN
来源:CVPR2018
效果: state-of-art,86.2% mean IOU on PASCAL VOC 2012、82.7% without pertrained, 80.3% mean IOU on Cityscapes dataset
对比:FCN、PSPNet、RefineNet+、ResNet-38+等
速度:未知
代码框架:tensorflow
trick:基于Res-101,多种论文提到的策略,加入了flip后的样本


https://arxiv.org/pdf/1804.09337.pdf
https://github.com/YuhuiMa/DFN-tensorflow


问题:特征提取时的类内不一致性以及类间相似性。基于FCN改进。
Discriminative Feature Network,分两部分:
类间相似,如相连的patch来自不同类但是内容相似:Border Network.       
    ->[24,40,6,30]认为一个dense recognition 问题,不解决此问题。   
    ->训练过程中整合语义边界损失,使类间不同。
类内不同,部分不相同:Smooth Network.     
    ->由于需要提取多规模特征,有的规模标签可能出错,因此需要合理选择特征。
    ->U-shape[30,19,31,11,36]提取多规模上下文信息+global average pooling[21,24,40,6]
    ->CAB,高级特征选择低级特征。


Related work:
    1,编码-解码
        FCN自带多规模特征的编码,经过pooling和stride convolution 因此有许多方法整合:
            ->SegNet [1] 保存pool索引,恢复.
            ->U-net [31] skip connection,
            ->Global Convolutional Network [30] 大尺寸的核. 
            ->LRR [11] adds the Laplacian Pyramid Reconstruction network
            ->RefineNet [19] utilizes multipath refinement network
        缺点:忽略了global context; 多数只考虑相邻阶段的特征,没有不同表示;
    2.Global-context
            ->ParseNet [24] firstly applies global average pooling in the semantic segmentation task. 
            ->PSPNet [40] and Deeplab v3 [6] respectively extend it to the Spatial Pyramid Pooling [13] and Atrous Spatial Pyramid Pooling [5]
        缺点:两种方法用atrous convolution [5, 38],采用8次降采样,费时费内存。
    3.注意力模型
            ->最近在DNN中有用[28, 33, 16, 3]。
            ->方法 [7] 注意不同尺度的特征。
        这里我们用注意力选择channel,得到和SENet [16]相似的特征。
    4.Semantic Boundary Detection (边界检测)
            ->boundary detection[39, 36, 37, 25]
        多数方法直接连接不同等级的特征。
        目标是获得类间差别尽可能准确的边界监督。设计了一个自下而上的结构来优化每个阶段的特征。


Method:
    类内不相似:主要是因为丢失空间信息。采用Global pooling获取全局信息,但是只有高级信息。高级信息有更好的上下文和语义信息,低级有更好的spatial predictions。


*语义分割两大体系:
    “Backbone-Style”,PSPNet [40], Deeplab v3 [6],嵌入不同规模的上下文信息,以提高与Pyramid Spatial Pooling module [13] or Atrous Spatial
Pyramid Pooling module [5].的网络一致性
    “EncoderDecoder-Style”, like RefineNet [19], Global Convolutional Network [30],不同阶段的内在多尺度语境,但缺乏一致性最强的全局语境。当网络结合了相邻阶段的特征时,它只是通过信道来总结这些特征。这种操作忽略了不同阶段的多样性一致性。


    为了弥补缺陷,我们首先嵌入全局平均池层(24)以将U形结构(27, 36)扩展到V形状的体系结构。引入全局平均池层,引入最强一致性约束作为指导。此外,为了增强一致性,我们设计了一个信道关注块,如图2(c)所示。该设计结合相邻阶段的特征来计算信道关注向量3(b)。高阶特征提供了强一致性的指导,而低阶特征给出了特征不同的判别信息。通过这种方式,信道注意向量可以选择判别特征。
    类间相关:容易混淆具有相似特征的不同物体,因此需要放大不同类物体的差异。我们训练一个自下而上的语义边界网络,同时从低级获取准确的边界信息,从高级获取语义信息,消除边缘缺乏语义信息的特点,高阶段语义信息帮助细化边缘信息。
    用focal loss 调整正负样本数不均衡的问题。


img

-------------这么快就看完啦^ω^谢谢阅读哟-------------