技术流派:FCN改进
简称:DFN
来源:CVPR2018
效果: state-of-art,86.2% mean IOU on PASCAL VOC 2012、82.7% without pertrained, 80.3% mean IOU on Cityscapes dataset
对比:FCN、PSPNet、RefineNet+、ResNet-38+等
速度:未知
代码框架:tensorflow
trick:基于Res-101,多种论文提到的策略,加入了flip后的样本
https://arxiv.org/pdf/1804.09337.pdf
https://github.com/YuhuiMa/DFN-tensorflow
问题:特征提取时的类内不一致性以及类间相似性。基于FCN改进。
Discriminative Feature Network,分两部分:
类间相似,如相连的patch来自不同类但是内容相似:Border Network.
->[24,40,6,30]认为一个dense recognition 问题,不解决此问题。
->训练过程中整合语义边界损失,使类间不同。
类内不同,部分不相同:Smooth Network.
->由于需要提取多规模特征,有的规模标签可能出错,因此需要合理选择特征。
->U-shape[30,19,31,11,36]提取多规模上下文信息+global average pooling[21,24,40,6]
->CAB,高级特征选择低级特征。
Related work:
1,编码-解码
FCN自带多规模特征的编码,经过pooling和stride convolution 因此有许多方法整合:
->SegNet [1] 保存pool索引,恢复.
->U-net [31] skip connection,
->Global Convolutional Network [30] 大尺寸的核.
->LRR [11] adds the Laplacian Pyramid Reconstruction network
->RefineNet [19] utilizes multipath refinement network
缺点:忽略了global context; 多数只考虑相邻阶段的特征,没有不同表示;
2.Global-context
->ParseNet [24] firstly applies global average pooling in the semantic segmentation task.
->PSPNet [40] and Deeplab v3 [6] respectively extend it to the Spatial Pyramid Pooling [13] and Atrous Spatial Pyramid Pooling [5]
缺点:两种方法用atrous convolution [5, 38],采用8次降采样,费时费内存。
3.注意力模型
->最近在DNN中有用[28, 33, 16, 3]。
->方法 [7] 注意不同尺度的特征。
这里我们用注意力选择channel,得到和SENet [16]相似的特征。
4.Semantic Boundary Detection (边界检测)
->boundary detection[39, 36, 37, 25]
多数方法直接连接不同等级的特征。
目标是获得类间差别尽可能准确的边界监督。设计了一个自下而上的结构来优化每个阶段的特征。
Method:
类内不相似:主要是因为丢失空间信息。采用Global pooling获取全局信息,但是只有高级信息。高级信息有更好的上下文和语义信息,低级有更好的spatial predictions。
*语义分割两大体系:
“Backbone-Style”,PSPNet [40], Deeplab v3 [6],嵌入不同规模的上下文信息,以提高与Pyramid Spatial Pooling module [13] or Atrous Spatial
Pyramid Pooling module [5].的网络一致性
“EncoderDecoder-Style”, like RefineNet [19], Global Convolutional Network [30],不同阶段的内在多尺度语境,但缺乏一致性最强的全局语境。当网络结合了相邻阶段的特征时,它只是通过信道来总结这些特征。这种操作忽略了不同阶段的多样性一致性。
为了弥补缺陷,我们首先嵌入全局平均池层(24)以将U形结构(27, 36)扩展到V形状的体系结构。引入全局平均池层,引入最强一致性约束作为指导。此外,为了增强一致性,我们设计了一个信道关注块,如图2(c)所示。该设计结合相邻阶段的特征来计算信道关注向量3(b)。高阶特征提供了强一致性的指导,而低阶特征给出了特征不同的判别信息。通过这种方式,信道注意向量可以选择判别特征。
类间相关:容易混淆具有相似特征的不同物体,因此需要放大不同类物体的差异。我们训练一个自下而上的语义边界网络,同时从低级获取准确的边界信息,从高级获取语义信息,消除边缘缺乏语义信息的特点,高阶段语义信息帮助细化边缘信息。
用focal loss 调整正负样本数不均衡的问题。