主题:语义分割,数学角度的样本数量不均问题。
https://blog.csdn.net/zhangjunhit/article/details/72958125
解决这个问题目前有几个思路:
1)就是在建立数据库的时候就注意到样本的均匀分布问题,例如 ImageNet, Caltech101/256 or CIFAR10/100
2)通过对样本少的类别 over-sampling 或 对样本多的类别 under-sampling
over-sampling of minority classes or under-sampling from the majority classes when compiling the actual training data
3)通过引入样本类别分布的权值来改变算法行为
cost-sensitive learning changes the algorithmic behavior by introducing class-specific weights, often derived from the original data statistics
我们的工作:
主要是给每个像素的权值引入一个上限 L,就是占比大的像素权值有一个上限,这样防止学习到的分类器有偏向性。
如果从样本类别分布不均匀的角度来说,我们对每个样本类型乘以一个权重系数,达到归一化的目的。