1.信息量:一个离散型随机变量,其中某个事件发生的概率越低,信息量越大。
I(xi) = -log(p(xi))
2.熵:信息量的期望。
H(X) = \sum ( P(xi) * I(xi) )
3.KL散度:描述两个概率分布的相似程度。
D_{kl}(p||q) =\sum{p(xi)*log( p(xi)/q(xi) )}\\ =\sum p(xi)*log(p(xi)) - \sum p(xi)*log(q(xi))\ = H(X) - \sum p(xi)*log(q(xi))
4.交叉熵:KL散度计算公式的后半部分
H(p,q)=-\sum p(xi)log(q(xi))
5.机器学习中:p是标准的分布,q是网络进行训练时得到的分布。用交叉熵作为loss函数处理逻辑分类问题。
单分类(图像中的物体A是{a,b,c}中的一种):直接计算。
多分类(图像中有多个物体,计算是否有a,是否有b,是否有c):n-hot编码,每一位是二项分布,用sigmoid