0%

西瓜书知识点总结

第一章。绪论

概念:
样本(sample)、示例(instance)
属性(attribute)、特征(feature)
属性空间(attribute space):所有属性的取值空间集合
特征向量(feature vector):属性空间中的一个点
维数(dimensionality):属性个数

学习(learning)、训练(training)
训练数据(training data)
训练集(training set)

假设(hypothesis):猜测的某种规律
真相、真实(ground-truth)
标记(label):打标记
样例(sample):带有标记的训练集

分类(classificaion):离散
回归(regression):连续
正类(positive class)\反类(negative class):针对二分类

测试(testing)
测试样本(testing sample)

聚类(clustering)
簇(cluster)

有监督学习(supervised learning)\无监督学习(unsupervised learning)

泛化(generalization)能力
“分布”(distribution)

归纳(induction)
演绎(deduction)

版本空间(version space):与多个训练集的假设集合

归纳偏好(inductive bias):多个假设相互冲突不知道如何选择时,模型本身的偏好问题。(哪个特征更重要)

“奥莱姆剃刀”:多个假设与观察一致,选用最简单的那个(例:二维空间点拟合曲线,拟合尽可能简单的那个)
NFL没有免费的午餐定理:任何机器学习的期望性能基本相同。但是此针对公正问题,而事实上不同类型的样例出现概率相差很多。机器学习脱离实际问题没有意义。

连接主义(connectionism)例:感知机、神经网络、深度学习(特点:数据范围小时容易过拟合)
符号主义(symbolism)例:决策树
统计学习(stastical learning)例:支持向量机\其他核方法(kernel methods)
自然科学色彩:发现提出的某些方法和人脑学习相似。探索人脑
迁移学习(transfer learning):类比学习+统计学习升级
深度学习:神经网络发展


第二章。模型评估与选择

错误率(error rate):分类错误的样本占总样本的比例。
精度(accuracy):1-错误率
误差(error):学习器的预测输出与实际输出的差
    训练误差(training error)、经验误差(empirical error)
    泛化误差(generalization error)

过拟合、欠拟合
过拟合:学习能力过强。障碍,不可避免:问题是NP的,机器学习求解方法是多项式的。

测试误差:测试集误差。是泛化误差的近似。

集合划分:

1.留出法(hold-out):按比例划分、两个互斥集合
    (采样中的分层采样)
需要注意训练集S和测试集D的比例。一般是2/3到4/5
2.交叉验证(cross validation):k个互斥集合。每次用k-1个集合做训练集,剩下1个做测试集
2.1留一法(leave-one-out):每个集合一个样本。比较准确,开销过大
3.自助法(bootstrapping):取样后不删除。可重复取样。

调参(parameter tuning)
*用训练集完成训练,测试集评估。最后需要用整体集合重新训练。

性能评估:

img1

错误率、精度

查准率\查全率:二分类问题
查准率P:查到的正例尽可能准确。
查全率R:尽可能找出所有正例。
二者相互矛盾。可绘制PR曲线。
img2
平衡点(break-event point)P=R

F1变量:常用。(P和R的调和平均)
img3

*实际问题中,对P和R的重视程度可能不同。

Fβ:可调整,加权调和平均。β>1查全率更重要。β<1查准率更重要。
img4

多个二分类混淆矩阵:

  • 1.全取每个P\R后计算:macro
    img5
  • 2.全相加所有元素然后计算:micro
    img6
    img7

ROC曲线:在不同阈值下的假正比率/假反比率曲线,弧线形。
用于对比模型泛化能力:AUC,阴影部分面积大小。越大越好。

代价敏感错误率

当不同错误造成的影响不同时。我们希望使整体代价最小。
img8
img9
img10

机器学习问题中的检验:

训练集和测试集可能不同。需要检验泛化能力。数学统计方法、假设检验、方差等。(用到的时候学)

第三章 线性模型

*线性模型有很好的可理解性(comprehensionbility)
*均方误差(平方损失square loss)物理:欧几里得距离
*让均方误差最小化的方法:最小二乘法。

第五章 神经网络

M-P神经元特点:每个神经元接收多个神经元传来的信号的影响,超过一定阈值时向下一个神经元传递信号。
信号函数采用Sigmoid函数。也称挤压函数。
img11
神经网络模型函数:
img12
感知机:两层神经元,第一层接收输入信号,传递到第二层输出。
img13

与运算:w1=w2=1,θ=2
或运算:w1=w2=1,θ=0.5
非运算:w1=-0.6,w2=0,θ=-0.5
感知机对权重的学习:
阈值看作一个固定权重-1的结点对应的权重wn+1。对数据(x,y)输出y^,调整:
img14
,其中η为学习率(learning rate)
    感知机不能解决异或问题,不能线性可分的问题会发生震荡。解决异或可以用多层功能神经元。
多层前馈神经网络:常用多层,分层图,按层全互连,不会跳过一层和下一层连接。

img15

误差逆传播算法(BP算法)

error backpropagation
?计算输出层的差,然后一层一层通过广义的阈值调整。
很容易过拟合。解决方法:
1、早停:数据集分成训练和测试,训练集误差变小测试集变大时
2、正则化:误差目标函数加一个描述网络复杂度的部分

最优:梯度下降,沿着函数下降最快的方向。
避免局部最优:多起始点搜索、模拟退火、随机梯度下降、遗传算法等

其他神经网络

RBF网络:单隐层前馈神经网络

-------------这么快就看完啦^ω^谢谢阅读哟-------------