第一章。绪论
概念:
样本(sample)、示例(instance)
属性(attribute)、特征(feature)
属性空间(attribute space):所有属性的取值空间集合
特征向量(feature vector):属性空间中的一个点
维数(dimensionality):属性个数
学习(learning)、训练(training)
训练数据(training data)
训练集(training set)
假设(hypothesis):猜测的某种规律
真相、真实(ground-truth)
标记(label):打标记
样例(sample):带有标记的训练集
分类(classificaion):离散
回归(regression):连续
正类(positive class)\反类(negative class):针对二分类
测试(testing)
测试样本(testing sample)
聚类(clustering)
簇(cluster)
有监督学习(supervised learning)\无监督学习(unsupervised learning)
泛化(generalization)能力
“分布”(distribution)
归纳(induction)
演绎(deduction)
版本空间(version space):与多个训练集的假设集合
归纳偏好(inductive bias):多个假设相互冲突不知道如何选择时,模型本身的偏好问题。(哪个特征更重要)
“奥莱姆剃刀”:多个假设与观察一致,选用最简单的那个(例:二维空间点拟合曲线,拟合尽可能简单的那个)
NFL没有免费的午餐定理:任何机器学习的期望性能基本相同。但是此针对公正问题,而事实上不同类型的样例出现概率相差很多。机器学习脱离实际问题没有意义。
连接主义(connectionism)例:感知机、神经网络、深度学习(特点:数据范围小时容易过拟合)
符号主义(symbolism)例:决策树
统计学习(stastical learning)例:支持向量机\其他核方法(kernel methods)
自然科学色彩:发现提出的某些方法和人脑学习相似。探索人脑
迁移学习(transfer learning):类比学习+统计学习升级
深度学习:神经网络发展
第二章。模型评估与选择
错误率(error rate):分类错误的样本占总样本的比例。
精度(accuracy):1-错误率
误差(error):学习器的预测输出与实际输出的差
训练误差(training error)、经验误差(empirical error)
泛化误差(generalization error)
过拟合、欠拟合
过拟合:学习能力过强。障碍,不可避免:问题是NP的,机器学习求解方法是多项式的。
测试误差:测试集误差。是泛化误差的近似。
集合划分:
1.留出法(hold-out):按比例划分、两个互斥集合
(采样中的分层采样)
需要注意训练集S和测试集D的比例。一般是2/3到4/5
2.交叉验证(cross validation):k个互斥集合。每次用k-1个集合做训练集,剩下1个做测试集
2.1留一法(leave-one-out):每个集合一个样本。比较准确,开销过大
3.自助法(bootstrapping):取样后不删除。可重复取样。
调参(parameter tuning)
*用训练集完成训练,测试集评估。最后需要用整体集合重新训练。
性能评估:
错误率、精度
查准率\查全率:二分类问题
查准率P:查到的正例尽可能准确。
查全率R:尽可能找出所有正例。
二者相互矛盾。可绘制PR曲线。
平衡点(break-event point)P=R
F1变量:常用。(P和R的调和平均)
*实际问题中,对P和R的重视程度可能不同。
Fβ:可调整,加权调和平均。β>1查全率更重要。β<1查准率更重要。
多个二分类混淆矩阵:
- 1.全取每个P\R后计算:macro
- 2.全相加所有元素然后计算:micro
ROC曲线:在不同阈值下的假正比率/假反比率曲线,弧线形。
用于对比模型泛化能力:AUC,阴影部分面积大小。越大越好。
代价敏感错误率
当不同错误造成的影响不同时。我们希望使整体代价最小。
机器学习问题中的检验:
训练集和测试集可能不同。需要检验泛化能力。数学统计方法、假设检验、方差等。(用到的时候学)
第三章 线性模型
*线性模型有很好的可理解性(comprehensionbility)
*均方误差(平方损失square loss)物理:欧几里得距离
*让均方误差最小化的方法:最小二乘法。
第五章 神经网络
M-P神经元特点:每个神经元接收多个神经元传来的信号的影响,超过一定阈值时向下一个神经元传递信号。
信号函数采用Sigmoid函数。也称挤压函数。
神经网络模型函数:
感知机:两层神经元,第一层接收输入信号,传递到第二层输出。
与运算:w1=w2=1,θ=2
或运算:w1=w2=1,θ=0.5
非运算:w1=-0.6,w2=0,θ=-0.5
感知机对权重的学习:
阈值看作一个固定权重-1的结点对应的权重wn+1。对数据(x,y)输出y^,调整:
,其中η为学习率(learning rate)
感知机不能解决异或问题,不能线性可分的问题会发生震荡。解决异或可以用多层功能神经元。
多层前馈神经网络:常用多层,分层图,按层全互连,不会跳过一层和下一层连接。
误差逆传播算法(BP算法)
error backpropagation
?计算输出层的差,然后一层一层通过广义的阈值调整。
很容易过拟合。解决方法:
1、早停:数据集分成训练和测试,训练集误差变小测试集变大时
2、正则化:误差目标函数加一个描述网络复杂度的部分
最优:梯度下降,沿着函数下降最快的方向。
避免局部最优:多起始点搜索、模拟退火、随机梯度下降、遗传算法等
其他神经网络
RBF网络:单隐层前馈神经网络