统计学习概述 Flashcards
(28 cards)
测试误差反映了什么
反映了学习方法对位置的测试数据集的预测能力, 又称泛化能力
统计学习时的损失函数与评估时的损失函数一致么?
可以不一致
模型的选择的目的
避免过拟合以及提高模型的预测能力
过拟合最简单的例子
高阶多项式回归, 可以过每个数据点, 但是对测试集的效果很差
过拟合的意思
随着模型的复杂度增加(或者不同的模型), 训练误差逐渐缩小, 趋向于0, 但是测试误差不是却可能不变或者增大
统计学习的三要素
模型, 策略和算法 模型指的是模型的类别, 是决策函数还是条件概率分布, 是线性还是非线性; 策略指的是按照什么准则选择模型: 损失函数, 风险函数(经验风险还是结构风险(加上正则化项或罚项)) 算法指的是求解最优化问题的方法
正则化项的一般情况
一般是模型复杂度的单调递增函数, 模型越复杂, 正则化项值就越大, 例如取模型参数向量的范数
奥卡姆剃刀原理
在所有可能的模型中, 能够很好的解释已知数据, 并且十分简单才是最好的模型.
贝叶斯估计对应的正则化项
就是先验概率. 可以假设复杂模型有较大的先验概率, 简单模型有较小的先验概率
常用的正则化项
L1范数和L2范数
两种常用的模型选择的方法
正则化和交叉验证
样本充足时, 应将样本分为哪三部分
训练集: 训练模型 验证集: 选择模型 测试集: 最终评估模型
交叉验证的基本想法
重复地使用数据, 交替做训练集和测试集
交叉验证的三种模式
简单交叉验证 S折交叉验证 留一交叉验证
泛化误差的定义
模型的期望损失函数, 或者风险函数
研究学习方法的泛化能力的方法
研究泛化误差的概率上界, 简称泛化误差上界
泛化误差上界的一般性质
1 是样本容量的减函数, 趋向于0 2 是假设空间容量的增函数, 假设空间越大, 模型越难学, 泛化误差上界就越大
假设空间为有限个函数时, 泛化误差与训练误差的关系
以一个比较大的概率, 泛化误差小于等于训练误差加上一个函数, 此函数是假设空间容量的增函数, 是样本容量的减函数
统计学习的两种方法
生成方法: 学习联合分布, 再得到概率分布, eg 朴素贝叶斯和隐马尔科夫模型 判别方法: 直接学习条件概率或者决策函数, eg 决策树, 支持向量机
准确率, 召回率, F1
准确率=TP/(预测为P的) 召回率=TP/(真的是T的) F1是准确率和召回率的调和平均
常见的统计学习问题
分类问题 标注问题 taggging, 多在文本挖掘中用 回归问题
统计学习包括四种学习方式
监督学习, 非监督学习, 半监督学习, 强化学习
统计学习的一般模型y=f(x)+epsilon中暗含着哪两种误差
一个reducible error, 是因为f估计不准确造成的;
另一种是irreducible error, 是由于epsilon代表着没有观测到的变量而产生的
统计学习一般有那两种目的
一种是预测, 这时f可以看成黑箱;
一种是推断, 需要搞清楚y和x中那些变量有关系, 有什么样的关系
