统计学习概述 Flashcards

(28 cards)

0
Q

测试误差反映了什么

A

反映了学习方法对位置的测试数据集的预测能力, 又称泛化能力

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
1
Q

统计学习时的损失函数与评估时的损失函数一致么?

A

可以不一致

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

模型的选择的目的

A

避免过拟合以及提高模型的预测能力

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

过拟合最简单的例子

A

高阶多项式回归, 可以过每个数据点, 但是对测试集的效果很差

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

过拟合的意思

A

随着模型的复杂度增加(或者不同的模型), 训练误差逐渐缩小, 趋向于0, 但是测试误差不是却可能不变或者增大

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

统计学习的三要素

A

模型, 策略和算法 模型指的是模型的类别, 是决策函数还是条件概率分布, 是线性还是非线性; 策略指的是按照什么准则选择模型: 损失函数, 风险函数(经验风险还是结构风险(加上正则化项或罚项)) 算法指的是求解最优化问题的方法

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

正则化项的一般情况

A

一般是模型复杂度的单调递增函数, 模型越复杂, 正则化项值就越大, 例如取模型参数向量的范数

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

奥卡姆剃刀原理

A

在所有可能的模型中, 能够很好的解释已知数据, 并且十分简单才是最好的模型.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

贝叶斯估计对应的正则化项

A

就是先验概率. 可以假设复杂模型有较大的先验概率, 简单模型有较小的先验概率

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

常用的正则化项

A

L1范数和L2范数

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

两种常用的模型选择的方法

A

正则化和交叉验证

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

样本充足时, 应将样本分为哪三部分

A

训练集: 训练模型 验证集: 选择模型 测试集: 最终评估模型

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

交叉验证的基本想法

A

重复地使用数据, 交替做训练集和测试集

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

交叉验证的三种模式

A

简单交叉验证 S折交叉验证 留一交叉验证

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

泛化误差的定义

A

模型的期望损失函数, 或者风险函数

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

研究学习方法的泛化能力的方法

A

研究泛化误差的概率上界, 简称泛化误差上界

16
Q

泛化误差上界的一般性质

A

1 是样本容量的减函数, 趋向于0 2 是假设空间容量的增函数, 假设空间越大, 模型越难学, 泛化误差上界就越大

17
Q

假设空间为有限个函数时, 泛化误差与训练误差的关系

A

以一个比较大的概率, 泛化误差小于等于训练误差加上一个函数, 此函数是假设空间容量的增函数, 是样本容量的减函数

18
Q

统计学习的两种方法

A

生成方法: 学习联合分布, 再得到概率分布, eg 朴素贝叶斯和隐马尔科夫模型 判别方法: 直接学习条件概率或者决策函数, eg 决策树, 支持向量机

19
Q

准确率, 召回率, F1

A

准确率=TP/(预测为P的) 召回率=TP/(真的是T的) F1是准确率和召回率的调和平均

20
Q

常见的统计学习问题

A

分类问题 标注问题 taggging, 多在文本挖掘中用 回归问题

21
Q

统计学习包括四种学习方式

A

监督学习, 非监督学习, 半监督学习, 强化学习

22
Q

统计学习的一般模型y=f(x)+epsilon中暗含着哪两种误差

A

一个reducible error, 是因为f估计不准确造成的;

另一种是irreducible error, 是由于epsilon代表着没有观测到的变量而产生的

23
Q

统计学习一般有那两种目的

A

一种是预测, 这时f可以看成黑箱;

一种是推断, 需要搞清楚y和x中那些变量有关系, 有什么样的关系

24
统计学习算法的解释性和灵活性之间有什么样的关系
25
是不是灵活性高的模型就一定估计准确呢?
不一定, 因为很可能出现过拟合的情况
26
无监督学习的主要算法是什么
聚类clustering
27