统计学习概述 Flashcards by li yuan

测试误差反映了什么

反映了学习方法对位置的测试数据集的预测能力, 又称泛化能力

How well did you know this?

Not at all

Perfectly

统计学习时的损失函数与评估时的损失函数一致么？

可以不一致

How well did you know this?

Not at all

Perfectly

模型的选择的目的

避免过拟合以及提高模型的预测能力

How well did you know this?

Not at all

Perfectly

过拟合最简单的例子

高阶多项式回归, 可以过每个数据点, 但是对测试集的效果很差

How well did you know this?

Not at all

Perfectly

过拟合的意思

随着模型的复杂度增加(或者不同的模型), 训练误差逐渐缩小, 趋向于0, 但是测试误差不是却可能不变或者增大

How well did you know this?

Not at all

Perfectly

统计学习的三要素

模型, 策略和算法模型指的是模型的类别, 是决策函数还是条件概率分布, 是线性还是非线性; 策略指的是按照什么准则选择模型: 损失函数, 风险函数(经验风险还是结构风险(加上正则化项或罚项)) 算法指的是求解最优化问题的方法

How well did you know this?

Not at all

Perfectly

正则化项的一般情况

一般是模型复杂度的单调递增函数, 模型越复杂, 正则化项值就越大, 例如取模型参数向量的范数

How well did you know this?

Not at all

Perfectly

奥卡姆剃刀原理

在所有可能的模型中, 能够很好的解释已知数据, 并且十分简单才是最好的模型.

How well did you know this?

Not at all

Perfectly

贝叶斯估计对应的正则化项

就是先验概率. 可以假设复杂模型有较大的先验概率, 简单模型有较小的先验概率

How well did you know this?

Not at all

Perfectly

常用的正则化项

L1范数和L2范数

How well did you know this?

Not at all

Perfectly

两种常用的模型选择的方法

正则化和交叉验证

How well did you know this?

Not at all

Perfectly

样本充足时, 应将样本分为哪三部分

训练集: 训练模型验证集: 选择模型测试集: 最终评估模型

How well did you know this?

Not at all

Perfectly

交叉验证的基本想法

重复地使用数据, 交替做训练集和测试集

How well did you know this?

Not at all

Perfectly

交叉验证的三种模式

简单交叉验证 S折交叉验证留一交叉验证

How well did you know this?

Not at all

Perfectly

泛化误差的定义

模型的期望损失函数, 或者风险函数

How well did you know this?

Not at all

Perfectly

研究学习方法的泛化能力的方法

Study These Flashcards

研究泛化误差的概率上界, 简称泛化误差上界

泛化误差上界的一般性质

Study These Flashcards

1 是样本容量的减函数, 趋向于0 2 是假设空间容量的增函数, 假设空间越大, 模型越难学, 泛化误差上界就越大

假设空间为有限个函数时, 泛化误差与训练误差的关系

Study These Flashcards

以一个比较大的概率, 泛化误差小于等于训练误差加上一个函数, 此函数是假设空间容量的增函数, 是样本容量的减函数

统计学习的两种方法

Study These Flashcards

生成方法: 学习联合分布, 再得到概率分布, eg 朴素贝叶斯和隐马尔科夫模型判别方法: 直接学习条件概率或者决策函数, eg 决策树, 支持向量机

准确率, 召回率, F1

Study These Flashcards

准确率=TP/(预测为P的) 召回率=TP/(真的是T的) F1是准确率和召回率的调和平均

常见的统计学习问题

Study These Flashcards

分类问题标注问题 taggging, 多在文本挖掘中用回归问题

统计学习包括四种学习方式

Study These Flashcards

监督学习, 非监督学习, 半监督学习, 强化学习

统计学习的一般模型y=f(x)+epsilon中暗含着哪两种误差

Study These Flashcards

一个reducible error, 是因为f估计不准确造成的;

另一种是irreducible error, 是由于epsilon代表着没有观测到的变量而产生的

统计学习一般有那两种目的

Study These Flashcards

一种是预测, 这时f可以看成黑箱;

一种是推断, 需要搞清楚y和x中那些变量有关系, 有什么样的关系

统计学习算法的解释性和灵活性之间有什么样的关系

是不是灵活性高的模型就一定估计准确呢?

不一定, 因为很可能出现过拟合的情况

无监督学习的主要算法是什么

聚类clustering

统计学习概述 Flashcards

(28 cards)