首页 > 学术百科

机器学习西瓜书期末复习（2022HENU）

机器学习西⽠书期末复习（2022HENU）

期末复习之机器学习

选择题 10 * 2

填空题 10 * 1

判断题 10 * 2

简答题 4 * 5

计算题 2 * 15

⽂章⽬录

第⼀章绪论

机器学习的定义

机器学习致⼒于研究如何通过计算的⼿段，利⽤经验来改善系统⾃⾝的性能。

经验在计算机系统中通常以数据的形式存在。

机器学习研究的主要内容是关于在计算机上从数据中产⽣模型的算法，即学习算法

根据训练数据是否拥有标记信息，将学习任务分为监督学习和⽆监督学习。

监督学习：分类和回归

线性回归、对数⼏率回归、决策树、⽀持向量机、贝叶斯分类器、神经⽹络

⽆监督学习：聚类

聚类算法：原型聚类：（k均值，学习向量量化，⾼斯混合聚类）；密度聚类（DBSVAN）；层次聚类（AGNES）。降维。话题分析。图分析。

机器学习的⽬标是使学得的模型能很好地适⽤于“新样本”。

学得模型适⽤于新样本的能⼒，称为“泛化能⼒”

机器学习三要素：模型、策略、算法

第⼆章模型评估与选择

1. 训练误差：训练集上的误差

2. 泛化误差：新样本上的误差

3. 训练误差越⼩越好？

不是，训练误差越来越⼩会导致模型过拟合，则模型不具备很好的泛化能⼒。

4. 泛化误差越⼩越好？

wdc2010是的，预测的越准确越好，即泛化误差越⼩越好。

5. 过拟合：学习到的模型太符合训练集的特征

⽋拟合：学习到的模型没有把应该考虑进去的属性考虑进去。

减⼩过拟合的⽅法：

减少特征的数量，数据正则化

6. 如果⼀个模型加⼊正则项，这个模型的拟合程度不⼀定增加。取决于正则化参数。参数过⼤会导致⽋拟合，过⼩会导致过拟合。

7. 评估模型的⽅法：

交叉验证法：将数据集D划分为k个⼤⼩相似的互斥⼦集，每次⽤k-1个⼦集的并集作为训练集，余下的⼦集作为测试集，⼀共进⾏k 次，最终返回这k个测试结果的均值。

留出法：划分两个互斥⼦集，⼀个训练集，⼀个测试集。

⾃助法：有放回采样。

8. 参数与性能度量

工程概预算论文

回归任务最常⽤的性能度量是均⽅误差

错误率：分类错误的样本数占总样本数的⽐例

精度 = 1 - 错误率

9. 查准率、查全率

铸铁工艺

P-R曲线中，

（1）若⼀个学习器的曲线被另⼀个学习器的曲线完全包住，则后者⼤于前者。

（2）⾯积越⼤，性能越好

（3）平衡点（查全率=查准率）越⾼越好

ROC曲线中横坐标为假正例率，纵坐标为真正例率

1. 偏差与⽅差（都⼩才好）

偏差：度量了学习算法的期望预测与真实结果的偏离程度，刻画了算法本⾝的拟合程度。

⽅差：度量了同样⼤⼩的训练集的变动所导致的学习性能的变化，刻画了数据扰动带来的影响。

习题

1、以⼆分类任务为例，假定数据集D包含1000个样本，将其划分为训练集S和测试集T，其中S包含800个样本， T包含200个样本，⽤S 进⾏训练后，如果模型在T上有50个样本分类错误，那么模型的正确率为75%。

2、PR（Precision-Recall）曲线的横轴和纵轴分别是查全率和查准率。

3、ROC曲线的横轴和纵轴分别是假正例率和真正例率。

6、有多种因素可能导致过拟合，其中最常见的情况是由于_学习能⼒过于强⼤，以⾄于把训练样本所包含的不太⼀般的特性都学到了，⽽⽋拟合则通常是由于学习能⼒低下⽽造成的。

7、查准率和查全率是分类任务中常⽤的性能度量指标，请写出其公式并对这两种指标进⾏分析。

timelase上的都好大

第三章线性模型

1. 向量形式

2. 均⽅误差是回归任务最常⽤的性能度量

3. 优化求解⽅法：最⼩⼆乘法、梯度下降法

基于均⽅误差最⼩化来进⾏求解的⽅法称为最⼩⼆乘法

梯度下降法：求解⽆约束函数的迭代算法

4. 学习率α对梯度下降的影响

青岛科技大学校园网α如果太⼩，梯度下降算法则会下降的很慢

α如果太⼤，梯度下降算法则不会收敛，发散或震荡。

空山鸟语郭枫5. 对数⼏率回归：解决分类问题

对数⼏率函数是“Sigmoid函数”

掌握模型输出的含义：y=P(y=1|x)，给定⼀个样本x，输出y=1的可能性。

6. 多分类学习

基本思路：“拆解法”：把多分类任务拆解成若⼲个⼆分类任务

⼀对多：n个类别，每次将⼀个类的样例作为正例，所有其他类作为反例来训练n个分类器。

⼀对⼀：n个类别，每次取出两个来训练模型，训练分类器的个数为n(n-1)/2

习题

1、在梯度下降过程中，学习率控制着算法每⼀轮迭代中的更新步长，如果学习率设置的太⼤容易振荡，设置太⼩则收敛速度太慢。

2、均⽅误差有⾮常好的⼏何意义，它对应了常⽤的欧⽒距离。基于均⽅误差最⼩化来进⾏模型求解的⽅法称为__最⼩⼆乘法_。

3、如果使⽤数据集的全部特征，学习模型在训练集上达到100%的准确率，但在测试集上仅能达到70%左右，这说明存在过拟合问题。

4、训练对数⼏率回归分类模型，如果在模型中引⼊正则项，正则化参数会对模型的性能有很⼤的影响，如果设置的过⼤则不能缓解过拟合问题，如果设置的过⼩_容易导致过拟合问题。

5、在预测任务中，给定样本集D={(x_1,y_1 ),(x_2,y_2 ),…,(x_m,y_m )}，其中y_i是样本x_i的真实标记。要评估学习器f的性能，就要把学习器预测结果f(x)与真实标记y进⾏⽐较。回归任务最常⽤的性能度量是均⽅误差，对应的公式为

6. 请分析⼀对⼀和⼀对多策略的特点。

第四章决策树

本文发布于:2024-09-22 01:10:00，感谢您对本站的认可！

本文链接：https://www.17tex.com/xueshu/354406.html

上一篇：如何快速看懂机械图纸

下一篇：机器学习中的范数规则化之（一）L0、L1与L2范数

标签：学习模型训练数据算法拟合误差分类

留言与评论（共有 0 条评论）