机器学习西瓜书期末复习(2022HENU)

机器学习西⽠书期末复习(2022HENU)
期末复习之机器学习
选择题 10 * 2
填空题 10 * 1
判断题 10 * 2
简答题 4 * 5
计算题 2 * 15
⽂章⽬录
第⼀章绪论
机器学习的定义
机器学习致⼒于研究如何通过计算的⼿段,利⽤经验来改善系统⾃⾝的性能。
经验在计算机系统中通常以数据的形式存在。
机器学习研究的主要内容是关于在计算机上从数据中产⽣模型算法,即学习算法
根据训练数据是否拥有标记信息,将学习任务分为监督学习和⽆监督学习。
监督学习 :分类和回归
线性回归、对数⼏率回归、决策树、⽀持向量机、贝叶斯分类器、神经⽹络
⽆监督学习:聚类
聚类算法: 原型聚类:(k均值,学习向量量化,⾼斯混合聚类);密度聚类(DBSVAN);层次聚类(AGNES)。降维。话题分析。图分析。
机器学习的⽬标是使学得的模型能很好地适⽤于“新样本”。
学得模型适⽤于新样本的能⼒,称为“泛化能⼒”
机器学习三要素:模型、策略、算法
第⼆章模型评估与选择
1. 训练误差: 训练集上的误差
2. 泛化误差:新样本上的误差
3. 训练误差越⼩越好?
不是,训练误差越来越⼩会导致模型过拟合,则模型不具备很好的泛化能⼒。
4. 泛化误差越⼩越好?
wdc2010是的,预测的越准确越好,即泛化误差越⼩越好。
5. 过拟合: 学习到的模型太符合训练集的特征
⽋拟合: 学习到的模型没有把应该考虑进去的属性考虑进去。
减⼩过拟合的⽅法:
减少特征的数量,数据正则化
6. 如果⼀个模型加⼊正则项,这个模型的拟合程度不⼀定增加。取决于正则化参数。参数过⼤会导致⽋拟合,过⼩会导致过拟合。
7. 评估模型的⽅法:
交叉验证法:将数据集D划分为k个⼤⼩相似的互斥⼦集,每次⽤k-1个⼦集的并集作为训练集,余下的⼦集作为测试集,⼀共进⾏k 次,最终返回这k个测试结果的均值。
留出法:划分两个互斥⼦集,⼀个训练集,⼀个测试集。
⾃助法:有放回采样。
8. 参数与性能度量
工程概预算论文
回归任务最常⽤的性能度量是均⽅误差
错误率:分类错误的样本数占总样本数的⽐例
精 度 = 1 - 错误率
9. 查准率、查全率
铸铁工艺
P-R曲线中,
(1)若⼀个学习器的曲线被另⼀个学习器的曲线完全包住,则后者⼤于前者。
(2) ⾯积越⼤,性能越好
(3)平衡点(查全率=查准率)越⾼越好
ROC曲线中横坐标为假正例率,纵坐标为真正例率
1. 偏差与⽅差(都⼩才好)
偏差:度量了学习算法的期望预测与真实结果的偏离程度,刻画了算法本⾝的拟合程度。
⽅差:度量了同样⼤⼩的训练集的变动所导致的学习性能的变化,刻画了数据扰动带来的影响。
习题
1、 以⼆分类任务为例,假定数据集D包含1000个样本,将其划分为训练集S和测试集T,其中S包含800个样本, T包含200个样本,⽤S 进⾏训练后,如果模型在T上有50个样本分类错误,那么模型的正确率为75%。
2、PR(Precision-Recall)曲线的横轴和纵轴分别是查全率和查准率。
3、ROC曲线的横轴和纵轴分别是假正例率和真正例率。
6、有多种因素可能导致过拟合,其中最常见的情况是由于_学习能⼒过于强⼤,以⾄于把训练样本所包含的不太⼀般的特性都学到了,⽽⽋拟合则通常是由于学习能⼒低下⽽造成的。
7、查准率和查全率是分类任务中常⽤的性能度量指标,请写出其公式并对这两种指标进⾏分析。
timelase上的都好大
第三章线性模型
1. 向量形式
2. 均⽅误差是回归任务最常⽤的性能度量
3. 优化求解⽅法:最⼩⼆乘法、梯度下降法
基于均⽅误差最⼩化来进⾏求解的⽅法称为最⼩⼆乘法
梯度下降法:求解⽆约束函数的迭代算法
4. 学习率α对梯度下降的影响
青岛科技大学校园网α如果太⼩,梯度下降算法则会下降的很慢
α如果太⼤,梯度下降算法则不会收敛,发散或震荡。
空山鸟语郭枫5. 对数⼏率回归:解决分类问题
对数⼏率函数是“Sigmoid函数”
掌握模型输出的含义:y=P(y=1|x),给定⼀个样本x,输出y=1的可能性。
6. 多分类学习
基本思路:“拆解法”:把多分类任务拆解成若⼲个⼆分类任务
⼀对多:n个类别,每次将⼀个类的样例作为正例,所有其他类作为反例来训练n个分类器。
⼀对⼀:n个类别,每次取出两个来训练模型,训练分类器的个数为n(n-1)/2
习题
1、在梯度下降过程中,学习率控制着算法每⼀轮迭代中的更新步长,如果学习率设置的太⼤容易振荡,设置太⼩则收敛速度太慢。
2、均⽅误差有⾮常好的⼏何意义,它对应了常⽤的欧⽒距离。基于均⽅误差最⼩化来进⾏模型求解的⽅法称为__最⼩⼆乘法_。
3、如果使⽤数据集的全部特征,学习模型在训练集上达到100%的准确率,但在测试集上仅能达到70%左右,这说明存在过拟合问题。
4、训练对数⼏率回归分类模型,如果在模型中引⼊正则项,正则化参数会对模型的性能有很⼤的影响,如果设置的过⼤则不能缓解过拟合问题,如果设置的过⼩_容易导致过拟合问题。
5、在预测任务中,给定样本集D={(x_1,y_1 ),(x_2,y_2 ),…,(x_m,y_m )},其中y_i是样本x_i的真实标记。要评估学习器f的性能,就要把学习器预测结果f(x)与真实标记y进⾏⽐较。回归任务最常⽤的性能度量是均⽅误差,对应的公式为
6. 请分析⼀对⼀和⼀对多策略的特点。
第四章决策树

本文发布于:2024-09-22 01:10:00,感谢您对本站的认可!

本文链接:https://www.17tex.com/xueshu/354406.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:学习   模型   训练   数据   算法   拟合   误差   分类
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议