机器学习算法基础问题(一)PCASVM贝叶斯决策树

机器学习算法基础问题(⼀)PCASVM贝叶斯决策树
相关⽂章:
⽬录
⼀、贝叶斯与⽣成式判别式
1.1 ⽣成式模型与判别式模型
这个较容易判别其他⼏项正确,但是关于⽣成式模型和判别式模型:
判别式模型(Discriminative Model)是直接对条件概率p(y|x;θ)建模。常见的判别式模型有 线性回归模型、线性判别分析、⽀持向量机SVM、神经⽹络等。
⽣成式模型(Generative Model)则会对x和y的联合分布p(x,y)建模,然后通过贝叶斯公式来求得p(yi|x),然后选取使得p(yi|x)最⼤的yi,即:
常见的⽣成式模型有 隐马尔可夫模型HMM、朴素贝叶斯模型、⾼斯混合模型GMM、LDA等。
判别式模型根据求y即根据x来预测y
⽣成式模型求y则根据x,y的联合分布,反推最可能的p(y|x),多了⼀步。
1.2 贝叶斯分类器
贝叶斯分类器
此类基础的问题经常出现,贝叶斯概型,先验概率,后验概率等等。是机器学习很基础的问题。
贝叶斯分类器是各种分类器中分类错误概率最⼩或者在预先给定代价的情况下平均风险最⼩的分类器。它的设计⽅法是⼀种最基本的统计。其分类原理是通过某对象的,利⽤计算出其,即该对象属于某⼀类的概率,选择具有最⼤后验概率的类作为该对象所属的类。
先验概率:
先验概率(prior probability)是指根据以往经验和分析得到的概率,如全概率公式,它往往作为"由因求果"问题中的"因"出现的概率。在贝叶斯统计推断中,不确定数量的先验概率分布是在考虑⼀些因素之前表达对这⼀数量的置信程度的概率分布。例如,先验概率分布可能代表在将来的选举中投票给特定政治家的选民相对⽐例的概率分布。未知的数量可以是模型的参数或者是潜在变量。
后验概率:
后验概率是的基本概念之⼀。在⼀个通信系统中,在收到某个消息之后,接收端所了解到的该消息发送的概率称为后验概率。
后验概率的计算要以为基础。后验概率可以根据通过,⽤先验概率和计算出来
后验概率是指在得到“结果”的信息后重新修正的概率,是“执果寻因”问题中的"果"。与后验概率有不可分割的联系,后验概率的计算要以先验概率为基础 。
事情还没有发⽣,要求这件事情发⽣的可能性的⼤⼩,是先验概率。事情已经发⽣,要求这件事情发⽣的原因是由某个因素引起的可能性的⼤⼩,是后验概率。
1.3 相关贝叶斯题
下⾯关于贝叶斯分类器描述错误的是( )
正确答案: B
以贝叶斯定理为基础(正确)
是基于后验概率,推导出先验概率
可以解决有监督学习的问题(正确,需要标签了算概率)
可以⽤极⼤似然估计法解贝叶斯分类器(正确,极⼤似然就相当于由先验求后验)
解析:第⼆个说反了,贝叶斯概型都是根据先验推导后验,求出联合分布,再算出后验概率,都是由结果原因。
⼆、决策树与随机森林
2.1 决策树
决策树属于也只能⾮参数学习算法(⾮参数机器学习⽅法不需要存储参数)、可以⽤于解决(多)分类问题,回归问题。 回归问题的结果,叶⼦结点的平均值是回归问题的解。
根节点:决策树具有数据结构⾥⾯的⼆叉树、树的全部属性
⾮叶⼦节点 :(决策点) 代表测试的条件,数据的属性的测试
叶⼦节点 :分类后获得分类标记
分⽀: 测试的结果
决策树对抗过拟合的⽅法就是剪枝。
2.2 决策树的构造过程(training)
基于信息熵的构造
当选择某个特征作为节点时,我们就希望这个特征的信息熵越⼩越好,那么不确定性越⼩
在决策树算法中,ID3基于信息增益作为属性选择的度量, C4.5基于信息增益作为属性选择的度量, CART基于基尼指数作为属性选择的度量。
2.3 随机森林
随机森林的随机性体现在下⾯哪些?
决策树的个数随机(不对,因为决策树的个数已经被固定好了)
决策树深度的随机(不正确,两个随机性不来⾃于此)
选取特征的随机(正确,树中每个节点的分裂属性集合也是随机选择确定的)
选取训练样本的随机(正确,训练样本随机选择,有放回的抽样。与boosting区分:boosting是每轮都⼀样,但是权重不同)
随机森林顾名思义,是⽤随机的⽅式建⽴⼀个森林,森林⾥⾯有很多的决策树组成,随机森林的每⼀棵决策树之间是没有关联的。在得到森林之后,当有⼀个新的输⼊样本进⼊的时候,就让森林中的每⼀棵决策树分别进⾏⼀下判断,看看这个样本应该属于哪⼀类(对于分类算法),然后看看哪⼀类被选择最多,就预测这个样本为那⼀类。
随机森林相当于bagging,Bagging是通过结合⼏个模型降低泛化误差的技术。主要想法是分别训练⼏个不同的模型,然后让所有模型表决测试样例的输出。 这是机器学习中常规策略的⼀个例⼦,被称为模型平均(modelaveraging)。采⽤这种策略的技术被称为集成⽅法,⽤于减少泛化误差。(bagging与boosting的区别见后续博⽂)
如果训练集⼤⼩为N,对于每棵树⽽⾔,随机且有放回地从训练集中的抽取N个训练样本(这种采样⽅
式称为bootstrap sample⽅法),作为该树的训练集。
随机森林优点:
a. 在数据集上表现良好,两个随机性的引⼊,使得随机森林不容易陷⼊过拟合
b. 在当前的很多数据集上,相对其他算法有着很⼤的优势,两个随机性的引⼊,使得随机森林具有很好的抗噪声能⼒
c. 它能够处理很⾼维度(feature很多)的数据,并且不⽤做特征选择,对数据集的适应能⼒强:既能处理离散型数据,也能处理连续
型数据,数据集⽆需规范化
d. 可⽣成⼀个Proximities=(pij)矩阵,⽤于度量样本之间的相似性: pij=aij/N, aij表⽰样本i和j出现在随机森林中同⼀个叶⼦结点的
次数,N随机森林中树的颗数
e. 在创建随机森林的时候,对generlization error使⽤的是⽆偏估计
f. 训练速度快,可以得到变量重要性排序(两种:基于OOB误分率的增加量和基于分裂时的GINI下降量
包装与食品机械
g. 在训练过程中,能够检测到feature间的互相影响
h. 容易做成并⾏化⽅法
i. 实现⽐较简单
三、协同滤波
3.1 协同滤波
协同过滤是利⽤集体智慧的⼀个典型⽅法。推荐系统的⾸要问题是了解你的⽤户,然后才能给出更好的推荐。
概念:协同过滤⼀般是在海量的⽤户中发掘出⼀⼩部分和你品位(偏好)⽐较类似的,在协同过滤中,这些⽤户成为邻居,然后根据他们喜欢的其他东西组织成⼀个排序的⽬录作为推荐给你。
四、经典算法
4.1 PCA算法
下⾯关于主分量分析(PCA)的描述错误的是( )?
是⼀种⾮线性的⽅法(错误,PCA是线性映射的⽅法)
是⼀种对数据集降维的⽅法(正确,PCA,主成分分析,⽤于降维)
它将⼀组可能相关的变量变换为同样数量的不相关的变量(正确,如果相关,则PCA可以从中出主成分并且忽略掉类似的部分)它的第⼀个主分量尽可能⼤的反映数据中的发散性(正确,第⼀个维度是散的最开的维度)
解析:PCA是线性变换。
PCA与SVD
区别与联系:
PCA的中⽂名叫做主成分分析,是降维和去噪的⼀种重要⽅法。PCA选取包含信息量最多的⽅向对数据进⾏投影。其投影⽅向可以从最⼤化⽅差或者最⼩化投影误差两个⾓度理解
PCA要求分解后两个矩阵值⼀样,C=VLV',其中V是正交矩阵。
SVD分解后两个正交矩阵可以不⼀样,S=UXV',其中U和V是正交矩阵。
SVD是另⼀个⽅向上的主成分,PCA只是单⽅向上的主成分。PCA会丢失⼀定的数据。
4.2 SVM
下⾯关于⽀持向量机(SVM)的描述错误的是( )?
是⼀种监督式学习的⽅法(正确,需要标签样本)
可⽤于多分类的问题(正确,多个超平⾯)
是⼀种⽣成式模型(错误,是判别式模型,因为由因索果,直接训练模型。不是⽣成模型的由果索因)
⽀持⾮线性的核函数(正确)平凡的感动
logistic与SVM错误的是
SVM的⽬标是结构风险最⼩化【正确,⽀持向量机⽅法是建⽴在统计学习理论的VC维理论和结构风险最⼩原理基础上的,根据有限的样本信息在模型的复杂性(即对特定训练样本的学习精度,Accuracy)和学习能⼒(即⽆错误地识别任意样本的能⼒)之间寻求最佳折衷】SVM有效避免过拟合(错误,SVM也存在过拟合的问题,特别运⽤核函数的时候)
logistic回归可以预测事件发⽣概率的⼤⼩(正确)
logistic回归是为了⽬标函数最⼩化后验概率(这点存疑,需要研究了logistic回归之后才能知道,最⼩化先验概率?)
准确率与召回率
Precison,与recall
为他人开一朵绚丽的花准确率和召回率是⼴泛⽤于信息检索和统计学分类领域的两个度量值,⽤来评价结果的质量,下⾯关于召回率描述正确的是( )山下智久生田斗真
正确答案: C
衡量的是提取出的正确信息多少是准确的
召回率 = 提取出的正确信息条数 / 提取出的信息条数
召回率 = 提取出的正确信息条数 / 样本中相关的信息条数
召回率 = 提取出的正确信息条数 / 样本中总的信息条数
解析:这个挺简单的,因为博主前段时间还在做多标签分类,经常与这⼏个指标打交道。类⽐警察抓⼩偷。
Precision查准率,相当于 抓到的真⼩偷/抓到的所有⼈
Recall查全率,相当于 抓到的真⼩偷/ 所以⼩偷
KNN近邻⽅法
⼀般情况下,KNN最近邻⽅法在( )情况下效果最好
正确答案: C  (有争议吧,应该是样本出现团状分布的时候效果较好)
样本呈现团状分布
样本呈现链状分布
样本数量较⼤
样本数量较⼩
KNN算法最牛班规
如果⼀个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的⼤多数属于某⼀个类别,则该样本也属于这个类别,
KNN算法对于样本不均的问题很难处理,⽐如只有1个A类,其他9个B类,即使很接近A,但是最近的三个肯定是,A,B,B,就⽆法处理样本不均的问题。
五、线性回归
7.1 最⼩⼆乘法
给定数据集D = {(x1,y1), (x2,y2), …, (xn,yn)},其中xi是p维的输⼊数据,yi对应的标签。要求通过“线性回归”⽅法来学得⼀个线性模型。
ESM
1) 请写出线性模型的的预测函数;
2) 请描述如何使⽤“最⼩⼆乘法”来进⾏参数估计,请写出主要公式推导;
解析:

本文发布于:2024-09-22 05:34:51,感谢您对本站的认可!

本文链接:https://www.17tex.com/xueshu/570066.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:概率   模型   样本   问题   后验   森林   数据   分布
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议