七月在线机器学习单选刷(一)

七⽉在线机器学习单选刷(⼀)
1、⼀个⼆进制源X发出符号集为{-1,1},经过离散⽆记忆信道传输,由于信道中噪⾳的存在,接收端Y收到符号集为{-1,1,0}。已知P(x=-1)=1/4,P(x=1)=3/4,P(y=-1|x=-1)=4/5,P(y=0|x=-1)=1/5,P(y=1|x=1)=3/4,P(y=0|x=1)=1/4,求条件熵H(Y|X)( )
A 0.7889 bit
B 0.3275 bit
C 0.5273 bit
D 0.5372 bit
思路:主要考察信息熵和条件熵的公式计算。
随机事件 X 所包含的信息量与其发⽣的概率有关(成反⽐)。发⽣的概率越⼩,其信息量就越⼤;反之,必定发⽣的事件(如太阳东升西落),其信息量为0。
信息量公式:I(X) = −logp(X) ,其中 I 是 information 的缩写。
信息量公式的单位:
log 以2为底,记作lb,单位⽐特(bit)
log 以e为底,记作ln,单位奈特(nat)
log 以10为底,记作lg,单位哈脱来(hat)
信息熵:随机变量 X 不确定性的度量,是对 X 所有可能值产⽣的信息量的期望。信息熵公式:
由公式可知:信息熵只与随机变量X的概率分布 p(x) 有关。
条件熵:表⽰在已知随机变量 X 的条件下随机变量 Y 的不确定性。
条件熵公式:
由选项单位为 bit 可知,log 函数以2为底,故将p(x=-1)=1/4,p(x=1)=3/4,
p(y=0|x=-1)=1/5,p(y=-1|x=-1)=4/5,
p(y=1|x=1)=3/4, p(y=0|x=1)=1/4 代⼊条件熵公式得:
正解:A
2、Fisher线性判别函数的求解过程是将M维特征⽮量投影在()中进⾏求解。
A  M-1维空间
B  ⼀维空间
C  三维空间
D  ⼆维空间
思路:
线性判别分析(Linear Discriminant Analysis)简称 LDA,在⼆分类问题上最早由Fisher提出,故⼜称Fisher判别分析。
在⼆分类问题上,Fisher判别分析的基本思想是:在训练时,将训练样本投影到某条直线上,这条直线可以使得同类型样本的投影点尽可能接近,⽽异类型样本的投影点尽可能远离。在预测时,将待预测数据投影到训练时学习到的直线上,根据投影点的位置来判断所属于的类别。如图所⽰:
综上所述,Fisher判别分析可以将⼆维特征向量投影到⼀维空间。推⼴到多分类任务中,Fisher判别分析可以将 M 维特征向量投影到 M-1 维空间,即:Fisher判别函数的求解过程是将M维特征⽮量投影到M-1维空间中进⾏求解。
带外衰减
相当于是减维操作。
补充:Fisher判别分析(即LDA)经常被视为⼀种经典的监督降维技术。
正解A
3、类域界⾯⽅程法中,不能求线性不可分情况下分类问题近似或精确解的⽅法是()
A 势函数法
B 基于⼆次准则的H-K算法
C 伪逆法
D 感知器算法
思路:
对于A,势函数法:势函数⾮线性。
对于B,基于⼆次准则的H-K算法:在最⼩均⽅误差准则下求得权⽮量,可以解决⾮线性问题。
对于C,伪逆法:径向基(RBF)神经⽹络的训练算法,解决线性不可分的情况。
对于D,感知器算法:线性分类模型。
“不能求解线性不可分情况下的分类问题” 即:“不能求解⾮线性分类问题”,感知器算法属于线性分类模型,故不能求解⾮线性分类问题。
汇总:解决⾮线性问题:势函数法;基于⼆次准则的H-K算法;伪逆法
只能解决线性问题:感知器算法。
正确D
4、下列哪个不属于CRF模型对于HMM和MEMM模型的优势
A 特征灵活
B 速度快
C 可容纳较多上下⽂信息
D 全局最优
思路:
HMM模型,即Hidden Markov Model隐马尔可夫模型
MEMM模型,即Maximum Entropy Markov Model最⼤熵隐马尔可夫模型
CRF模型,即Conditional Random Field,条件随机场
HMM模型是对转移概率和表现概率直接建模,统计共现概率。
⽽MEMM模型是对转移概率和表现概率建⽴联合概率,统计时统计的是条件概率。
CRF是在给定需要标记的观察序列的条件下,计算整个标记序列
的联合概率分布,⽽不是在给定当前状态条件下,定义下⼀个状态的状态分布。MEMM容易陷⼊局部最优,是因为MEMM只在局部做归⼀化。
CRF模型中,统计了全局概率,在做归⼀化时,考虑了数据在全局的分布,⽽不是仅仅在局部归⼀化,这样就解决了MEMM中的标记偏置的问题。
CRF没有HMM那样严格的独⽴性假设条件,因⽽可以容纳任意的上下⽂信息,特征设计灵活。
CRF需要训练的参数更多,与MEMM和HMM相⽐,它存在训练代价⼤、复杂度⾼的缺点。
正解B
5.Nave Bayes是⼀种特殊的Bayes分类器,特征变量是X,类别标签是C,它的⼀个假定是()
A 各类别的先验概率P(C)是相等的
B 以0为均值,sqr(2)/2为标准差的正态分布
C 特征变量X的各个维度是类别条件独⽴随机变量
D P(X|C)是⾼斯分布
阻燃双面胶思路:
朴素贝叶斯(Nave Bayes)的基本假设就是每个变量相互独⽴。
正解C
6、在HMM中,如果已知观察序列和产⽣观察序列的状态序列,那么可⽤以下哪种⽅法直接进⾏参数估计()
A EM算法
B 维特⽐算法
C 前向后向算法
D 极⼤似然估计
解析:
EM算法:只有观测序列,⽆状态序列时来学习模型参数,即Baum-Welch算法
维特⽐算法:⽤动态规划解决HMM的预测问题,不是参数估计
前向后向算法:⽤来算概率
极⼤似然估计:即观测序列和相应的状态序列都存在时的监督学习算法,⽤来估计参数
注意的是在给定观测序列和对应的状态序列估计模型参数,可以利⽤极⼤似然发估计。如果给定观测序列,没有对应的状态序列,才⽤EM,将状态序列看成不可测的隐数据。
有给定观测序列和对应序列估计状态,就⽤极⼤似然估计
只有观测序列,就⽤EM.
正解:D
7、假定某同学使⽤Naive Bayesian(NB)分类模型时,不⼩⼼将训练数据的两个维度搞重复了,那么关于NB的说法中不正确的是?
A 模型效果相⽐⽆重复特征的情况下精确度会降低
B 如果所有特征都被重复⼀遍,得到的模型预测结果相对于不重复的情况下的模型预测结果⼀样
C ⽆法⽤两列特征相同时所得到的结论来分析问题
盲源分离解析:
朴素贝叶斯的条件就是每个变量相互独⽴。在贝叶斯理论系统中,都有⼀个重要的条件独⽴性假设:假设所有特征之间相互独⽴,这样才能将联合概率拆分。
此外,若⾼度相关的特征在模型中引⼊两次, 这样增加了这⼀特征的重要性, 则它的性能因数据包含⾼度相关的特征⽽下降。正确做法是评估特征的相关矩阵,并移除那些⾼度相关的特征。
补充说明
C选项已删除前半句话“当两列特征⾼度相关时,”⽽⾼度相关和相同类似,它们都会导致朴素贝叶斯公式对模型的估计不准确,所以C选项描述正确,题⽬问的是不正确的,故不可以选C。
正确B
8、以下哪些⽅法不可以直接来对⽂本分类?
A Kmeans
B 决策树
C ⽀持向量机
D KNN
解析:
Kmeans是聚类⽅法,典型的⽆监督学习⽅法。分类是监督学习⽅法,BCD都是常见的分类⽅法。
正解C
9、已知⼀组数据的协⽅差矩阵P,下⾯关于主分量说法错误的是()
A 主分量分析的最佳准则是对⼀组数据进⾏按⼀组正交基分解, 在只取相同数量分量的条件下,以均⽅误差计算截尾误差最⼩
B 在经主分量分解后,协⽅差矩阵成为对⾓矩阵
C 主分量分析就是K-L变换
D 主分量是通过求协⽅差矩阵的特征值得到
解析:
K-L变换与PCA变换是不同的概念,PCA的变换矩阵是协⽅差矩阵,K-L变换的变换矩阵可以有很多种(⼆阶矩阵、协⽅差矩阵、总类内离散度矩阵等等)。当K-L变换矩阵为协⽅差矩阵时,等同于PCA。
正解:C
10、以下不属于影响聚类算法结果的主要因素有()
A 已知类别的样本质量
B 分类准则
C 特征选取
D 模式相似性测度激光投影键盘
解析:
对于A选项,类别已知暂且不说,样本质量是不会影响聚类结果的。因为聚类的任务只是把数据按照相似性原则进⾏划分,不存在分类问题中由于训练集样本存在噪声数据,从⽽影响分类结果的情况。
在类别已知的情况下,直接按照样本的类别标签进⾏聚类就可以了,⽤不到复杂的聚类算法,所以也就不存在影响聚类算法结果这么⼀说了。
选项的分类准则是指选取什么特征将该特征相似的数据聚为⼀类,这个会直接影响到样本聚类的结果;特征选取、相似性测度也是影响聚类算法结果的因素。
正解A
11、模式识别中,不属于马式距离较之于欧式距离的优点的是()
A 平移不变性
B 尺度不变性
C 考虑了模式的分布
解析:
欧⽒距离是在N维空间中两个点的真实距离;马⽒距离表⽰数据的协⽅差距离。
⽽欧式距离的特征是:平移不变性、旋转不变性。
马式距离的特征则是:平移不变性、旋转不变性、尺度不变性、不受量纲影响、考虑了模式分布。
所以马式距离相⽐欧式距离的优点:尺度不变性、不受量纲影响、考虑了模式分布。换句话说,不属于马式距离较之于欧式距离的优点是:平移不变性、旋转不变性。
平移不变性和旋转不变性欧式距离和马⽒距离都有
正解A
12.
斜板
不会对基本K-均值算法产⽣影响的因素是()
A 样本输⼊顺序
B 模式相似性测度
C 聚类准则
D 初始类中⼼的选取
解析:
对于D选项,传统的K均值算法随机选取初始聚类中⼼,往往会造成聚类结果陷⼊局部最优解,故改进初始类中⼼的选取⽅法可以提升K均值算法的聚类效果。
对于A选项,样本的输⼊顺序会影响到初始类中⼼的选取结果。
对于B选项,模式相似性测度是指数据相似性的测量标准,⽐如通过计算两个数据的欧式距离⼤⼩,来判定他们的相似程度,进⽽确定他们是否属于同类。欧⽒距离越⼩,说明数据越接近,相似性越⼤。此外,相似性测度还有马⽒距离、余弦相似度等,不同的测度会影响到K-均值算法聚类的结果,这和应聘⾯试是⼀个道理,不同的⽤⼈单位选⽤不同的标准,同样的你去应聘成功的概率也会不同。
聚类准则:相似的数据被聚为⼀类。这个准则是不会变的,故不会对K均值算法产⽣影响,所以答案选C。
正解C
13. 在统计模式分类问题中,当先验概率未知时,可以使⽤以下哪项准则?
A 最⼩损失准则测井车
B 最⼩最⼤损失准则
C 最⼩误判概率准则
解析:

本文发布于:2024-09-21 16:35:12,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/1/155561.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:算法   特征   序列
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议