七月在线机器学习单选刷（一）

七⽉在线机器学习单选刷（⼀）

1、⼀个⼆进制源X发出符号集为{-1,1}，经过离散⽆记忆信道传输，由于信道中噪⾳的存在，接收端Y收到符号集为{-1,1,0}。已知P(x=-1)=1/4，P(x=1)=3/4，P(y=-1|x=-1)=4/5，P(y=0|x=-1)=1/5，P(y=1|x=1)=3/4，P(y=0|x=1)=1/4，求条件熵H(Y|X)（）

A 0.7889 bit

B 0.3275 bit

C 0.5273 bit

D 0.5372 bit

思路：主要考察信息熵和条件熵的公式计算。

随机事件 X 所包含的信息量与其发⽣的概率有关（成反⽐）。发⽣的概率越⼩，其信息量就越⼤；反之，必定发⽣的事件（如太阳东升西落），其信息量为0。

信息量公式：I(X) = −logp(X) ，其中 I 是 information 的缩写。

信息量公式的单位：

log 以2为底，记作lb，单位⽐特（bit）

log 以e为底，记作ln，单位奈特（nat）

log 以10为底，记作lg，单位哈脱来（hat）

信息熵：随机变量 X 不确定性的度量，是对 X 所有可能值产⽣的信息量的期望。信息熵公式：

由公式可知：信息熵只与随机变量X的概率分布 p(x) 有关。

条件熵：表⽰在已知随机变量 X 的条件下随机变量 Y 的不确定性。

条件熵公式：

由选项单位为 bit 可知，log 函数以2为底，故将p(x=-1)=1/4，p(x=1)=3/4，

p(y=0|x=-1)=1/5，p(y=-1|x=-1)=4/5，

p(y=1|x=1)=3/4， p(y=0|x=1)=1/4 代⼊条件熵公式得：

正解：A

2、Fisher线性判别函数的求解过程是将M维特征⽮量投影在（）中进⾏求解。

A M-1维空间

B ⼀维空间

C 三维空间

D ⼆维空间

思路：

线性判别分析（Linear Discriminant Analysis）简称 LDA，在⼆分类问题上最早由Fisher提出，故⼜称Fisher判别分析。

在⼆分类问题上，Fisher判别分析的基本思想是：在训练时，将训练样本投影到某条直线上，这条直线可以使得同类型样本的投影点尽可能接近，⽽异类型样本的投影点尽可能远离。在预测时，将待预测数据投影到训练时学习到的直线上，根据投影点的位置来判断所属于的类别。如图所⽰：

综上所述，Fisher判别分析可以将⼆维特征向量投影到⼀维空间。推⼴到多分类任务中，Fisher判别分析可以将 M 维特征向量投影到 M-1 维空间，即：Fisher判别函数的求解过程是将M维特征⽮量投影到M-1维空间中进⾏求解。

带外衰减

相当于是减维操作。

补充：Fisher判别分析（即LDA）经常被视为⼀种经典的监督降维技术。

正解A

3、类域界⾯⽅程法中，不能求线性不可分情况下分类问题近似或精确解的⽅法是（）

A 势函数法

B 基于⼆次准则的H-K算法

C 伪逆法

D 感知器算法

思路：

对于A，势函数法：势函数⾮线性。

对于B，基于⼆次准则的H-K算法：在最⼩均⽅误差准则下求得权⽮量，可以解决⾮线性问题。

对于C，伪逆法：径向基（RBF）神经⽹络的训练算法，解决线性不可分的情况。

对于D，感知器算法：线性分类模型。

“不能求解线性不可分情况下的分类问题” 即：“不能求解⾮线性分类问题”，感知器算法属于线性分类模型，故不能求解⾮线性分类问题。

汇总：解决⾮线性问题：势函数法；基于⼆次准则的H-K算法；伪逆法

只能解决线性问题：感知器算法。

正确D

4、下列哪个不属于CRF模型对于HMM和MEMM模型的优势

A 特征灵活

B 速度快

C 可容纳较多上下⽂信息

D 全局最优

思路：

HMM模型，即Hidden Markov Model隐马尔可夫模型

MEMM模型，即Maximum Entropy Markov Model最⼤熵隐马尔可夫模型

CRF模型，即Conditional Random Field，条件随机场

HMM模型是对转移概率和表现概率直接建模，统计共现概率。

⽽MEMM模型是对转移概率和表现概率建⽴联合概率，统计时统计的是条件概率。

CRF是在给定需要标记的观察序列的条件下，计算整个标记序列

的联合概率分布，⽽不是在给定当前状态条件下，定义下⼀个状态的状态分布。MEMM容易陷⼊局部最优，是因为MEMM只在局部做归⼀化。

CRF模型中，统计了全局概率，在做归⼀化时，考虑了数据在全局的分布，⽽不是仅仅在局部归⼀化，这样就解决了MEMM中的标记偏置的问题。

CRF没有HMM那样严格的独⽴性假设条件，因⽽可以容纳任意的上下⽂信息，特征设计灵活。

CRF需要训练的参数更多，与MEMM和HMM相⽐，它存在训练代价⼤、复杂度⾼的缺点。

正解B

5.Nave Bayes是⼀种特殊的Bayes分类器，特征变量是X，类别标签是C，它的⼀个假定是（）

A 各类别的先验概率P(C)是相等的

B 以0为均值，sqr(2)/2为标准差的正态分布

C 特征变量X的各个维度是类别条件独⽴随机变量

D P(X|C)是⾼斯分布

阻燃双面胶思路：

朴素贝叶斯(Nave Bayes)的基本假设就是每个变量相互独⽴。

正解C

6、在HMM中，如果已知观察序列和产⽣观察序列的状态序列，那么可⽤以下哪种⽅法直接进⾏参数估计（）

A EM算法

B 维特⽐算法

C 前向后向算法

D 极⼤似然估计

解析：

EM算法：只有观测序列，⽆状态序列时来学习模型参数，即Baum-Welch算法

维特⽐算法：⽤动态规划解决HMM的预测问题，不是参数估计

前向后向算法：⽤来算概率

极⼤似然估计：即观测序列和相应的状态序列都存在时的监督学习算法，⽤来估计参数

注意的是在给定观测序列和对应的状态序列估计模型参数，可以利⽤极⼤似然发估计。如果给定观测序列，没有对应的状态序列，才⽤EM，将状态序列看成不可测的隐数据。

有给定观测序列和对应序列估计状态，就⽤极⼤似然估计

只有观测序列，就⽤EM.

正解：D

7、假定某同学使⽤Naive Bayesian（NB）分类模型时，不⼩⼼将训练数据的两个维度搞重复了，那么关于NB的说法中不正确的是？

A 模型效果相⽐⽆重复特征的情况下精确度会降低

B 如果所有特征都被重复⼀遍，得到的模型预测结果相对于不重复的情况下的模型预测结果⼀样

C ⽆法⽤两列特征相同时所得到的结论来分析问题

盲源分离解析：

朴素贝叶斯的条件就是每个变量相互独⽴。在贝叶斯理论系统中，都有⼀个重要的条件独⽴性假设：假设所有特征之间相互独⽴，这样才能将联合概率拆分。

此外，若⾼度相关的特征在模型中引⼊两次, 这样增加了这⼀特征的重要性, 则它的性能因数据包含⾼度相关的特征⽽下降。正确做法是评估特征的相关矩阵，并移除那些⾼度相关的特征。

补充说明

C选项已删除前半句话“当两列特征⾼度相关时，”⽽⾼度相关和相同类似，它们都会导致朴素贝叶斯公式对模型的估计不准确，所以C选项描述正确，题⽬问的是不正确的，故不可以选C。

正确B

8、以下哪些⽅法不可以直接来对⽂本分类？

A Kmeans

B 决策树

C ⽀持向量机

D KNN

解析：

Kmeans是聚类⽅法，典型的⽆监督学习⽅法。分类是监督学习⽅法，BCD都是常见的分类⽅法。

正解C

9、已知⼀组数据的协⽅差矩阵P，下⾯关于主分量说法错误的是（）

A 主分量分析的最佳准则是对⼀组数据进⾏按⼀组正交基分解, 在只取相同数量分量的条件下，以均⽅误差计算截尾误差最⼩

B 在经主分量分解后，协⽅差矩阵成为对⾓矩阵

C 主分量分析就是K-L变换

D 主分量是通过求协⽅差矩阵的特征值得到

解析：

K-L变换与PCA变换是不同的概念，PCA的变换矩阵是协⽅差矩阵，K-L变换的变换矩阵可以有很多种（⼆阶矩阵、协⽅差矩阵、总类内离散度矩阵等等）。当K-L变换矩阵为协⽅差矩阵时，等同于PCA。

正解：C

10、以下不属于影响聚类算法结果的主要因素有（）

A 已知类别的样本质量

B 分类准则

C 特征选取

D 模式相似性测度激光投影键盘

解析：

对于A选项，类别已知暂且不说，样本质量是不会影响聚类结果的。因为聚类的任务只是把数据按照相似性原则进⾏划分，不存在分类问题中由于训练集样本存在噪声数据，从⽽影响分类结果的情况。

在类别已知的情况下，直接按照样本的类别标签进⾏聚类就可以了，⽤不到复杂的聚类算法，所以也就不存在影响聚类算法结果这么⼀说了。

选项的分类准则是指选取什么特征将该特征相似的数据聚为⼀类，这个会直接影响到样本聚类的结果；特征选取、相似性测度也是影响聚类算法结果的因素。

正解A

11、模式识别中，不属于马式距离较之于欧式距离的优点的是（）

A 平移不变性

B 尺度不变性

C 考虑了模式的分布

解析：

欧⽒距离是在N维空间中两个点的真实距离；马⽒距离表⽰数据的协⽅差距离。

⽽欧式距离的特征是：平移不变性、旋转不变性。

马式距离的特征则是：平移不变性、旋转不变性、尺度不变性、不受量纲影响、考虑了模式分布。

所以马式距离相⽐欧式距离的优点：尺度不变性、不受量纲影响、考虑了模式分布。换句话说，不属于马式距离较之于欧式距离的优点是：平移不变性、旋转不变性。

平移不变性和旋转不变性欧式距离和马⽒距离都有

正解A

12.

斜板

不会对基本K-均值算法产⽣影响的因素是（）

A 样本输⼊顺序

B 模式相似性测度

C 聚类准则

D 初始类中⼼的选取

解析:

对于D选项，传统的Ｋ均值算法随机选取初始聚类中⼼，往往会造成聚类结果陷⼊局部最优解，故改进初始类中⼼的选取⽅法可以提升Ｋ均值算法的聚类效果。

对于A选项，样本的输⼊顺序会影响到初始类中⼼的选取结果。

对于B选项，模式相似性测度是指数据相似性的测量标准，⽐如通过计算两个数据的欧式距离⼤⼩，来判定他们的相似程度，进⽽确定他们是否属于同类。欧⽒距离越⼩，说明数据越接近，相似性越⼤。此外，相似性测度还有马⽒距离、余弦相似度等，不同的测度会影响到K-均值算法聚类的结果，这和应聘⾯试是⼀个道理，不同的⽤⼈单位选⽤不同的标准，同样的你去应聘成功的概率也会不同。

聚类准则：相似的数据被聚为⼀类。这个准则是不会变的，故不会对Ｋ均值算法产⽣影响，所以答案选C。

正解C

13. 在统计模式分类问题中，当先验概率未知时，可以使⽤以下哪项准则?

A 最⼩损失准则测井车

B 最⼩最⼤损失准则

C 最⼩误判概率准则

解析：

本文发布于:2024-09-21 16:35:12，感谢您对本站的认可！

本文链接：https://www.17tex.com/tex/1/155561.html

上一篇：某型机机电核心处理机故障分析与排除

下一篇：应用随机过程论文