首页 > 学术百科

机器学习题目汇总一

机器学习题⽬汇总⼀

1、⼀监狱⼈脸识别准⼊系统⽤来识别待进⼊⼈员的⾝份，此系统⼀共包括识别4种不同的⼈员：狱警、⼩偷、送餐员、其他，下⾯哪种学习⽅法最适合此种应⽤需求?

正确答案: B

A、⼆分类问题

B、多分类问题

C、层次聚类问题

D、K-中⼼点聚类问题

E、回归问题

F、结构分析问题

⼆分类：每个分类器只能把样本分为两类。监狱⾥的样本分别为狱警、⼩偷、送餐员、其他。⼆分类肯定⾏不通。⽡普尼克95年提出来基础的⽀持向量机就是个⼆分类的分类器，这个分类器学习过程就是解

⼀个基于正负⼆分类推导⽽来的⼀个最优规划问题（对偶问题）。

要解决多分类问题就要⽤决策树把⼆分类的分类器级联，VC维的概念就是说的这事的复杂度。

层次聚类：创建⼀个层次等级以分解给定的数据集。监狱⾥的对象分别是狱警、⼩偷、送餐员、或者其他，他们等级应该是平等的，所以不⾏。此⽅法分为⾃上⽽下（分解）和⾃下⽽上（合并）两种操作⽅式。

K-中⼼点聚类：挑选实际对象来代表簇，每个簇使⽤⼀个代表对象。它是围绕中⼼点划分的⼀种规则，所以这⾥并不合适。

回归分析：处理变量之间具有相关性的⼀种统计⽅法，这⾥的狱警、⼩偷、送餐员、其他之间并没有什么直接关系。

结构分析：结构分析法是在统计分组的基础上，计算各组成部分所占⽐重，进⽽分析某⼀总体现象的内部结构特征、总体的性质、总体内部结构依时间推移⽽表现出的变化规律性的统计⽅法。结构分析法的基本表现形式，就是计算结构指标。这⾥也⾏不通。

多分类问题：针对不同的属性训练⼏个不同的弱分类器，然后将它们集成为⼀个强分类器。这⾥狱警、⼩偷、送餐员以及他某某，分别根据他们的特点设定依据，然后进⾏区分识别。

2、解决隐马模型中预测问题的算法是?

正确答案: D

A、前向算法

B、后向算法

C、Baum-Welch算法

D、维特⽐算法

梦游地狱对于A、B：前向、后向算法解决的是⼀个评估问题，即给定⼀个模型，求某特定观测序列的概率，⽤于评估该序列最匹配的模型。

C：Baum-Welch算法解决的是⼀个模型训练问题，即参数估计，是⼀种⽆监督的训练⽅法，主要通过EM迭代实现；唧唧复唧唧

D：维特⽐算法解决的是给定⼀个模型和某个特定的输出序列，求最可能产⽣这个输出的状态序列。如通过海藻变化（输出序列）来观测天⽓（状态序列），是预测问题，通信中的解码问题。

3、下列不是SVM核函数的是：

正确答案: B

A、多项式核函数

B、logistic核函数

C、径向基核函数

D、Sigmoid核函数

SVM核函数包括线性核函数、多项式核函数、径向基核函数（⾼斯核函数）、幂指数核函数、拉普拉斯核函数、ANOVA核函数、⼆次有理核函数、多元⼆次核函数、逆多元⼆次核函数以及Sigmoid核函数。

⽀持向量机是建⽴在统计学习理论基础之上的新⼀代机器学习算法，⽀持向量机的优势主要体现在解决线性不可分问题，它通过引⼊核函数，巧妙地解决了在⾼维空间中的内积运算，从⽽很好地解决了⾮线性分类问题。

构造出⼀个具有良好性能的SVM，核函数的选择是关键．核函数的选择包括两部分⼯作：⼀是核函数类型的选择，⼆是确定核函数类型后相关参数的选择．因此如何根据具体的数据选择恰当的核函数是SVM应⽤领域遇到的⼀个重⼤难题，也成为科研⼯作者所关注的焦点，即便如此，却依然没有得到具体的理论或⽅法来指导核函数的选取．

1）经常使⽤的核函数

核函数的定义并不困难，根据泛函的有关理论，只要⼀种函数 K ( x i , x j ) 满⾜Mercer条件，它就对应某⼀变换空间的内积．对于判断哪些函数是核函数到⽬前为⽌也取得了重要的突破，得到Mercer定理和以下常⽤的核函数类型：

(1)线性核函数

K ( x , x i ) = x ⋅ x i

(2)多项式核

K ( x , x i ) = ( ( x ⋅ x i ) + 1 ) d

(3)径向基核（RBF）

K ( x , x i ) = exp ( − ∥ x − x i ∥ 2 σ 2 )

Gauss径向基函数则是局部性强的核函数，其外推能⼒随着参数 σ 的增⼤⽽减弱。多项式形式的核函数具有良好的全局性质。局部性较差。

(4)傅⾥叶核

K ( x , x i ) = 1 − q 2 2 ( 1 − 2 q cos ( x − x i ) + q 2 )

(5)样条核

K ( x , x i ) = B 2 n + 1 ( x − x i )

(6)Sigmoid核函数

K ( x , x i ) = tanh ( κ ( x , x i ) − δ )

采⽤Sigmoid函数作为核函数时，⽀持向量机实现的就是⼀种多层感知器神经⽹络，应⽤SVM⽅法，隐含层节点数⽬(它确定神经⽹络的结构)、隐含层节点对输⼊节点的权值都是在设计(训练)的过程中⾃动确定的。⽽且⽀持向量机的理论基础决定了它最终求得的是全局最优值⽽不是局部最⼩值，也保证了它对于未知样本的良好泛化能⼒⽽不会出现过学习现象。

2）核函数的选择

在选取核函数解决实际问题时，通常采⽤的⽅法有：⼀是利⽤专家的先验知识预先选定核函数；⼆是采⽤Cross-Validation⽅法，即在进⾏核函数选取时，分别试⽤不同的核函数，归纳误差最⼩的核函数就是最好的核函数．如针对傅⽴叶核、RBF核，结合信号处理问题中的函数回归问题，通过仿真实验，对⽐分析了在相同数据条件下，采⽤傅⽴叶核的SVM要⽐采⽤RBF核的SVM误差⼩很多．三是采⽤由Smits等⼈提出的混合核函数⽅法，该⽅法较之前两者是⽬前选取核函数的主流⽅法，也是关于如何构造核函数的⼜⼀开创性的⼯作．将不同的核函数结合起来后会有更好的特性，这是混合核函数⽅法的基本思想。

4、下列哪个不属于常⽤的⽂本分类的特征选择算法？

正确答案: D

A、卡⽅检验值

B、互信息

C、信息增益

D、主成分分析

特征提取算法分为特征选择和特征抽取两⼤类，其中特征选择算法有互信息，⽂档频率，信息增益，开⽅检验，卡⽅检验等。

主成分分析不是⽂本分类特征选择算法，主成分分析是特征转换（特征抽取）算法。

5、如下表是⽤户是否使⽤某产品的调查结果（）推敲教学设计

UID 年龄地区学历收⼊⽤户是否使⽤调查产品

1 低北⽅博⼠低是

2 ⾼北⽅本科中否

3 低南⽅本科⾼否

4 ⾼北⽅研究⽣中是

请计算年龄，地区，学历，收⼊中对⽤户是否使⽤调查产品信息增益最⼤的属性（Log23≈0.63）

正确答案: C

A、年龄

B、地区

C、学历

D、收⼊

不⽤算⼀眼就能看出来，所有本科学历都不使⽤调查产品，所有⾮本科学历都使⽤了调查产品。这种可以确定的划分导致信息熵为0，信息增益最⼤。

信息增益通俗讲就是指区分度。如果对于⼀个属性，其结果都是等概率出现的，即信息熵为1，信息增益为0，那么这个属性就没有任何区分度，⽆实际意义。就像本题中年龄⼀样，年龄⾼的的⼈是否接受调查的⼈都是1/2，年龄低的⼈是否接受调查的⼈也分别占1/2，那么年龄属性没有任何实际意义，有没有都⼀样了。

6、以下⼏种模型⽅法属于判别式模型的有

1)混合⾼斯模型

2)条件随机场模型

3)区分度训练

4)隐马尔科夫模型

傅里叶红外光谱仪正确答案: C

A、1,4

B、3,4

C、2,3

D、1,2

判别式模型与⽣成（产⽣）式模型的区别

产⽣式模型(Generative Model)与判别式模型(Discrimitive Model)是分类器常遇到的概念，它们的区别在于：

对于输⼊x，类别标签y：

产⽣式模型估计它们的联合概率分布P(x,y)

判别式模型估计条件概率分布P(y|x)

产⽣式模型可以根据贝叶斯公式得到判别式模型，但反过来不⾏。

7、位势函数法的积累势函数K(x)的作⽤相当于Bayes判决中的()

正确答案: A D

A、后验概率

B、先验概率岩石破碎劈裂机夫气预报

C、类概率密度

D、类概率密度与先验概率的乘积

8、关于线性回归的描述，以下正确的有:

正确答案: B C E

A、基本假设包括随机⼲扰项是均值为0,⽅差为1的标准正态分布

B、基本假设包括随机⼲扰下是均值为0的同⽅差正态分布

C、在违背基本假设时，普通最⼩⼆乘法估计量不再是最佳线性⽆偏估计量

易燃液体D、在违背基本假设时，模型不再可以估计

E、可以⽤DW检验残差是否存在序列相关性

F、多重共线性会使得参数估计值⽅差减⼩

解析：

⼀元线性回归的基本假设有：

1、随机误差项是⼀个期望值或平均值为0的随机变量；

2、对于解释变量的所有观测值，随机误差项有相同的⽅差；

3、随机误差项彼此不相关；

4、解释变量是确定性变量，不是随机变量，与随机误差项彼此之间相互独⽴；

5、解释变量之间不存在精确的（完全的）线性关系，即解释变量的样本观测值矩阵是满秩矩阵；

6、随机误差项服从正态分布

违背基本假设的计量经济学模型还是可以估计的，只是不能使⽤普通最⼩⼆乘法进⾏估计。

当存在异⽅差时，普通最⼩⼆乘法估计存在以下问题：参数估计值虽然是⽆偏的，但不是最⼩⽅差线性⽆偏估计。

杜宾-⽡特森（DW）检验，计量经济，统计分析中常⽤的⼀种检验序列⼀阶⾃相关最常⽤的⽅法。

所谓多重共线性（Multicollinearity）是指线性回归模型中的解释变量之间由于存在精确相关关系或⾼度相关关系⽽使模型估计失真或难以估计准确。影响

（1）完全共线性下参数估计量不存在

（2）近似共线性下OLS估计量⾮有效

多重共线性使参数估计值的⽅差增⼤，1/(1-r2)为⽅差膨胀因⼦(Variance Inflation Factor, VIF)

（3）参数估计量经济含义不合理

（4）变量的显著性检验失去意义，可能将重要的解释变量排除在模型之外

（5）模型的预测功能失效。变⼤的⽅差容易使区间预测的“区间”变⼤，使预测失去意义。

9、下列⽅法中，可以⽤于特征降维的⽅法包括（）

正确答案: A B C D

A、主成分分析PCA

B、线性判别分析LDA

C、深度学习SparseAutoEncoder（稀疏编码）

D、矩阵奇异值分解SVD

E、最⼩⼆乘法LeastSquares

本文发布于:2024-09-22 17:23:47，感谢您对本站的认可！

本文链接：https://www.17tex.com/xueshu/570027.html

上一篇：毕业设计(论文)开题报告-支持向量回归机研究及应用

下一篇：有关特征选择内容

标签：函数问题模型变量学习分类序列分类器

留言与评论（共有 0 条评论）