泰坦尼克号乘客遇难预测分析作者:撒宇航来源:《青年与社会》2019年第07期 摘 李静轩要:在机器学习中,有两大类常见的问题,一类为回归问题,另外一类为分类问题。对于回归问题的解决,常见的方法有线性回归,随机森林等。而针对分类问题,有kNN,logsitic,SVM,神经网络等算法。不同的算法在不同的问题中具有不同的效果。因此,本研究通过具体的实例“泰坦尼克号乘客遇难预测”,通过运用机器学习中的不同分类模型来分析乘客的存活是运气原因,还是存在一定的规律性。通过该对问题的研究,比较了不同机器学习分类模型的差异性以及优缺点。 关键词:遇难乘客预测;kNN;SVM;逻辑回归;神经网络
泰坦尼克号的沉没是历史上具有广泛影响的沉船事件之一,1912年42012湖北高考一分一段表月15日,在首次航行期间,泰坦尼克号撞上冰山后沉没,2224名乘客和机组人员中有1502人遇难。这场轰动的悲剧震撼了国际社会。虽然幸存下来的人存在一些运气方面的因素,但有一些人比其他人更有可能生存,比如妇女,儿童和上层阶级。我们的目标便是根据每位乘客的性别,年龄,舱
位等相关特征,来预测该乘客是否会在该次乘船事故中存活下来。训练集以及测试集,我们总共有900名左右的乘客数据,每位乘客包括10个特征,包括Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,机器人避障问题Cabin,Embarke。我们将拿出600名乘客数据作为我们的训练集,剩余的300名乘客的数据,用来作为我们的测试集,用于检验训练出的模型的性能。
一、分类模型构建
(一) kNN模型
(1) kNN模型原理。质粒kNN(k Nearest Neighbor)算法,又叫作k领近算法,是机器学习中一种常见的分类算法之一。其中的k表示待测样本最近的k个邻居。在1968年,Cover和Hart协议分析器提出了kNN算法,这是一个在理论上比较成熟的方法[1]。
>肽键