面向序列分类问题的机器学习算法集成及其应用

摘要
摘要
分类问题是统计学、管理学研究的重要问题。科学分类是进行数据挖掘、统计预测和科学决策的重要基础。在分类问题中,序列数据是重要的研究对象。在当今信息社会和大数据时代,人类在生产、生活和科学研究中,不断产生并积累着海量的序列数据资源。充分挖掘序列数据背后的信息,对科学认识自然世界和经济社会发展规律、更好地指导和管理经济社会活动、更好地进行统计预测和管理决策都具有重要的意义。由于机器学习具备强大的数据处理和自学习能力,能够处理传统方法难以应对的海量、高维、复杂序列数据挖掘问题,因此近年来针对机器学习的相关研究成为管理科学与工程、计算机等学科的重要研究方向。
人体工程学椅子
随着新一代高通量基因测序技术的发展,基因序列数据出现了爆炸性增长。过去主要依靠生物学的方法对其进行研究具有很大的局限性,造成目前人类对许多基因问题还缺乏准确的科学认知。今年春节前后,一种未知的新型冠状病毒(COVID-19)引发了重大肺炎疫情,对全球经济社会发展造成了重大影响,使得基因问题成为近期跨学科研究的热点。今年1月,国家自然科学基金委员会紧急发布“新型冠状病毒(2019-nCoV)①溯源、致病及防治的基础研究”专项项目指南,鼓励学科交叉,用新的科研范式理念系统解决科学问题。在基因问题研究中,对基因序列进行准确分类是重要基础和前提。为
此,本文基于机器学习的理论和方法研究序列分类问题,所要解决的关键科学问题主要有三个:一是非数值型序列数据映射转换及其频谱信息挖掘的算法优化问题;二是面向序列分类的机器学习算法集成创新问题;三是不同分类算法模型的性能评价和分类结果的可信度评价问题。在应用研究层面,全文聚焦基因序列分类问题,给出了几类基因序列分类判别方法和机器学习算法集成模型,并通过构建AAA 综合模糊评价模型,对各类算法模型的分类性能进行了对比评价。
本文从序列分类问题、机器学习理论和生物信息理论入手,系统梳理了当前机器学习算法在数据挖掘和生物信息领域的研究进展,从现有研究存在的不足角度思考,到了从机器学习算法集成的角度研究序列分类问题的这个切口。
三极管自锁电路①新型冠状病毒最初被命名为“2019-nCoV”,今年2月份之后,世界卫生组织将其命名为“COVID-19”。
玻璃胶嘴III
摘要
通过对研究问题和研究方法的进一步梳理分析,明确了本文的研究目标、研究内容和研究思路。
烧结焊剂本文从理论和应用两个层面开展研究。理论层面,本文聚焦机器学习算法的集成优化和建模问题,采
7-aca用层层递进、逐步深入的研究方法,系统研究了序列数据特征表示与频谱信息挖掘算法的优化问题、靴带抽样与SVR的集成学习问题、隐马尔科夫模型与离散时间动态贝叶斯网络的集成及其预测概率的可信度评价问题、BP神经网络与遗传算法的集成问题。应用层面,本文聚焦基因序列外显子分类判别这一基础问题,通过理论研究层面构建的模型和优化的算法,针对不同基因序列进行分类判别,并对不同模型的分类性能进行对比评价分析。
本文的创新点主要体现在以下四个方面:
一是针对非实值型序列的映射转换方法及其频谱信息的挖掘问题,首先对3种“域变换”的映射转换方法进行了对比分析和理论证明。通过域变换,可以更好地挖掘序列数据的频谱信息,从而更直观地利用频谱信号研究序列数据的规律。在此基础上提出了一种基于稀疏优化思想的基因序列频谱信息挖掘快速算法。该算法在基因序列数据存储和频谱信息计算两个方面的性能都有较为显著的改进。在数据存储方面,理论上最高可压缩50%的计算机存储单元。在频谱信息挖掘运算方面,降低了算法的复杂度,提高了运算效率。仿真结果显示功率谱和信噪比的运算时间分别压缩了83.18%和61.33%。
二是针对具有显著周期性规律的序列数据分类问题,研究了基于阈值判别的序列分类集成算法模型。构建了基于靴带抽样与SVR交互式集成学习算法模型。通过交互式集成学习,不仅可以降低对样本数量的要求,而且能够避免或改善由于训练集的选择不当而导致的支持向量机回归模型训练不佳的问题,
从而实现在样本较少的情况下仍然能够得到较好的训练模型和分类预测结果。为了论证该算法模型的性能,本文将其应用到不同物种基因外显子最优频谱阈值的求解中,为此建立了多目标最优阈值判别模型。通过仿真实验,结果表明该算法模型可行有效,测试结果的平均准确率达到90%以上。
三是针对不具备显著周期性规律的序列数据分类问题,研究了基于预测概率的序列分类集成算法模型。构建了动态贝叶斯网络与隐马尔可夫模型集成算法模型。该算法模型考虑了隐马尔可夫模型预测概率和分类结果的可信度评价问题。首先,借鉴事件树和故障树风险重要度指标,设计了预测概率的综合可信度评估模型。其次,构建了一种三状态基因外显子隐马尔科夫模型。最后,
IV
摘要
HDPE多孔加筋缠绕波纹管通过将离散时间贝叶斯网络与隐马尔可夫模型的集成,实现对基因序列分类性能的进一步提升。在模型求解和仿真中,设计了前向算法与Em算法的混合算法,进行了仿真实验。结果表明,通过该算法模型,能够得到较为准确的基因外显子起止点位置,实现了对基因外显子单个碱基的定位和判别,使得分类结果的准确性更高。
四是针对特征指标多的复杂序列数据分类问题,研究了基于全局搜索优化的集成算法模型。与基于阈
值判别和预测概率的方法相比,该算法模型无需精确的逻辑推理即可进行全局搜索求解优化。基于BP网络初始参数选择不当容易陷入局部最优陷阱问题,构建了基于BP神经网络与遗传算法集成学习的算法模型。通过遗传算法的优化,改进了BP神经网络最为关键的连接权值和阈值参数的取值方法和取值优化问题,从而提高了学习效率,规避了BP神经网络容易陷入局部最优解陷阱的问题,真正实现了全局搜索求解,使得分类结果准确性更高。通过仿真实验,证明通过该算法模型得到的分类结果更优。
关键词:序列分类  机器学习  靴带抽样  贝叶斯网络  隐马尔可夫模型
V

本文发布于:2024-09-22 08:25:16,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/3/145145.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:问题   序列   研究   分类   算法   模型
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议