一种基于多组学数据预测癌症患者预后风险的深度学习方法[发明专利]

(19)中华人民共和国国家知识产权局
(12)发明专利申请
(10)申请公布号 (43)申请公布日 (21)申请号 202110210941.8
(22)申请日 2021.02.25
(71)申请人 中山大学
地址 510275 广东省广州市海珠区新港西
路135号
(72)发明人 杨跃东 柴华 张仲岳 周翔 
(74)专利代理机构 广州粤高专利商标代理有限
公司 44102
代理人 刘俊
(51)Int.Cl.
G16H  50/20(2018.01)
G16H  50/80(2018.01)
G06N  20/00(2019.01)
(54)发明名称
一种基于多组学数据预测癌症患者预后风
险的深度学习方法
(57)摘要
本发明公开了一种基于多组学数据预测癌
症患者预后风险的深度学习方法,用于预测癌症
患者的预后风险,包括:S1:从现有的公开数据集
获取目标癌症患者的临床数据Y及其对应的多组
学表达数据X;S2:构建深度神经网络;S3:将现有
公共数据集的癌症多组学数据X p 和患者临床信
息Y p ,通过已构建的深度神经网络更新权重θ,
得到基于公共数据集的预训练网络N p ;S4:对网
络N p 再次训练,直至训练次数epoch达到运行上
限,从而得到风险预测网络N f ;S5:利用XGboost
算法选取目标癌症患者的Importance系数前n个
基因特征,改进风险预测网络N f 得到最终的风险
预测模型。本发明提升了预测模型的稳健性,更
准确地利用多组学数据预测癌症患者的预后风
险。权利要求书2页  说明书7页  附图2页CN 112820403 A 2021.05.18
C N  112820403
A
1.一种基于多组学数据预测癌症患者预后风险的深度学习方法,用于预测癌症患者的预后风险,其特征在于,包括以下步骤:
S1:从现有的公开数据集获取目标癌症患者的临床数据Y及其对应的多组学表达数据X;
S2:构建深度神经网络;
S3:将现有公共数据集的癌症多组学数据X
p 和患者临床信息Y
p
,通过已构建的深度神经
网络更新权重θ,得到基于公共数据集的预训练网络N
p
S4:将目标癌症患者的临床数据Y及其多组学表达数据X,对网络N
p
再次训练,直至训练
次数epoch达到运行上限,从而得到风险预测网络N
f
S5:利用XGboost算法选取目标癌症患者的Importance系数前n个基因特征,改进风险
预测网络N
f
得到最终的风险预测模型。
2.根据权利要求1所述的一种基于多组学数据预测癌症患者预后风险的深度学习方法,其特征在于,步骤S2构建深度神经网络具体过程为:
S201:对多组学表达数据X进行编码生成压缩特征z=E(X),将压缩特征解码后产生新的特征X’,并计算解码后的数据恢复损失Lr;
S202:定义生存风险函数,所述生存风险函数表示癌症患者在时间设定时间t之前的存活率;
S203:利用生存风险函数构建比例风险函数;
S204:利用比例风险函数构建最大似然函数,通过最大似然函数得出初步预后风险预测损失函数;
S205:将数据恢复损失Lr加入初步预后风险预测损失函数构建最终损失函数。
3.根据权利要求2所述的一种基于多组学数据预测癌症患者预后风险的深度学习方法,其特征在于,所述
损失函数表达式为:
4.根据权利要求3所述的一种基于多组学数据预测癌症患者预后风险的深度学习方法,其特征在于,所述生存风险函数表示为:S(t)=Pr(T>t)
其中,T是收集到患者的生存时间;
t时刻的生存风险函数:
5.根据权利要求4所述的一种基于多组学数据预测癌症患者预后风险的深度学习方法,其特征在于,所述比例风险函数为:
λ(t|x)=λ
0(t)*exp h(x),其中h(x)=βX
i
,λ
(t)代表t时刻的基本风险函数。
6.根据权利要求5所述的一种基于多组学数据预测癌症患者预后风险的深度学习方法,其特征在于,所述最大似然函数可以表示为:
7.根据权利要求6所述的一种基于多组学数据预测癌症患者预后风险的深度学习方
法,其特征在于,所述初步预后风险预测损失函数则可表示为:
8.根据权利要求7所述的一种基于多组学数据预测癌症患者预后风险的深度学习方法,其特征在于,最终损失函数表示为:l TRDN =(1‑γ)l r +γl p ,其中0<γ<1。
9.根据权利要求8所述的一种基于多组学数据预测癌症患者预后风险的深度学习方法,其特征在于,步骤S5所述的最终的风险预测模型表示:
其中,X m 为构建模型的m R N A 特征,Y m 为风险预测网络N f 预测患者风险,
表示回归树的空间,q是树的结构,T是树中叶结点的个
数,f k 表示权重为w的回归树的结构q。
10.根据权利要求1所述的一种基于多组学数据预测癌症患者预后风险的深度学习方法,其特征在于,步骤S5所述的Importance系数前n个基因特征,其中n的取值为200。
一种基于多组学数据预测癌症患者预后风险的深度学习方法
技术领域
[0001]本发明涉及癌症患者生存分析技术领域,更具体地,涉及一种基于多组学数据预测癌症患者预后风险的深度学习方法。
背景技术
[0002]近年来癌症的高发生率促进了医学辅助技术的发展,预后风险分析是一种关键的医学辅助技术,它可以根据不同病人预后的潜在风险来辅助选择不同的方案。[0003]大多数针对癌症预后预测的方法都是通过分析单一组学的表达数据来实现,比如使用基因mRNA表达数据,甲基化数据,或miRNA数据等,然而患者的预后受到不同层次多种分子的共同调控,而且不同层次分子之间存在强烈的互补效应和相互作用,所以单组学数据分析结果往往只能提供片面的信息。此外,融合不同组学不同模态的数据分析,通过误差抵消,可缓解单组学方法对噪音过于敏感的问题。因此近年来融合多种数据进行癌症分析已经成为一种强有力的手段。
[0004]融合多组学数据最大的难点在于如何利用小样本的癌症数据,优化高维组学数据的降维效果。2018年,李鑫等人(李鑫,魏锣沛,吕章艳,等基于多组学数据构建肺腺癌预后相关风险预测模型[J].南京医科大学学报(自然科学版),2018,38(12);1820‑1825)使用传统的L1正则化的Cox方法构建了基于多组学数据的肺癌预后相关风险预测模型,通过整合肺腺癌临床信息组、基因组和转录组的多组学信息,构建预后相关风险预测模型,但该方法不够稳健,无法解决在高维小样本癌症数据中表现不佳的缺陷,
且预测准确率不高。之后有研究人员将深度学习应用于这一领域,利用自编码器提取肝癌的高维多组学特征(包括mRNA,miRNA和甲基化数据),之后将压缩后的特征用于识别其患者不同的临床亚型。在此基础上,研究人员又融合了拷贝数变异的相关数据,用于区分高危神经母细胞瘤的两种预后亚型。除此之外此方法还衍生出一些基于其他自编码器方法的变体。然而,此框架最大的问题在于,它把特征降维和患者风险预测拆分为两个模型来进行,方法不够稳健。2019年研究人员将比例风险模型的损失函数和深度神经网络结合,利用多组学数据直接预测患者的生存风险。此方法的问题在于,深度神经网络直接对风险预测的损失函数进行优化,并不能保证网络中多层压缩后的重建特征依然保持初始特征的空间分布特征,因此限制了此方法的性能。
发明内容
[0005]本发明为克服上述现有中预后风险预测准确率不高,无法解决目标数据集小的缺陷,提供一种基于多组学数据预测癌症患者预后风险的深度学习方法。
[0006]本发明的首要目的是为解决上述技术问题,本发明的技术方案如下:
[0007]一种基于多组学数据预测癌症患者预后风险的深度学习方法,用于预测癌症患者的预后风险,包括以下步骤:
[0008]S1:从现有的公开数据集获取目标癌症患者的临床数据Y及其对应的多组学表达
数据X;
[0009]S2:构建深度神经网络;
[0010]S3:将现有公共数据集的癌症多组学数据X p 和患者临床信息Y p ,通过已构建的深度神经网络更新权重θ,得到基于公共数据集的预训练网络N p ;
[0011]S4:将目标癌症患者的临床数据Y及其多组学表达数据X,对网络N p 再次训练,直至训练次数epoch达到运行上限,从而得到风险预测网络N f ;
[0012]S5:利用XGboost算法选取目标癌症患者的Importance系数前n个基因特征,改进风险预测网络N f 得到最终的风险预测模型。
[0013]进一步的,步骤S2构建深度神经网络具体过程为:
[0014]S201:对多组学表达数据X进行编码生成压缩特征z=E(X),将压缩特征解码后产生新的特征X ’,并计算解码后的数据恢复损失Lr;
[0015]S202:定义生存风险函数,所述生存风险函数表示癌症患者在时间设定时间t之前的存活率;
[0016]S203:利用生存风险函数构建比例风险函数;
[0017]S204:利用比例风险函数构建最大似然函数,通过最大似然函数得出初步预后风险预测损失函数;
[0018]S205:将数据恢复损失Lr加入初步预后风险预测损失函数构建最终损失函数。
[0019]进一步的,所述损失函数表达式为:
[0020]
[0021]
进一步的,所述生存风险函数表示为:S(t)=Pr(T>t)[0022]
其中,T是收集到患者的生存时间;[0023]
t时刻的生存风险函数:
[0024]
[0025]
进一步的,所述比例风险函数为:[0026]
λ(t|x)=λ0(t)*exp h(x),其中h(x)=βX i ,λ0(t)代表t时刻的基本风险函数。[0027]
进一步的,所述最大似然函数可以表示为:
[0028]
[0029]
进一步的,所述初步预后风险预测损失函数则可表示为:
[0030]
[0031]
进一步的,最终损失函数表示为:l TRDN =(1‑γ)l r +γl p ,其中0<γ<1。[0032]
进一步的,步骤S5所述的最终的风险预测模型表示:
[0033]
[0034]其中,X m 为构建模型的mRNA特征,Y m 为风险预测网络N f 预测患者风险,

本文发布于:2024-09-20 14:40:15,感谢您对本站的认可!

本文链接:https://www.17tex.com/xueshu/795482.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:风险   患者   预测   癌症   数据   函数   方法
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议