深度机器学习所生成的乳腺癌预后的概率识别模型

著录项

申请号 CN201811265590.5
申请日 20181029
公开（公告）号 CN111105879A
公开日 20200505
申请（专利权）人张培森
发明人张培森
主分类号 G16H50/70
分类号
G16H50/70 G16B30/00 G16B40/00
地址浙江省湖州市红丰路1366号南太湖科创中心5幢3层
国省代码浙江(33)

摘要

发明的技术领域：乳腺癌预后的识别模型以计算临床预后及辅助化疗是否值得进行，服务于精准。应用自主发展的深度机器学习数据挖掘算法，我发展了癌症预后的概率识别模型。“70基因标签”是第一个也是到目前为止唯一的美国FDA批准的乳腺癌预后的检测。基于同一临床2万5千RNA数据集(151例乳腺癌淋巴结阴性病患，97例存活五年以上，54例对照)，我的深度机器学习从2个基因开始，每次增加1个基因，选择识别能力最强的组合。我的深度机器学习产生的7个基因“乳腺癌预后的概率识别模型”，识别能力已经超过了“70基因标签”的能力。

权利要求

1.深度机器学习所生成的乳腺癌预后的概率识别模型

发明人：张培森

1，独立权利要求

(一)前序部分

我们的发明是“深度机器学习所生成的乳腺癌预后的概率识别模型”。我们的发明是乳腺癌预后的基因识别模型以计算临床预后并确定辅助化疗是否值得进行。我们采用“70基因标签”同一临床2万5千RNA数据集(151例乳腺癌淋巴结阴性病患，97例存活五年以上，54例对照)。

(二)特征部分

我们的发明其特征是：深度机器学习和概率识别模型。从“70基因标签”的151例70基因的数据集，应用我们自主发展的深度机器学习数据挖掘算法，我们发展了癌症预后的概率识别模型。我们深度机器学习从2个基因开始，每次增加1个基因，选择识别能力最强的组合。7个基因的组合，识别能力已经超过了“70基因标签”的能力。我们选择了如下7个基因构建了我们的认知模型：Contig46223_RC，X05610，NM_006931，Contig55725_RC，NM_020386，AF055033，Contig2399_RC.

从属权利要求

2，深度机器学习：

(1.1)我们的发明是“深度机器学习所生成的乳腺癌预后的概率识别模型”.

(1.2)我们的发明其特征是：深度机器学习。我们的深度机器学习从2个基因开始，每次增加1个基因，选择识别能力最强的组合.机器学习模式的改动(例如，从3个基因开始，每次增加2个基因)它们都应被视为包括在本发明。

3，概率识别模型：

(3.1)我们的发明是“深度机器学习所生成的乳腺癌预后的概率识别模型”.

(3.2)我们的发明其特征是：我们的识别模型采用基因表达概率独立，“预后良”和“预后差”的概率是各个基因表达“预后良”和“预后差”的概率之积。识别模型的改动，(例如，分类树模型)它们都应被视为包括在本发明.

4，基因组合：

(4.1)我们选择了如下7个基因构建了我们的认知模型：Contig46223_RC，X05610，NM_006931，Contig55725_RC，NM_020386，AF055033，Contig2399_RC。

(4.2)我们的发明其特征是：这个7基因组合所形成的“7基因模型”是我们深度学习得到的最优的模型之一.我们发现其他基因组合也能形成类似的模型具有非常接近的精度。这些类似的基因组合都应被视为包括在本发明。

5检测方法：

(5.1)我们选择了如下7个基因构建了我们的认知模型：Contig46223_RC，X05610，NM_006931，Contig55725_RC，NM_020386，AF055033，Contig2399_RC。

(5.2)我们将生产“7基因模型”的7个基因相应的试剂盒以帮助医院和其他需要的机构。我们也准备建立检测机构以承担“7基因模型”的7个基因的检测.

6.“7基因模型”的计算：

(6.1)我们选择了如下7个基因构建了我们的认知模型：Contig46223_RC，X05610，NM_006931，Contig55725_RC，NM_020386，AF055033，Contig2399_RC。。

(6.2)我们将提供网络“7基因模型”的计算服务器。手机“7基因模型”的计算APP也要提供。

说明书

深度机器学习所生成的乳腺癌预后的概率识别模型

发明人：张培森

(一)技术领域

乳腺癌预后的识别模型以计算临床预后及辅助化疗是否值得进行。

(二)背景技术

(2.1)概述：

“同一疾病阶段的乳腺癌患者可能有明显不同的反应和结果。转移的临床预测因子(例如淋巴结状态和组织学分级)不能准确分类乳腺肿瘤。化疗或激素可将转移的风险降低约三分之一；然而，接受这种的70-80％的患者在没有这种的情况下能够幸存下来。”(技术文献【1】)

已经开发了几项基因识别模型来预测临床结果并确定辅助化疗是否值得进行。其中“70基因标签”(70-Gene Signature)(技术文献【1，2，3】)，测试根据5年复发的风险将肿瘤分类为预后良或预后差。转化研究系统联盟(TRANSBIG)是由21个国家，约40个合作伙伴，包括乳腺国际集团(BIG)组成的网络。这个联盟的一项独立验证研究证实，已获得美国食品和药物管理局(FDA)批准的“70基因标签”能够将转移复发和死亡风险显着的患者与低风险患者区分开来。(技术文献【3】)

有些基因的表达是相关联的。相关联的基因在识别模型中是重复和多余的。多余的基因即增加了检测的成本，又引入了噪音加大了误差。“70基因标签”所用的70基因，有的就是相关联的。我们希望尽可能地选取相对独立的基因来建立我们的模型，从而降低检测的成本，减少噪音，提高精度。

(2.2)数据来源：(患者选取，RNA分离，和生物芯片表达)：

我们采用“70基因标签”同一临床2万5千RNA数据集(151例乳腺癌淋巴结阴性病患，97例存活五年以上，54例对照)。“70基因标签”选用151例中的一个子样本集，78例病患(34例五年以上未转移，44例对照)。我们的概率识别模型选用整个样本集151例。

根据以下标准从荷兰癌症研究所的新鲜冷冻组织库中选取了295名患有乳腺癌的妇女的肿瘤：肿瘤是原发浸润性乳腺癌，病理检查时直径小于5cm(pT1或pT2)；根据锁骨下淋巴结活检确定，顶端腋窝淋巴结是肿瘤阴性的；诊断年龄为52岁或以下；诊断时期为1984年至1995年；除了非黑素瘤皮肤癌以外，没有癌症史。所有患者均接受了改良根治性乳房切除术或保乳手术，包括腋窝淋巴结清扫术，如果有指征则接受放射。在295名患者中，151名患者淋巴结阴性(病理检查结果pN0)，144名淋巴结阳性(pN+)。(技术文献【2】)

肿瘤材料在手术后1小时内在液氮中速冻。冷冻切片用苏木精和伊红染；只选择了具有超过50％肿瘤细胞的样品。30个30-μm切片用于分离RNA。用RNAzolB分离总RNA并溶解在无RNase的水中。然后使用Qiagen RNase-free DNase试剂盒和RNeasy离心柱，处理25μg的RNA，然后将RNA溶解于不含RNase的水中至终浓度为0.2μg/微升，通过使用T7 RNA聚合酶和5μg总RNA体外转录并用Cy3或Cy5(Cy Dye，Amersham Pharmacia Biotech)标记。将来自一个乳腺癌肿瘤的5微克Cylabeled cRNA与来自每个患者的等量cRNA组成的池中的相同量的反向Cy标记产物混合。通过在10mM氯化锌存在下将样品加热至60℃，并添加含有1M氯化钠，0.5％肌氨酸钠，50mM吗啉代-乙醇胺和50mM乙酰乙酸的杂交缓冲液，将标记的cRNA片段化至平均大小约50至100个核苷酸。乙烷磺酸(pH6.5)和甲酰胺(最终浓度，在40℃为30％)；最终体积为3毫升。微阵列包括24,479种生物寡核苷酸以及1281种对照探针。杂交后，将载玻片清洗并用共焦激光扫描仪(Agilent Technologies)扫描。对扫描图像的荧光强度进行量化，并对背景水平进行校正并进行归一化。(技术文献【2】)

(2.3)“70基因标签”的大数据分析和数据挖掘算法(技术文献【1】)：

第一步，“70基因标签”从生物芯片的24,479个基因中筛选出5,000个重要基因。这些基因在超过5次实验中具有两倍以上表达并且显著性p＜0.01。

第二步，“70基因标签”计算了5,000个重要基因中每个单个基因的所有78个样品的预后类别(转移vs.无转移)和对数表达比率之间的相关性。“70基因标签”发现231个基因具有大于0.3(“相关基因”)或小于-0.3(“反相关基因”)的相关系数。

第三步，“70基因标签”使用“排取一个”(“leave-one-out”)的方法进行交叉验证。一次取出一个样本，用剩余的样本来学习，生成模型，然后用这个模型来识别取出的样本。每次取出一个，直到所有样本穷尽为止。这个方法避免了信息渗透。要识别的样本不在“学习集”内。“70基因标签”一次取出一个样本，并使用剩余的77个样本来定义基于231个区分基因的分类器。然后预测首先取出的那个样本的结果。样本的预测基于其与“预后良”模板和“预后差”模板的相关系数，其中“良”和“差”模板是临床77个样本中“良”和“差”的样本的平均表达。使用选择的报道基因计算相关系数。重复这个程序，直到78个样品中的每一个都被排取一次。最终计算了多少个案例的预测是正确的，和多少个案例的预测是不正确的。分类器的性能由该选择的基因组的类型1(假阴性)和类型2(假阳性)的错误率来度量。从候选列表的顶部每次添加5个更多的标记基因，直到所有231个基因被用作区分基因时，“70基因标签”重复基于“排取一个”交叉验证的上述性能评估程序。1型和2型错误的错误预测数量随着所用标记基因的数量而显着改变。从候选列表的顶部使用“70基因标签”时，组合错误率达到最低。因此，“70基因标签”认为这组70个基因是可用于将患者分为两个预后亚组，“预后良”组和“预后差”组的最佳标记基因组。有趣的是，当仅使用少数标记基因时，预测“散发性”乳腺癌患者预后的准确性相当低。准确性随着标记基因数量的增加而提高，直到达到最佳数量的标记基因(～70个基因)。但是，除了标记基因的最佳数目之外，由于引入噪声，准确度变差。

(2.4)“70基因标签”2007美国专利获得批准，美国专利号：7171311(专利文献【1】)

(三)发明内容

(3.1)概述：

应用我们自主发展的深度机器学习数据挖掘算法，我们自主发展了癌症预后的概率识别模型。“70基因标签”是第一个也是到目前为止唯一的美国FDA批准的乳腺癌预后的检测。基于同一临床2万5千RNA数据集(151例乳腺癌淋巴结阴性病患，97例存活五年以上，54例对照)我们的概率识别模型，减少了所需检测的基因，超过了“70基因标签”的准确性。

(3.2)我们的深度机器学习的数据挖掘算法：

第一步，我们采用深度机器学习的算法构建自己的识别模型。我们以“70基因标签”的70个基因作为基础，用我们发展的深度机器学习数据挖掘算法，从2个基因开始，每次增加1个基因，计算检测能力。我们的算法是深度机器学习的算法。所有的基因组合都要学习到。例如，从70基因取5个基因，需要1千2百多万次学习。从70基因取6个基因，需要1亿3千多万次学习。在每一次学习前，都要进行数据归一化，保证数据的准确性。

第二步，我们的识别模型希望基因表达尽可能地相互独立，这样每个基因在识别过程中，能充分发挥作用。我们的识别模型是独立概率模型。乳腺癌患者以“预后良”和“预后差”的概率分类。哪个概率高就属于那一类。我们的识别模型采用基因表达概率独立，“预后良”和“预后差”的概率是各个基因表达“预后良”和“预后差”的概率之积。最终，依概率高低归类。

怎么确定样本的单个基因“预后良”和“预后差”的概率呢？首先，根据临床5年存活，机器学习的样本数据集(学习集)分成“良”集(存活5年以上)和“差”集(存活不到5年)。然后，计算“良”集和“差”集的单个基因(RNA)表达强度平均值。以这两个平均值的中点作为分界线把整个样本数据集(学习集)在这个基因的表达分为两组。包含“良”集的基因表达平均值的组称为“近良组”；类似地，包含“差”集的称为“近差组”。这个分界线也把识别样品的这个基因表达定位在“近良组”或“近差组”里。这两组分别计算“预后良”和“预后差”的概率。比如，被检测的样品在这个基因的表达在“近良组”里；“近良组”有80个“良”集成员，10个“差”集成员；那么检测样品在这个基因的“预后良”的概率就是80/90，“预后差”的概率就是10/90。被检测样品的基因(RNA)表达强度属于哪个组，那个组“预后良”和“预后差”的概率就是这个样品的“预后良”和“预后差”概率。被检测样品的“预后良”和“预后差”的总概率是各个基因表达“预后良”和“预后差”的概率之积。被检测样品的“预后良”和“预后差”的总概率哪个高，被检测样品就归于那一类。

第三步，我们使用“排取一个”(“leave-one-out”)的方法进行交叉验证以保证我们深度机器学习所建之模的识别能力。

(四)乳腺癌预后的“7基因概率“识别模型

我们深度机器学习从2个基因开始，每次增加1个基因，选择识别能力最强的组合。7个基因的组合，识别能力已经超过了“70基因标签”的能力。我们选择了如下7个基因构建了我们的认知模型：Contig46223_RC，X05610，NM_006931，Contig55725_RC，NM_020386，AF055033，Contig2399_RC。由于我们的模型只包含7个基因，检测这7个基因(RNA)的表达比70基因要简单的多，成本可能低到十分之一，而且减少了噪音的渗入，提高了精度。我们用RT-PCR就可以进行检测。技术文献【2】发表了“70基因标签”和传统临床St.Gallen和NIH准确性的比较。这里，我们加入了7基因概率识别模型的结果。临床样本，151例乳腺癌淋巴结阴性病患，97例存活五年以上，54例对照。“7基因模型”：准确度，84.1％；“70基因标签”：准确度，80.8％；“St.Gallen”准确度，59.0％；“NIH”准确度，46.2％。

(五)具体实施方式

(5.1)概述：

我们的乳腺癌预后的7基因概率识别模型的“学习集”包括了“70基因标签”的“学习集”。我们的“7基因模型”是深度机器学习的成果，可以看着是“70基因标签”的升级版。

(5.2)检测方法：

我们将生产“7基因模型”的7个基因相应的试剂盒以帮助医院和其他需要的机构。我们也准备建立第三方检测机构以承担“7基因模型”的7个基因的检测。

(5.3)“7基因模型”的计算：

我们将提供网络“7基因模型”的计算服务器。手机“7基因模型”的计算APP也要提供。

技术文献

【1】Gene expression profiling predicts clinical outcome of breastcancer.Nature.2002Jan 31；415(6871)：530-536.

【2】A GENE-EXPRESSION SIGNATURE AS A PREDICTOR OF SURVIVAL IN BREASTCANCER.N EnglJ Med，Vol.347，No.25December 19，2002

【3】70-Gene Signature as an Aid to Treatment Decisions in Early-StageBreast Cancer.N Engl J Med 2016；375：717-29.

专利文献

【1】Methods of assigning treatment to breast cancer patients.USPatient 7171311；January 30，2007

本文发布于:2024-09-25 10:36:03，感谢您对本站的认可！

本文链接：https://www.17tex.com/tex/2/72694.html

上一篇：用钙镁磷粉配伍颗粒普钙等肥源生产杏树专用掺混肥配方

下一篇：一种预防痔疮的保健品

标签：深度机器学习所生成的乳腺癌预后的概率识别模型

留言与评论（共有 0 条评论）