一种用于鉴别甲状腺肿瘤良恶性的甲基化分子标志物的制作方法

1.本发明涉及医学领域，特别涉及一种用于鉴别甲状腺肿瘤良恶性的甲基化分子标志物。

背景技术：

2.甲状腺癌(thyroid cancer)为最常见的内分泌系统恶性肿瘤，可包括甲状腺乳头状癌、滤泡性甲状腺癌、未分化甲状腺癌和髓样癌。其中，乳头状癌(papillary thyroid cancer,ptc)最为常见，占所有甲状腺恶性肿瘤的90％以上[xing,mingzhao；haugen,bryan r；schlumberger,martin(2013).progress in molecular-based management of differentiated thyroid cancer.the lancet,381(9871),1058
–
1069.]。根据统计，成人甲状腺结节的患病率约为5-10％，其中60岁以上的人最为严重，可高达50-70％[guth s,theune u,aberle j,et al.very high prevalence of thyroid nodules detected by high frequency(13mhz)ultrasound examination.eur j clin invest 2009；39:699-706.]。影像学检查是一种比较普遍的甲状腺诊断方法，该方法大多依靠医生经验判断，存在着一定的结果误差，且影像学会对人身体有一定的辐射伤害。细针穿刺活检也是临床上常见的甲状腺癌诊断技术，该方法可根据穿刺物的细胞学形态对结节的良恶性进行评估。由于甲状腺良恶性肿瘤的细胞学特征经常会发生重叠，因此有约10-30％的细针穿刺诊断为不明确的细胞学结果[cibas es,ali sz.the 2017bethesda system for reporting thyroid cytopathology.thyroid.2017；27(11):1341-6.]。不确定的穿刺结果导致约60％患者遭受过度或者漏诊[stewart r,leang yj,bhatt cr,grodski s,serpell j,lee jc.quantifying the differences in surgical management of patients with definitive and indeterminate thyroid nodule cytology.eur j surg oncol.2020；46(2):252-7.]。这不仅增加了患者经济和身心负担，还占据了大量公共卫生资源，导致医疗保健系统的巨额财务成本。
[0003]
表观遗传学为一种不涉及dna序列改变但是可遗传的基因表达调控方式，并且能够遗传给下一代[nicoglou a,merlin f.epigenetics:a way to bridge the gap between biological fields.stud hist philos biol biomed sci.2017；66:73-82]。dna甲基化是表观遗传调控的重要方式之一，是指在dna甲基化转移酶作用下，在基因组cpg二核苷酸的胞嘧啶5’碳位共价键结合一个甲基基团[bird a.perceptions of epigenetics.nature.2007；447:396-398]。大量研究表明，dna甲基化能够引起染质结构、dna构象、dna稳定性及dna与蛋白质相互作用方式的改变，从而控制基因的表达[moore ld,le t,fan g.dna methylation and its basic function.neuropsychopharmacology.2013；38:23-38]。
[0004]
dna甲基化标志物是现阶段最佳的肿瘤体外早诊分子标志物，目前，临床上关于甲状腺癌诊断标志物的灵敏度和特异性都很有限，尤其是缺乏早期诊断标志物，因此更为敏感、特异的早期分子标记物亟待发掘。

技术实现要素：

[0005]
本发明的目的是提供一种用于鉴别甲状腺肿瘤良恶性的甲基化分子标志物。
[0006]
第一方面，本发明要求保护一种甲基化生物标志物。
[0007]
本发明所要求保护的甲基化生物标志物的核苷酸序列为cux2基因中如下(a1)-(a4)所示片段中的全部或部分cpg位点的甲基化水平：
[0008]
(a1)seq id no.1所示的dna片段或与其具有80％以上同一性的dna片段；
[0009]
(a2)seq id no.2所示的dna片段或与其具有80％以上同一性的dna片段；
[0010]
(a3)seq id no.3所示的dna片段或与其具有80％以上同一性的dna片段；
[0011]
(a4)seq id no.4所示的dna片段或与其具有80％以上同一性的dna片段。
[0012]
所述甲基化生物标志物包括位于其核苷酸序列上的如下(b1)-(b7)中任一所示cpg位点：
[0013]
(b1)cux2基因中seq id no.1、seq id no.2、seq id no.3和seq id no.4所示4个dna片段中的任意一个或多个cpg位点；
[0014]
(b2)cux2基因中seq id no.2所示的dna片段上的所有cpg位点(表2)和seq id no.1所示的dna片段上的所有cpg位点(表1)；
[0015]
(b3)cux2基因中seq id no.2所示的dna片段上的所有cpg位点(表2)和seq id no.3所示的dna片段上的所有cpg位点(表3)；
[0016]
(b4)cux2基因中seq id no.1所示的dna片段上的所有cpg位点(表1)和seq id no.3所示的dna片段上的所有cpg位点(表3)；
[0017]
(b5)cux2基因中seq id no.2所示的dna片段上的所有cpg位点(表2)、seq id no.1所示的dna片段上的所有cpg位点(表1)和seq id no.3所示的dna片段上的所有cpg位点(表3)；
[0018]
(b6)cux2基因中seq id no.2所示的dna片段中的全部cpg位点(表2)或任意23个或任意22个或任意21个或任意20个或任意19个或任意18个或任意17个或任意16个或任意15个或任意14个或任意13个或任意12个或任意11个或任意10个或任意9个或任意8个或任意7个或任意6个或任意5个或任意4个或任意3个或任意2个或任意1个cpg位点；
[0019]
(b7)cux2基因中seq id no.2所示的dna片段上如下9项所示cpg位点的全部或任意8项或任意7项或任意6项或任意5项或任意4项或任意3项或任意2项或任意1项：
[0020]
第1项：seq id no.2所示的dna片段自5’端第261-262位所示cpg位点；
[0021]
第2项：seq id no.2所示的dna片段自5’端第330-331位所示cpg位点；
[0022]
第3项：seq id no.2所示的dna片段自5’端第355-356位所示cpg位点；
[0023]
第4项：seq id no.2所示的dna片段自5’端第369-370位和第371-372位和第374-375位和第380-381位和第382-383位所示cpg位点；
[0024]
第5项：seq id no.2所示的dna片段自5’端第392-393位所示cpg位点；
[0025]
第6项：seq id no.2所示的dna片段自5’端第453-454位所示cpg位点；
[0026]
第7项：seq id no.2所示的dna片段自5’端第475-476位和第478-479位所示cpg位点；
[0027]
第8项：seq id no.2所示的dna片段自5’端第484-485位所示cpg位点；
[0028]
第9项：seq id no.2所示的dna片段自5’端第624-625位所示cpg位点。
[0029]
在本发明的具体实施方式中，有些相邻的甲基化位点在利用飞行时间质谱进行dna甲基化分析时由于几个cpg位点位于一个甲基化片段上，峰图无法区分(无法区分的位点在表6中有记载)，因而在进行甲基化水平分析、以及构建和使用相关数学模型时将其按照一个甲基化位点进行处理。
[0030]
所述甲基化生物标志物的用途为如下中的至少一种：
[0031]
(1)区分或辅助区分甲状腺良性肿瘤和甲状腺恶性肿瘤；
[0032]
(2)区分或辅助区分甲状腺良性肿瘤和不同亚型的甲状腺恶性肿瘤；
[0033]
(3)区分或辅助区分甲状腺良性肿瘤和不同分期的甲状腺恶性肿瘤；
[0034]
(4)区分或辅助区分甲状腺恶性肿瘤不同亚型；
[0035]
(5)区分或辅助区分甲状腺恶性肿瘤不同分期。
[0036]
进一步地，(2)和(4)中所述不同亚型可为病理分型，如组织学分型。
[0037]
进一步地，(3)和(5)中所述不同分期可为临床分期。
[0038]
在本发明的具体实施方式中，(2)中所述区分或辅助区分甲状腺良性肿瘤和不同亚型的甲状腺恶性肿瘤具体可为如下任一种：区分或辅助区分甲状腺良性肿瘤和甲状腺乳头状癌、区分或辅助区分甲状腺良性肿瘤和甲状腺滤泡癌、区分或辅助区分甲状腺良性肿瘤和甲状腺髓样癌、区分或辅助区分甲状腺良性肿瘤和甲状腺未分化癌。
[0039]
在本发明的具体实施方式中，(3)中所述区分或辅助区分甲状腺良性肿瘤和不同分期的甲状腺恶性肿瘤具体可为如下任一种：区分或辅助区分甲状腺良性肿瘤和ⅰ期甲状腺恶性肿瘤、区分或辅助区分甲状腺良性肿瘤和ⅱ期甲状腺恶性肿瘤、区分或辅助区分甲状腺良性肿瘤和ⅲ期甲状腺恶性肿瘤、区分或辅助区分甲状腺良性肿瘤和ⅳ期甲状腺恶性肿瘤。
[0040]
在本发明的具体实施方式中，(4)中所述区分或辅助区分甲状腺恶性肿瘤不同亚型具体可为如下任一种：区分或辅助区分甲状腺乳头状癌和甲状腺滤泡癌、区分或辅助区分甲状腺乳头状癌和甲状腺髓样癌、区分或辅助区分甲状腺乳头状癌和甲状腺未分化癌、区分或辅助区分甲状腺滤泡癌和甲状腺髓样癌、区分或辅助区分甲状腺滤泡癌和甲状腺未分化癌、区分或辅助区分甲状腺髓样癌和甲状腺未分化癌。
[0041]
在本发明的具体实施方式中，(5)中所述区分或辅助区分甲状腺恶性肿瘤不同分期具体可为如下任一种：区分或辅助区分ⅰ期甲状腺恶性肿瘤和ⅱ期甲状腺恶性肿瘤、区分或辅助区分ⅰ期甲状腺恶性肿瘤和ⅲ期甲状腺恶性肿瘤、区分或辅助区分ⅰ期甲状腺恶性肿瘤和ⅳ期甲状腺恶性肿瘤、区分或辅助区分ⅱ期甲状腺恶性肿瘤和ⅲ期甲状腺恶性肿瘤、区分或辅助区分ⅱ期甲状腺恶性肿瘤和ⅳ期甲状腺恶性肿瘤、区分或辅助区分ⅲ期甲状腺恶性肿瘤和ⅳ期甲状腺恶性肿瘤。
[0042]
第二方面，本发明要求保护前文第一方面中所述甲基化生物标志物在制备产品中的应用；所述产品的用途为前文(1)-(5)中任一所述。
[0043]
第三方面，本发明要求保护用于检测所述甲基化生物标志物的甲基化水平的物质在制备产品中的应用；所述产品的用途为前文(1)-(5)中任一所述。
[0044]
第四方面，本发明要求保护用于检测前文第一方面中所述甲基化生物标志物的甲基化水平的物质和储存有数学模型和/或数学模型使用方法的介质在制备产品中的应用；所述产品的用途为前文(1)-(5)中任一所述。
[0045]
所述数学模型按照包括如下步骤的方法获得：
[0046]
(c1)分别检测n1个a类型样本和n2个b类型样本的基因甲基化水平；
[0047]
(c2)取步骤(c1)获得的所有样本的基因甲基化水平数据，按照a类型和b类型的分类方式，通过二分类逻辑回归法建立数学模型，确定分类判定的阈值。
[0048]
其中，n1和n2均可为10以上正整数。
[0049]
所述数学模型使用方法包括如下步骤：
[0050]
(d1)检测待测样本的基因甲基化水平；
[0051]
(d2)将步骤(d1)获得的所述待测样本的基因甲基化水平数据代入所述数学模型，得到检测指数；然后比较检测指数和阈值的大小，根据比较结果确定所述待测样本的类型是a类型还是b类型。
[0052]
在本发明的具体实施方式中，所述阈值设为0.5。大于0.5归为一类，小于0.5归为另外一类，等于0.5作为不确定的灰区。其中a类型和b类型为相对应的两分类，二分类的分组，哪一组是a类型，哪一组是b类型，要根据具体的数学模型来确定，无需约定。
[0053]
在实际应用中，所述阈值也可根据最大约登指数确定(具体可为最大约登指数对应的数值)。大于阈值归为一类，小于阈值归为另外一类，等于阈值作为不确定的灰区。其中a类型和b类型为相对应的两分类，二分类的分组，哪一组a类型，哪一组是b类型，要根据具体的数学模型来确定，无需约定。
[0054]
所述a类型样本和所述b类型样本为如下任一种：
[0055]
(e1)甲状腺良性肿瘤和甲状腺恶性肿瘤；
[0056]
(e2)甲状腺良性肿瘤和不同亚型的甲状腺恶性肿瘤；
[0057]
(e3)甲状腺良性肿瘤和不同分期的甲状腺恶性肿瘤；
[0058]
(e4)不同亚型的甲状腺恶性肿瘤；
[0059]
(e5)不同分期的甲状腺恶性肿瘤。
[0060]
进一步地，(e2)和(e4)中所述不同亚型可为病理分型，如组织学分型。
[0061]
进一步地，(e3)和(e5)中所述不同分期可为临床分期。
[0062]
在本发明的具体实施方式中，(e2)中所述甲状腺良性肿瘤和不同亚型的甲状腺恶性肿瘤具体可为如下任一种：甲状腺良性肿瘤和甲状腺乳头状癌、甲状腺良性肿瘤和甲状腺滤泡癌、甲状腺良性肿瘤和甲状腺髓样癌、甲状腺良性肿瘤和甲状腺未分化癌。
[0063]
在本发明的具体实施方式中，(e3)中所述甲状腺良性肿瘤和不同分期的甲状腺恶性肿瘤具体可为如下任一种：甲状腺良性肿瘤和ⅰ期甲状腺恶性肿瘤、甲状腺良性肿瘤和ⅱ期甲状腺恶性肿瘤、甲状腺良性肿瘤和ⅲ期甲状腺恶性肿瘤、甲状腺良性肿瘤和ⅳ期甲状腺恶性肿瘤。
[0064]
在本发明的具体实施方式中，(e4)中所述甲状腺恶性肿瘤不同亚型具体可为如下任一种：甲状腺乳头状癌和甲状腺滤泡癌、甲状腺乳头状癌和甲状腺髓样癌、甲状腺乳头状癌和甲状腺未分化癌、甲状腺滤泡癌和甲状腺髓样癌、甲状腺滤泡癌和甲状腺未分化癌、甲状腺髓样癌和甲状腺未分化癌。
[0065]
在本发明的具体实施方式中，(e5)中所述甲状腺恶性肿瘤不同分期具体可为如下任一种：ⅰ期甲状腺恶性肿瘤和ⅱ期甲状腺恶性肿瘤、ⅰ期甲状腺恶性肿瘤和ⅲ期甲状腺恶性肿瘤、ⅰ期甲状腺恶性肿瘤和ⅳ期甲状腺恶性肿瘤、ⅱ期甲状腺恶性肿瘤和ⅲ期甲状腺恶
性肿瘤、ⅱ期甲状腺恶性肿瘤和ⅳ期甲状腺恶性肿瘤、ⅲ期甲状腺恶性肿瘤和ⅳ期甲状腺恶性肿瘤。
[0066]
第五方面，本发明要求保护一种试剂盒。
[0067]
本发明所要求保护的试剂盒包括用于检测前文第一方面中所述甲基化生物标志物的甲基化水平的物质；所述试剂盒的用途为前文(1)-(5)中任一所述。
[0068]
进一步地，所述试剂盒中还可含有前文第四方面中所述的“储存有数学模型和/或数学模型使用方法的介质”。
[0069]
第六方面，本发明要求保护一种系统。
[0070]
本发明要求保护的系统，可包括：
[0071]
(f1)用于检测cux2基因甲基化水平的试剂和/或仪器；
[0072]
在(f1)中，所述用于检测cux2基因甲基化水平的试剂可为前文第一方面中所述的用于检测cux2基因甲基化水平的物质(如引物对)。用于检测cux2基因甲基化水平的仪器可为飞行时间质谱检测仪。当然所述用于检测cux2基因甲基化水平的试剂中还可包含进行飞行时间质谱所用的其他常规试剂。
[0073]
(f2)装置，所述装置包括单元x和单元y；
[0074]
所述单元x用于建立数学模型，包括数据采集模块、数据分析处理模块和模型输出模块。
[0075]
所述数据采集模块被配置为采集(f1)检测得到的n1个a类型样本和n2个b类型样本的cux2基因甲基化水平数据。
[0076]
所述数据分析处理模块被配置为接收来自于所述数据采集模块的所述n1个a类型样本和n2个b类型样本的cux2基因甲基化水平数据，按照a类型和b类型的分类方式，通过二分类逻辑回归法建立数学模型，确定分类判定的阈值。
[0077]
其中，n1和n2均可为10以上正整数。
[0078]
所述模型输出模块被配置为接收来自于所述数据分析处理模块建立的所述数学模型，并进行输出。
[0079]
所述单元y用于确定待测样本类型，包括数据输入模块、数据运算模块、数据比较模块和结论输出模块。
[0080]
所述数据输入模块被配置为输入(f1)检测得到的待测者的cux2基因甲基化水平数据。
[0081]
所述数据运算模块被配置为接收来自于所述数据输入模块的所述待测者的cux2基因甲基化水平数据，并将所述待测者的cux2基因甲基化水平数据代入所述单元x中的所述数据分析处理模块建立的所述数学模型，计算得到检测指数。
[0082]
所述数据比较模块被配置为接收来自于所述数据运算模块计算得到的检测指数，并将所述检测指数与所述单元x中的所述数据分析处理模块中确定的所述阈值进行比较。
[0083]
所述结论输出模块被配置为接收来自于所述数据比较模块的比较结果，并根据所述比较结果输出所述待测样本的类型是a类型还是b类型的结论。
[0084]
所述a类型样本和所述b类型样本为如下任一种：
[0085]
(e1)甲状腺良性肿瘤和甲状腺恶性肿瘤；
[0086]
(e2)甲状腺良性肿瘤和不同亚型的甲状腺恶性肿瘤；
[0087]
(e3)甲状腺良性肿瘤和不同分期的甲状腺恶性肿瘤；
[0088]
(e4)不同亚型的甲状腺恶性肿瘤；
[0089]
(e5)不同分期的甲状腺恶性肿瘤。
[0090]
在本发明的具体实施方式中，所述阈值设为0.5。大于0.5归为一类，小于0.5归为另外一类，等于0.5作为不确定的灰区。其中a类型和b类型为相对应的两分类，二分类的分组，哪一组是a类型，哪一组是b类型，要根据具体的数学模型来确定，无需约定。
[0091]
在实际应用中，所述阈值也可根据最大约登指数确定(具体可为最大约登指数对应的数值)。大于阈值归为一类，小于阈值归为另外一类，等于阈值作为不确定的灰区。其中a类型和b类型为相对应的两分类，二分类的分组，哪一组a类型，哪一组是b类型，要根据具体的数学模型来确定，无需约定。
[0092]
进一步地，(e2)和(e4)中所述不同亚型可为病理分型，如组织学分型。
[0093]
进一步地，(e3)和(e5)中所述不同分期可为临床分期。
[0094]
在本发明的具体实施方式中，(e2)中所述甲状腺良性肿瘤和不同亚型的甲状腺恶性肿瘤具体可为如下任一种：甲状腺良性肿瘤和甲状腺乳头状癌、甲状腺良性肿瘤和甲状腺滤泡癌、甲状腺良性肿瘤和甲状腺髓样癌、甲状腺良性肿瘤和甲状腺未分化癌。
[0095]
在本发明的具体实施方式中，(e3)中所述甲状腺良性肿瘤和不同分期的甲状腺恶性肿瘤具体可为如下任一种：甲状腺良性肿瘤和ⅰ期甲状腺恶性肿瘤、甲状腺良性肿瘤和ⅱ期甲状腺恶性肿瘤、甲状腺良性肿瘤和ⅲ期甲状腺恶性肿瘤、甲状腺良性肿瘤和ⅳ期甲状腺恶性肿瘤。
[0096]
在本发明的具体实施方式中，(e4)中所述甲状腺恶性肿瘤不同亚型具体可为如下任一种：甲状腺乳头状癌和甲状腺滤泡癌、甲状腺乳头状癌和甲状腺髓样癌、甲状腺乳头状癌和甲状腺未分化癌、甲状腺滤泡癌和甲状腺髓样癌、甲状腺滤泡癌和甲状腺未分化癌、甲状腺髓样癌和甲状腺未分化癌。
[0097]
在本发明的具体实施方式中，(e5)中所述甲状腺恶性肿瘤不同分期具体可为如下任一种：ⅰ期甲状腺恶性肿瘤和ⅱ期甲状腺恶性肿瘤、ⅰ期甲状腺恶性肿瘤和ⅲ期甲状腺恶性肿瘤、ⅰ期甲状腺恶性肿瘤和ⅳ期甲状腺恶性肿瘤、ⅱ期甲状腺恶性肿瘤和ⅲ期甲状腺恶性肿瘤、ⅱ期甲状腺恶性肿瘤和ⅳ期甲状腺恶性肿瘤、ⅲ期甲状腺恶性肿瘤和ⅳ期甲状腺恶性肿瘤。
[0098]
在上述各方面中，用于检测所述cux2基因甲基化水平的物质或试剂可包含(或为)用于扩增cux2基因全长或部分片段的引物组合。
[0099]
进一步地，所述部分片段可为如下中至少一个片段：
[0100]
(g1)seq id no.1所示的dna片段或其包含的dna片段；
[0101]
(g2)seq id no.2所示的dna片段或其包含的dna片段；
[0102]
(g3)seq id no.3所示的dna片段或其包含的dna片段；
[0103]
(g4)seq id no.4所示的dna片段或其包含的dna片段；
[0104]
(g5)与seq id no.1所示的dna片段或其包含的dna片段具有80％以上同一性的dna片段；
[0105]
(g6)与seq id no.2所示的dna片段或其包含的dna片段具有80％以上同一性的dna片段；
[0106]
(g7)与seq id no.3所示的dna片段或其包含的dna片段具有80％以上同一性的dna片段；
[0107]
(g8)与seq id no.4所示的dna片段或其包含的dna片段具有80％以上同一性的dna片段。
[0108]
在上述各方面中，所述引物组合可为引物对a和/或引物对b和/或引物对c和/或引物对d。
[0109]
所述引物对a为引物a1和引物a2组成的引物对；所述引物a1为seq id no.5或seq id no.5的第11-35位核苷酸所示的单链dna；所述引物a2为seq id no.6或seq id no.6的第32-56位核苷酸所示的单链dna。
[0110]
所述引物对b为引物b1和引物b2组成的引物对；所述引物b1为seq id no.7或seq id no.7的第11-35位核苷酸所示的单链dna；所述引物b2为seq id no.8或seq id no.8的第32-56位核苷酸所示的单链dna。
[0111]
所述引物对c为引物c1和引物c2组成的引物对；所述引物c1为seq id no.9或seq id no.9的第11-35位核苷酸所示的单链dna；所述引物c2为seq id no.10或seq id no.10的第32-56位核苷酸所示的单链dna。
[0112]
所述引物对d为引物d1和引物d2组成的引物对；所述引物d1为seq id no.11或seq id no.11的第11-35位核苷酸所示的单链dna；所述引物d2为seq id no.12或seq id no.12的第32-56位核苷酸所示的单链dna。
[0113]
另外，本发明还要求保护一种区分待测样本为a类型样本还是b类型样本的方法。该方法可包括如下步骤：
[0114]
(a)可按照包括如下步骤的方法建立数学模型：
[0115]
(a1)分别检测n1个a类型样本和n2个b类型样本的cux2基因甲基化水平(训练集)；
[0116]
(a2)取步骤(a1)获得的所有样本的cux2基因甲基化水平数据，按照a类型和b类型的分类方式，通过二分类逻辑回归法建立数学模型，确定分类判定的阈值。
[0117]
其中，(a1)中的n1和n2均为10以上的正整数。
[0118]
(b)可按照包括如下步骤的方法确定所述待测样本为a类型样本还是b类型样本：
[0119]
(b1)检测所述待测样本的cux2基因甲基化水平；
[0120]
(b2)将步骤(b1)获得的所述待测样本的cux2基因甲基化水平数据代入所述数学模型，得到检测指数；然后比较检测指数和阈值的大小，根据比较结果确定所述待测样本的类型是a类型还是b类型。
[0121]
在本发明的具体实施方式中，所述阈值设为0.5。大于0.5归为一类，小于0.5归为另外一类，等于0.5作为不确定的灰区。其中a类型和b类型为相对应的两分类，二分类的分组，哪一组是a类型，哪一组是b类型，要根据具体的数学模型来确定，无需约定。
[0122]
在实际应用中，所述阈值也可根据最大约登指数确定(具体可为最大约登指数对应的数值)。大于阈值归为一类，小于阈值归为另外一类，等于阈值作为不确定的灰区。其中a类型和b类型为相对应的两分类，二分类的分组，哪一组是a类型，哪一组是b类型，要根据具体的数学模型来确定，无需约定。
[0123]
所述a类型样本和所述b类型样本可为前文(e1)-(e5)中的任一种。
[0124]
以上任一所述数学模型在实际应用中可能会根据dna甲基化的检测方法以及拟合
方式不同有所改变，要根据具体的数学模型来确定，无需约定。
[0125]
在本发明的实施例中，所述模型具体为ln(y/(1-y))＝b0+b1x1+b2x2+b3x3+
…
+bnxn，其中y为因变量即将待测样品的一个或者多个甲基化位点的甲基化值代入模型以后得出的检测指数，b0为常量，x1-xn为自变量即为该测试样品的一个或者多个甲基化位点的甲基化值(每一个值为0-1之间的数值)，b1-bn为模型赋予每一个位点甲基化值的权重。
[0126]
本发明的实施例中建立的一个具体模型为用于区分或辅助区分甲状腺良性肿瘤和甲状腺恶性肿瘤的模型，所述模型具体为：ln(y/(1-y))＝0.887-1.253*cux2_b_8-3.665*cux2_b_9-0.482*cux2_b_10+0.293*cux2_b_11.12.13.14.15+0.657*cux2_b_16-0.726*cux2_b_17+1.615*cux2_b_18.19+0.258*cux2_b_20+1.204*cux2_d_21。所述cux2_b_8为seq id no.2所示的dna片段自5’端第261-262位所示cpg位点的甲基化水平；所述cux2_b_9为seq id no.2所示的dna片段自5’端第330-331位所示cpg位点的甲基化水平；所述cux2_b_10为seq id no.2所示的dna片段自5’端第355-356位所示cpg位点的甲基化水平；所述cux2_b_11.12.13.14.15为seq id no.2所示的dna片段自5’端第369-370位、第371-372位、第374-375位、第380-381位和第382-383位所示cpg位点的甲基化水平；所述cux2_b_16为seq id no.2所示的dna片段自5’端第392-393位所示cpg位点的甲基化水平；所述cux2_b_17为seq id no.2所示的dna片段自5’端第453-454位所示cpg位点的甲基化水平；所述cux2_b_18.19为seq id no.2所示的dna片段自5’端第475-476位和第478-479位所示cpg位点的甲基化水平；所述cux2_b_20为seq id no.2所示的dna片段自5’端第484-485位所示cpg位点的甲基化水平；所述cux2_b_21为seq id no.2所示的dna片段自5’端第624-625位所示cpg位点的甲基化水平。所述模型的阈值为0.5。通过模型计算的检测指数大于0.5的患者候选为甲状腺恶性肿瘤患者，小于0.5的患者候选为甲状腺良性肿瘤患者。
[0127]
在上述各方面中，所述检测cux2基因甲基化水平为检测肿瘤组织样本中cux2基因甲基化水平。
[0128]
在本发明中，甲状腺恶性肿瘤组织中的cux2基因中seq id no.1、2、3和4所示的dna片段上甲基化位点的甲基化水平明显低于甲状腺良性肿瘤。
[0129]
在本发明中，不同临床特征甲状腺癌如：乳头状癌、滤泡癌、髓样癌和未分化癌肿瘤组织中的cux2基因中seq id no.1、2、3和4所示的dna片段上甲基化位点的甲基化水平越来越低。
[0130]
在本发明中，随着甲状腺恶性肿瘤的分期的增加组织中的cux2基因中seq id no.1、2、3和4所示的dna片段上甲基化位点的甲基化水平越来越低。
[0131]
以上任一所述cux2基因具体可参见genbank登录号：nm_015267.4(gi:1519242248)，转录变体1；nm_001370598.1(gi:1647818744)，转录变体2。
[0132]
本发明证明活检样本cux2甲基化可作为甲状腺良性肿瘤和甲状腺恶性肿瘤、不同亚型或不同分期的甲状腺恶性肿瘤的鉴别诊断的潜在标志物。本发明对鉴别甲状腺良性肿瘤和甲状腺恶性肿瘤、不同亚型或不同分期的甲状腺恶性肿瘤，以及指导制定合理的临床方案均有重要的科学意义和临床应用价值。
附图说明
[0133]
图1为数学模型示意图。
[0134]
图2为甲状腺良恶性肿瘤数学模型举例说明。
具体实施方式
[0135]
下面结合具体实施方式对本发明进行进一步的详细描述，给出的实施例仅为了阐明本发明，而不是为了限制本发明的范围。以下提供的实施例可作为本技术领域普通技术人员进行进一步改进的指南，并不以任何方式构成对本发明的限制。
[0136]
下述实施例中的实验方法，如无特殊说明，均为常规方法，按照本领域内的文献所描述的技术或条件或者按照产品说明书进行。下述实施例中所用的材料、试剂等，如无特殊说明，均可从商业途径得到。
[0137]
实施例1、用于检测cux2基因甲基化位点的引物设计
[0138]
本次检测选择了cux2基因四个片段(cux2_a片段、cux2_b片段、cux2_c片段和cux2_d片段)上的cpg位点进行甲基化水平和甲状腺恶性肿瘤的相关性分析。
[0139]
cux2_a片段(seq id no.1)位于hg19参考基因组chr12:111617741-111618413，反义链。
[0140]
cux2_b片段(seq id no.2)位于hg19参考基因组chr12:111618585-111619307，反义链。
[0141]
cux2_c片段(seq id no.3)位于hg19参考基因组chr12:111619341-111620060，反义链。
[0142]
cux2_d片段(seq id no.4)位于hg19参考基因组chr12:111620093-111620790，反义链。
[0143]
cux2_a片段中的位点信息如表1所示。
[0144]
cux2_b片段中的位点信息如表2所示。
[0145]
cux2_c片段中的位点信息如表3所示。
[0146]
cux2_d片段中的位点信息如表4所示。
[0147]
表1、cux2_a片段中cpg位点信息
[0148]
cpg位点cpg位点在序列中的位置cux2_a_1seq id no.1自5’端第26-27位cux2_a_2seq id no.1自5’端第80-81位cux2_a_3seq id no.1自5’端第102-103位cux2_a_4seq id no.1自5’端第110-111位cux2_a_5seq id no.1自5’端第147-148位cux2_a_6seq id no.1自5’端第203-204位cux2_a_7seq id no.1自5’端第251-252位cux2_a_8seq id no.1自5’端第297-298位cux2_a_9seq id no.1自5’端第420-421位cux2_a_10seq id no.1自5’端第598-599位cux2_a_11seq id no.1自5’端第637-638位cux2_a_12seq id no.1自5’端第647-648位
[0149]
表2、cux2_b片段中cpg位点信息
[0150][0151][0152]
表3、cux2_c片段中cpg位点信息
[0153]
cpg位点cpg位点在序列中的位置cux2_c_1seq id no.2自5’端第26-27位cux2_c_2seq id no.3自5’端第83-84位cux2_c_3seq id no.3自5’端第114-115位cux2_c_4seq id no.3自5’端第146-147位cux2_c_5seq id no.3自5’端第224-225位cux2_c_6seq id no.3自5’端第254-255位cux2_c_7seq id no.3自5’端第257-258位cux2_c_8seq id no.3自5’端第268-269位cux2_c_9seq id no.3自5’端第558-559位cux2_c_10seq id no.3自5’端第565-566位
cux2_c_11seq id no.3自5’端第605-606位cux2_c_12seq id no.3自5’端第646-647位cux2_c_13seq id no.3自5’端第649-650位cux2_c_14seq id no.3自5’端第654-655位cux2_c_15seq id no.3自5’端第671-672位cux2_c_16seq id no.3自5’端第694-695位
[0154]
表4、cux2_d片段中cpg位点信息
[0155][0156][0157]
针对四个片段(cux2_a片段、cux2_b片段、cux2_c片段和cux2_d片段)设计特异性pcr引物，如表5所示。seq id no.5、seq id no.7、seq id no.9和seq id no.11为正向引物；seq id no.6、seq id no.8、seq id no.10和seq id no.12为反向引物。seq id no.5、seq id no.7、seq id no.9和seq id no.11中自5’端第1至10位为非特异性标签，第11至35位为特异性引物序列；seq id no.6、seq id no.8、seq id no.10和seq id no.12中自5’第1至31位为非特异标签，第32至56位为特异性引物序列。引物序列中不包含snp和cpg位点。
[0158]
表5、cux2甲基化引物序列
[0159][0160][0161]
实施例2、cux2基因甲基化检测及结果分析
[0162]
一、研究样本
[0163]
经患者知情同意，共收集380例甲状腺良性肿瘤组织和598例甲状腺恶性肿瘤组织。甲状腺癌分期以美国癌症联合会(ajcc)第八版分期系统为判断标准。根据病理类型，甲状腺恶性肿瘤包括甲状腺乳头状癌、甲状腺滤泡癌、甲状腺髓样癌和甲状腺未分化癌四大类。本次收集的598例甲状腺恶性肿瘤患者中包括甲状腺乳头状癌380例，甲状腺滤泡癌138例，甲状腺髓样癌44例，甲状腺未分化癌36例。按照病理分期划分，598例甲状腺恶性肿瘤患者中有470例ⅰ期患者，68例ⅱ期患者，24例ⅲ期患者，36例ⅳ期患者。
[0164]
二、甲基化检测
[0165]
1、提取肿瘤组织中的总dna。
[0166]
2、将步骤1制备的组织样本总dna进行重亚硫酸盐处理(参照qiagen的dna甲基化试剂盒说明书操作)。重亚硫酸盐处理后，原来cpg位点中未发生甲基化的胞嘧啶(c)被转化成尿嘧啶(u)，而发生甲基化的胞嘧啶保持不变。
[0167]
3、以步骤2经过重亚硫酸盐处理的dna为模板，采用表5中的4对特异引物对通过dna聚合酶按照常规pcr反应要求的反应体系进行pcr扩增，所有引物都采用常规的标准pcr反应体系，且都按照以下程序进行扩增。
[0168]
pcr反应程序为：95℃，4min
→
(95℃，20s
→
56℃，30s
→
72℃，2min)45个循环
→
72℃，5min
→
4℃，1h。
[0169]
4、取步骤3的扩增产物，通过飞行时间质谱进行dna甲基化分析，具体方法如下：
[0170]
(1)向5μl pcr产物中加入2μl虾碱性磷酸盐(sap)溶液(0.3ml sap[0.5u]+1.7ml h2o)然后按照以下程序在pcr仪中孵育(37℃,20min
→
85℃,5min
→
4℃,5min)；
[0171]
(2)取出2μl步骤(1)得到的sap处理后的产物，根据说明书加入5μl t-cleavage反应体系中，然后在37℃孵育3h；
[0172]
(3)取步骤(2)的产物，加入19μl去离子水，再用6μg resin在旋转摇床进行去离子化孵育1h；
[0173]
(4)2000rpm室温离心5min，将微量上清由nanodispenser机械手臂上样
384spectrochip；
[0174]
(5)飞行时间质谱分析；获得的数据用spectroacquire v3.3.1.3软件收集，通过massarray epityper v1.2软件实现可视化。
[0175]
上述飞行时间质谱检测使用的试剂均来试剂盒(t-cleavage masscleave reagent auto kit，货号：10129a)；上述飞行时间质谱检测使用的检测仪器为massarray
○
r analyzer chip prep module 384，型号：41243；上述数据分析软件为检测仪器自带软件。
[0176]
5、对步骤4得到的数据进行分析。
[0177]
数据统计分析由spss statistics 23.0进行。
[0178]
非参数检验用于两组之间的比较分析。
[0179]
多个cpg位点的组合对于不同样品分组的鉴别效果通过逻辑回归和受试者曲线的统计学方法得以实现。
[0180]
所有的统计检验都是双侧的，p值《0.05被认为具有统计学意义。
[0181]
通过质谱实验，共获得61个可以区别的峰图。采用spectroacquire v3.3.1.3软件根据“甲基化水平＝甲基化片段的峰面积/(非甲基化片段的峰面积+甲基化片段的峰面积)”公式可自动通过计算峰面积得到每个样本在每个cpg位点的甲基化水平)。
[0182]
三、结果分析
[0183]
1、甲状腺良性肿瘤、甲状腺恶性肿瘤、甲状腺恶性肿瘤不同亚型及甲状腺恶性肿瘤不同分期的cux2基因甲基化水平分析
[0184]
以380例甲状腺良性肿瘤和598例甲状腺恶性肿瘤的组织样本为研究材料分析cux2基因中所有cpg位点的甲基化水平。结果表明，甲状腺良性肿瘤的cux2基因甲基化水平中位数为0.69(iqr＝0.45-0.82)，甲状腺恶性肿瘤的cux2基因甲基化水平中位数为0.65(iqr＝0.40-0.80)，甲状腺乳头状癌的cux2基因甲基化水平中位数为0.65(iqr＝0.41-0.81)，甲状腺滤泡癌的cux2基因甲基化水平中位数为0.62(iqr＝0.39-0.77)，甲状腺髓样癌的cux2基因甲基化水平中位数为0.56(iqr＝0.30-0.72)，甲状腺未分化癌的cux2基因甲基化水平中位数为0.50(iqr＝0.22-0.69)；甲状腺恶性肿瘤i期的cux2基因甲基化水平中位数为0.64(iqr＝0.41-0.81)，甲状腺恶性肿瘤ii期的cux2基因甲基化水平中位数为0.54(iqr＝0.35-0.73)，甲状腺恶性肿瘤ⅲ期的cux2基因甲基化水平中位数为0.50(iqr＝0.26-0.69)，甲状腺恶性肿瘤ⅳ期的cux2基因甲基化水平中位数为0.45(iqr＝0.22-0.67)。通过比较分析几者之间的甲基化水平，结果发现甲状腺良性肿瘤cux2基因中所有cpg位点的甲基化水平显著高于甲状腺恶性肿瘤中cux2基因中所有cpg位点的甲基化水平的(表6)，与甲状腺乳头状癌、甲状腺滤泡癌、髓样癌、未分化癌四个不同临床特征甲状腺癌之间的差异越来越明显(表6)。另外，随着甲状腺恶性肿瘤分期的增加组织中cux2基因中seq id no.1、2、3和4所示的dna片段上甲基化位点的甲基化水平越来越低(表6)，与甲状腺良性肿瘤之间差异也越来越明显。
[0185]
表6、甲状腺良性肿瘤和甲状腺恶性肿瘤及其各亚型、各分期的cux2基因甲基化水平
[0186][0187]
[0188][0189]
注：表中的cpg位点均指可区分的cpg位点。
[0190]
2、肿瘤组织中cux2基因甲基化水平可以区分甲状腺良性肿瘤和不同亚型的甲状腺恶性肿瘤
[0191]
通过比较分析380例甲状腺良性肿瘤病例和598例甲状腺恶性肿瘤病例的cux2甲基化水平，结果发现，甲状腺恶性肿瘤、甲状腺乳头状癌、甲状腺滤泡癌、甲状腺髓样癌和甲状腺未分化癌患者中cux2_a片段、cux2_b片段、cux2_c片段和cux2_d片段甲基化水平显著低于甲状腺良性肿瘤患者中对应片段的甲基化水平。具体结果见表7。
[0192]
表7、甲状腺良性肿瘤与不同亚型甲状腺恶性肿瘤之间的cux2基因甲基化水平差异
[0193]
[0194][0195]
注：表中的cpg位点均指可区分的cpg位点。
[0196]
3、肿瘤组织中cux2基因甲基化水平可以区分不同亚型的甲状腺恶性肿瘤
[0197]
通过比较分析不同亚型的甲状腺恶性肿瘤(380例甲状腺乳头状癌、138例甲状腺滤泡癌、44例甲状腺髓样癌和36例甲状腺未分化癌)病例的cux2甲基化水平，结果发现，甲状腺乳头状癌、甲状腺滤泡癌、甲状腺髓样癌和甲状腺未分化癌患者的cux2基因甲基化水
平之间有显著差异。具体结果见表8。
[0198]
表8、甲状腺恶性肿瘤各亚型之间的cux2基因甲基化水平差异
[0199]
[0200][0201]
注：表中的cpg位点均指可区分的cpg位点。
[0202]
4、肿瘤组织中cux2基因甲基化水平可以区分甲状腺良性肿瘤和不同分期的甲状腺恶性肿瘤
[0203]
通过比较分析380例甲状腺良性肿瘤病例和不同分期的甲状腺恶性肿瘤患者(470例ⅰ期患者、68例ⅱ期患者、24例ⅲ期患者和36例ⅳ期患者)的cux2甲基化水平，结果发现，甲状腺癌ⅰ期、ⅱ期、ⅲ期和ⅳ期患者中的cux2_a片段、cux2_b片段、cux2_c片段和cux2_d片段甲基化水平显著低于甲状腺良性肿瘤患者中对应片段的甲基化水平(p＜0.05)。具体结果见表9。
[0204]
表9、甲状腺良性肿瘤与不同分期甲状腺恶性肿瘤之间的cux2基因甲基化水平差异
[0205]
[0206][0207][0208]
注：表中的cpg位点均指可区分的cpg位点。
[0209]
5、肿瘤组织中cux2基因甲基化水平可以区分不同分期的甲状腺恶性肿瘤
[0210]
通过比较分析不同分期的甲状腺恶性肿瘤患者(470例ⅰ期患者、68例ⅱ期患者、24例ⅲ期患者和36例ⅳ期患者)的cux2甲基化水平，结果发现，ⅰ期甲状腺恶性肿瘤、ⅱ期甲状腺恶性肿瘤、ⅲ期甲状腺恶性肿瘤和ⅳ期甲状腺恶性肿瘤患者的cux2基因甲基化水平之间有显著差异(p＜0.05)。具体结果见表10。
[0211]
表10、甲状腺恶性肿瘤不同分期之间的cux2基因甲基化水平差异
[0212]
[0213][0214]
注：表中的cpg位点均指可区分的cpg位点。
[0215]
6、cux2基因甲基化用于辅助癌症诊断的数学模型的建立
[0216]
本发明建立的数学模型可以用于达到如下目的：
[0217]
(1)区分甲状腺恶性肿瘤患者和甲状腺良性肿瘤；
[0218]
(2)区分甲状腺良性肿瘤和不同亚型的甲状腺恶性肿瘤；
[0219]
(3)区分甲状腺良性肿瘤和不同分期的甲状腺恶性肿瘤；
[0220]
(4)区分甲状腺恶性肿瘤不同亚型；
[0221]
(5)区分甲状腺恶性肿瘤不同分期。
[0222]
数学模型的建立方法如下：
[0223]
(a)数据来源：步骤一中列出380例甲状腺良性肿瘤和598例甲状腺恶性肿瘤(甲状腺乳头状癌380例，甲状腺滤泡癌138例，甲状腺髓样癌44例和甲状腺未分化癌36例)的组织样本的目标cpg位点(表1-表4中的一种或多种的组合)甲基化水平(检测方法同步骤二)。
[0224]
(b)模型建立
[0225]
根据需要选取任意两类不同类型患者数据即训练集(例如：甲状腺良性肿瘤和甲状腺恶性肿瘤患者、甲状腺良性肿瘤和甲状腺乳头状癌患者、甲状腺良性肿瘤和甲状腺滤泡癌患者、甲状腺良性肿瘤和甲状腺髓样癌患者、甲状腺良性肿瘤和甲状腺未分化癌患者、甲状腺乳头状癌和甲状腺滤泡癌患者、甲状腺乳头状癌和甲状腺髓样癌患者、甲状腺乳头
状癌和甲状腺未分化癌患者、甲状腺滤泡癌和甲状腺髓样癌患者、甲状腺滤泡癌和甲状腺未分化癌患者、甲状腺髓样癌和甲状腺未分化癌患者、甲状腺良性肿瘤和ⅰ期甲状腺恶性肿瘤患者、甲状腺良性肿瘤和ⅱ期甲状腺恶性肿瘤患者、甲状腺良性肿瘤和ⅲ期甲状腺恶性肿瘤患者、甲状腺良性肿瘤和ⅳ期甲状腺恶性肿瘤患者、ⅰ期甲状腺恶性肿瘤和ⅱ期甲状腺恶性肿瘤患者、ⅰ期甲状腺恶性肿瘤和ⅲ期甲状腺恶性肿瘤患者、ⅰ期甲状腺恶性肿瘤和ⅳ期甲状腺恶性肿瘤患者、ⅱ期甲状腺恶性肿瘤和ⅲ期甲状腺恶性肿瘤患者、ⅱ期甲状腺恶性肿瘤和ⅳ期甲状腺恶性肿瘤患者、ⅲ期甲状腺恶性肿瘤和ⅳ期甲状腺恶性肿瘤患者)作为用于建立模型的数据，使用sas，r，spss等统计软件使用二分类逻辑回归的统计方法通过公式建立数学模型。数学模型公式计算出的最大约登指数对应的数值为阈值或直接设定0.5为阈值，待测样品经过测试和代入模型计算后得到的检测指数大于阈值归为一类(b类)，小于阈值归为另外一类(a类)，等于阈值作为不确定的灰区。在对新的待测样品进行预测来判断属于哪一类时，首先通过dna甲基化的测定方法检测该待测样品cux2基因上一个或者多个cpg位点的甲基化水平，然后将这些甲基化水平的数据代入上述数学模型，计算得到所述待测样本对应的检测指数，然后比较所述待测样本对应的检测指数和阈值的大小，根据比较结果确定所述待测样本属于哪一类样本。
[0226]
举例：如图1所示，将训练集中cux2基因单个cpg位点的甲基化水平或者多个cpg位点组合的甲基化水平的数据通过sas、r、spss等统计软件使用二分类逻辑回归的公式建立用于区分a类和b类的数学模型。该数学模型在此为二类逻辑回归模型，具体为：ln(y/(1-y))＝b0+b1x1+b2x2+b3x3+
…
+bnxn，其中y为因变量即将待测样品的一个或者多个甲基化位点的甲基化水平代入模型以后得出的检测指数，b0为常量，x1-xn为自变量即为该测试样品的一个或者多个甲基化位点的甲基化水平(每一个值为0-1之间的数值)，b1～bn为模型赋予每一个位点甲基化水平的权重。具体应用时，先根据训练集中已经检测的样本的一个或者多个dna甲基化位点的甲基化水平(x1-xn)及其已知的分类情况(a类或者b类，分别对y赋值0和1)建立数学模型，由此确定该数学模型的常量b0以及各个甲基化位点的权重b1-bn，并由该数学模型计算出的以最大约登指数对应的数值为阈值或直接设定0.5为划分的阈值。待测样品经过测试和代入模型计算后得到的检测指数即y值大于阈值归为b类，小于阈值归为a类，等于阈值作为不确定的灰区。其中a类和b类为相对应的两分类(二分类的分组，哪一组a类，哪一组是b类，要根据具体的数学模型来确定，在此不做约定)。对受试者的样品进行预测来判断属于哪一类时，首先收集受试者的活检样本(即肿瘤组织)，然后从中提取dna。将提取的dna通过重亚硫酸盐转化后，用dna甲基化的测定方法对受试者cux2基因的单个cpg位点的甲基化水平或者多个cpg位点组合的甲基化水平进行检测，然后将检测得到的甲基化数据代入上述数学模型。如果该受试者的cux2基因一个或者多个cpg位点的甲基化水平代入上述数学模型后计算出来的值即检测指数大于阈值，则该受试者判定与训练集中检测指数大于阈值的归属一类(b类)；如果该受试者的cux2基因一个或者多个cpg位点的甲基化水平数据代入上述数学模型后计算出来的值即检测指数小于阈值，则该受试者跟训练集中检测指数小于阈值的归属一类(a类)；如果该受试者的cux2基因一个或者多个cpg位点的甲基化水平数据代入上述数学模型后计算出来的值即检测指数等于阈值，则不能判断该受试者是a类还是b类。
[0227]
举例：如图2所示，cux2_b的9个可区分cpg位点(cux2_b_8、cux2_b_9、cux2_b_10、
cux2_b_11.12.13.14.15、cux2_b_16、cux2_b_17、cux2_b_18.19、cux2_b_20、cux2_b_21)的甲基化以及数学建模在鉴别甲状腺良性肿瘤和甲状腺恶性肿瘤组织中的应用：将甲状腺良性肿瘤和甲状腺恶性肿瘤患者训练集(在此为：380例甲状腺良性肿瘤和598例甲状腺恶性肿瘤患者)中已经检测的cux2_b的上述9个可区分cpg位点的甲基化水平的数据通过spss软件或r软件使用二分类逻辑回归的公式建立用于鉴别甲状腺恶性肿瘤患者的数学模型。该数学模型在此为二类逻辑回归模型，由此确定该数学模型的常量b0以及各个甲基化位点的权重b1-bn，在此例中具体为：ln(y/(1-y))＝0.887-1.253*cux2_b_8-3.665*cux2_b_9-0.482*cux2_b_10+0.293*cux2_b_11.12.13.14.15+0.657*cux2_b_16-0.726*cux2_b_17+1.615*cux2_b_18.19+0.258*cux2_b_20+1.204*cux2_b_21，其中y为因变量，即将待测样品的cux2_b的上述9个可区分cpg位点的甲基化水平代入模型以后经换算得出的检测指数。cux2_b_11、cux2_b_12、cux2_b_13、cux2_b_14和cux2_b_15位于同一片段，cux2_b_18和cux2_b_19位于同一片段，故分别以cux2_b_11.12.13.14.15和cux2_b_18.19代表这两个位点甲基化水平的平均值。通过设定0.5为阈值的情况下，待测样品的cux2_b的上述9个可区分cpg位点的甲基化水平经过测试得到的值代入模型进行计算，得到的检测指数即y值小于阈值归为甲状腺良性肿瘤患者，大于阈值归为甲状腺恶性肿瘤患者，等于阈值则不确定为甲状腺良性肿瘤患者还是甲状腺恶性肿瘤患者。此模型的曲线下面积(auc)计算结果为0.77(表15)。具体受试者判断方法举例如下所示，从两位受试者(甲，乙)分别收集活检样本(即肿瘤组织)提取dna，将提取的dna通过重亚硫酸盐转化后，用dna甲基化的测定方法对受试者的cux2_b_8、cux2_b_9、cux2_b_10、cux2_b_11.12.13.14.15、cux2_b_16、cux2_b_17、cux2_b_18.19、cux2_b_20、cux2_b_21这9个cpg位点的甲基化水平进行检测。然后将检测得到的甲基化水平数据信息代入上述数学模型。甲受试者的cux2_b的上述9个可区分cpg位点的甲基化水平数据代入上述数学模型后计算出来的值为0.81大于0.5，则甲受试者判定为甲状腺恶性肿瘤患者(与临床诊断相符)；乙受试者的cux2_b的上述9个可区分cpg位点的甲基化水平数据代入上述数学模型后计算出来的值为0.39小于0.5，则乙受试者判定甲状腺良性肿瘤患者(与临床诊断相符)。
[0228]
(c)模型效果评价
[0229]
根据上述方法，分别建立用于发现甲状腺良性肿瘤和甲状腺恶性肿瘤患者、甲状腺良性肿瘤和甲状腺乳头状癌患者、甲状腺良性肿瘤和甲状腺滤泡癌患者、甲状腺良性肿瘤和甲状腺髓样癌患者、甲状腺良性肿瘤和甲状腺未分化癌患者、甲状腺乳头状癌和甲状腺滤泡癌患者、甲状腺乳头状癌和甲状腺髓样癌患者、甲状腺乳头状癌和甲状腺未分化癌患者、甲状腺滤泡癌和甲状腺髓样癌患者、甲状腺滤泡癌和甲状腺未分化癌患者、甲状腺髓样癌和甲状腺未分化癌患者、甲状腺良性肿瘤和ⅰ期甲状腺恶性肿瘤患者、甲状腺良性肿瘤和ⅱ期甲状腺恶性肿瘤患者、甲状腺良性肿瘤和ⅲ期甲状腺恶性肿瘤患者、甲状腺良性肿瘤和ⅳ期甲状腺恶性肿瘤患者、ⅰ期甲状腺恶性肿瘤和ⅱ期甲状腺恶性肿瘤患者、ⅰ期甲状腺恶性肿瘤和ⅲ期甲状腺恶性肿瘤患者、ⅰ期甲状腺恶性肿瘤和ⅳ期甲状腺恶性肿瘤患者、ⅱ期甲状腺恶性肿瘤和ⅲ期甲状腺恶性肿瘤患者、ⅱ期甲状腺恶性肿瘤和ⅳ期甲状腺恶性肿瘤患者、ⅲ期甲状腺恶性肿瘤和ⅳ期甲状腺恶性肿瘤患者的数学模型，并且通过受试者曲线(roc曲线)对其有效性进行评价。roc曲线得出的曲线下面积(auc)越大，说明模型的区分度越好，分子标志物越有效。采用不同cpg位点进行数学模型构建后的评价结果如表11、
表12、表13和表14所示。表11、表12、表13和表14中，1个cpg位点代表cux2_b扩增片段中任意一个cpg位点的位点，2个cpg位点代表cux2_b扩增片段中任意2个cpg位点的组合，3个cpg位点代表cux2_b扩增片段中任意3个cpg位点的组合，
……
以此类推。表中的数值为不同位点组合评价结果的范围值(即任意个cpg位点组合方式的结果均在此范围内)。
[0230]
上述研究结果显示，cux2基因甲基化对于各组的鉴别能力(甲状腺良性肿瘤和甲状腺恶性肿瘤患者、甲状腺良性肿瘤和甲状腺乳头状癌患者、甲状腺良性肿瘤和甲状腺滤泡癌患者、甲状腺良性肿瘤和髓样癌患者、甲状腺良性肿瘤和甲状腺未分化癌患者、甲状腺乳头状癌和甲状腺滤泡癌患者、甲状腺乳头状癌和甲状腺髓样癌患者、甲状腺乳头状癌和甲状腺未分化癌患者、甲状腺滤泡癌和甲状腺髓样癌患者、甲状腺滤泡癌和甲状腺未分化癌患者、甲状腺髓样癌和甲状腺未分化癌患者、甲状腺良性肿瘤和ⅰ期甲状腺恶性肿瘤患者、甲状腺良性肿瘤和ⅱ期甲状腺恶性肿瘤患者、甲状腺良性肿瘤和ⅲ期甲状腺恶性肿瘤患者、甲状腺良性肿瘤和ⅳ期甲状腺恶性肿瘤患者、ⅰ期甲状腺恶性肿瘤和ⅱ期甲状腺恶性肿瘤患者、ⅰ期甲状腺恶性肿瘤和ⅲ期甲状腺恶性肿瘤患者、ⅰ期甲状腺恶性肿瘤和ⅳ期甲状腺恶性肿瘤患者、ⅱ期甲状腺恶性肿瘤和ⅲ期甲状腺恶性肿瘤患者、ⅱ期甲状腺恶性肿瘤和ⅳ期甲状腺恶性肿瘤患者、ⅲ期甲状腺恶性肿瘤和ⅳ期甲状腺恶性肿瘤患者)随着cux2基因上甲基化位点个数的增加而增加。
[0231]
除此以外，在表1-表4所示的cpg位点中，还存在少数几个优选位点的组合比多个非优选位点组合的鉴别能力更好的情况。例如表15、表16、表17和表18所示的cux2_b_8、cux2_b_9、cux2_b_10、cux2_b_11.12.13.14.15、cux2_b_16、cux2_b_17、cux2_b_18.19、cux2_b_20、cux2_b_21这9个可区分cpg位点的组合是cux2_d中任意9个组合的优选位点。
[0232]
综上所述，cux2基因上的cpg位点及其各种组合，cux2_a片段上的cpg位点及其各种组合，cux2_b片段上的cpg位点及其各种组合，cux2_c片段上的cpg位点及其各种组合，cux2_d片段上的cpg位点及其各种组合，cux2_b_8、cux2_b_9、cux2_b_10、cux2_b_11.12.13.14.15、cux2_b_16、cux2_b_17、cux2_b_18.19、cux2_b_20、cux2_b_21位点及其各种组合，cux2_e位点及其各种组合以及cux2_a、cux2_b、cux2_c和cux2_d上的cpg位点及其各种组合的甲基化水平对甲状腺良性肿瘤和甲状腺恶性肿瘤患者、甲状腺良性肿瘤和甲状腺乳头状癌患者、甲状腺良性肿瘤和甲状腺滤泡癌患者、甲状腺良性肿瘤和甲状腺髓样癌患者、甲状腺良性肿瘤和甲状腺未分化癌患者、甲状腺乳头状癌和甲状腺滤泡癌患者、甲状腺乳头状癌和甲状腺髓样癌患者、甲状腺乳头状癌和甲状腺未分化癌患者、甲状腺滤泡癌和甲状腺髓样癌患者、甲状腺滤泡癌和甲状腺未分化癌患者、甲状腺髓样癌和甲状腺未分化癌患者、甲状腺良性肿瘤和ⅰ期甲状腺恶性肿瘤患者、甲状腺良性肿瘤和ⅱ期甲状腺恶性肿瘤患者、甲状腺良性肿瘤和ⅲ期甲状腺恶性肿瘤患者、甲状腺良性肿瘤和ⅳ期甲状腺恶性肿瘤患者、ⅰ期甲状腺恶性肿瘤和ⅱ期甲状腺恶性肿瘤患者、ⅰ期甲状腺恶性肿瘤和ⅲ期甲状腺恶性肿瘤患者、ⅰ期甲状腺恶性肿瘤和ⅳ期甲状腺恶性肿瘤患者、ⅱ期甲状腺恶性肿瘤和ⅲ期甲状腺恶性肿瘤患者、ⅱ期甲状腺恶性肿瘤和ⅳ期甲状腺恶性肿瘤患者、ⅲ期甲状腺恶性肿瘤和ⅳ期甲状腺恶性肿瘤患者具有判别能力。
[0233]
表11、cux2_b的cpg位点及其组合用于区分甲状腺良性肿瘤和不同亚型的甲状腺恶性肿瘤
[0234][0235]
注：表中的cpg位点均指可区分的cpg位点。
[0236]
表12、cux2_b的cpg位点及其组合用于区分甲状腺良性肿瘤和不同分期的甲状腺恶性肿瘤
[0237][0238]
注：表中的cpg位点均指可区分的cpg位点。
[0239]
表13、cux2_b的cpg位点及其组合用于区分不同亚型甲状腺恶性肿瘤患者
[0240]
[0241][0242]
注：表中的cpg位点均指可区分的cpg位点。
[0243]
表14、cux2_b的cpg位点及其组合用于区分不同分期甲状腺恶性肿瘤患者
[0244]
[0245][0246]
注：表中的cpg位点均指可区分的cpg位点。
[0247]
表15、cux2_b的最佳cpg位点及其组合用于区分甲状腺良性肿瘤和不同亚型的甲状腺恶性肿瘤
[0248][0249]
注：表中的cpg位点均指可区分的cpg位点。
[0250]
表16、cux2_b的最佳cpg位点及其组合用于区分甲状腺良性肿瘤和不同分期的甲状腺恶性肿瘤
[0251]
[0252][0253]
注：表中的cpg位点均指可区分的cpg位点。
[0254]
表17、cux2_b的最佳cpg位点及其组合用于甲状腺恶性肿瘤不同亚型之间的区分
[0255][0256]
注：表中的cpg位点均指可区分的cpg位点。
[0257]
表18、cux2_b的最佳cpg位点及其组合用于甲状腺恶性肿瘤不同分期之间的区分
[0258]
[0259][0260]
注：表中的cpg位点均指可区分的cpg位点。
[0261]
以上对本发明进行了详述。对于本领域技术人员来说，在不脱离本发明的宗旨和范围，以及无需进行不必要的实验情况下，可在等同参数、浓度和条件下，在较宽范围内实施本发明。虽然本发明给出了特殊的实施例，应该理解为，可以对本发明作进一步的改进。总之，按本发明的原理，本技术欲包括任何变更、用途或对本发明的改进，包括脱离了本技术中已公开范围，而用本领域已知的常规技术进行的改变。按以下附带的权利要求的范围，可以进行一些基本特征的应用。

技术特征：

1.一种甲基化生物标志物，其特征在于：所述甲基化生物标志物的核苷酸序列为cux2基因中如下(a1)-(a4)所示片段中的全部或部分cpg位点的甲基化水平：(a1)seq id no.1所示的dna片段或与其具有80％以上同一性的dna片段；(a2)seq id no.2所示的dna片段或与其具有80％以上同一性的dna片段；(a3)seq id no.3所示的dna片段或与其具有80％以上同一性的dna片段；(a4)seq id no.4所示的dna片段或与其具有80％以上同一性的dna片段；所述甲基化生物标志物包括位于其核苷酸序列上的如下(b1)-(b7)中任一所示cpg位点：(b1)cux2基因中seq id no.1、seq id no.2、seq id no.3和seq id no.4所示4个dna片段中的任意一个或多个cpg位点；(b2)cux2基因中seq id no.2所示的dna片段上的所有cpg位点和seq id no.1所示的dna片段上的所有cpg位点；(b3)cux2基因中seq id no.2所示的dna片段上的所有cpg位点和seq id no.3所示的dna片段上的所有cpg位点；(b4)cux2基因中seq id no.1所示的dna片段上的所有cpg位点和seq id no.3所示的dna片段上的所有cpg位点；(b5)cux2基因中seq id no.2所示的dna片段上的所有cpg位点、seq id no.1所示的dna片段上的所有cpg位点和seq id no.3所示的dna片段上的所有cpg位点；(b6)cux2基因中seq id no.2所示的dna片段中的全部cpg位点或任意23个或任意22个或任意21个或任意20个或任意19个或任意18个或任意17个或任意16个或任意15个或任意14个或任意13个或任意12个或任意11个或任意10个或任意9个或任意8个或任意7个或任意6个或任意5个或任意4个或任意3个或任意2个或任意1个cpg位点；(b7)cux2基因中seq id no.2所示的dna片段上如下9项所示cpg位点的全部或任意8项或任意7项或任意6项或任意5项或任意4项或任意3项或任意2项或任意1项：第1项：seq id no.2所示的dna片段自5’端第261-262位所示cpg位点；第2项：seq id no.2所示的dna片段自5’端第330-331位所示cpg位点；第3项：seq id no.2所示的dna片段自5’端第355-356位所示cpg位点；第4项：seq id no.2所示的dna片段自5’端第369-370位和第371-372位和第374-375位和第380-381位和第382-383位所示cpg位点；第5项：seq id no.2所示的dna片段自5’端第392-393位所示cpg位点；第6项：seq id no.2所示的dna片段自5’端第453-454位所示cpg位点；第7项：seq id no.2所示的dna片段自5’端第475-476位和第478-479位所示cpg位点；第8项：seq id no.2所示的dna片段自5’端第484-485位所示cpg位点；第9项：seq id no.2所示的dna片段自5’端第624-625位所示cpg位点；所述甲基化生物标志物的用途为如下中的至少一种：(1)区分或辅助区分甲状腺良性肿瘤和甲状腺恶性肿瘤；(2)区分或辅助区分甲状腺良性肿瘤和不同亚型的甲状腺恶性肿瘤；(3)区分或辅助区分甲状腺良性肿瘤和不同分期的甲状腺恶性肿瘤；(4)区分或辅助区分甲状腺恶性肿瘤不同亚型；
(5)区分或辅助区分甲状腺恶性肿瘤不同分期。2.权利要求1所述甲基化生物标志物在制备产品中的应用；所述产品的用途为如下中的至少一种：(1)区分或辅助区分甲状腺良性肿瘤和甲状腺恶性肿瘤；(2)区分或辅助区分甲状腺良性肿瘤和不同亚型的甲状腺恶性肿瘤；(3)区分或辅助区分甲状腺良性肿瘤和不同分期的甲状腺恶性肿瘤；(4)区分或辅助区分甲状腺恶性肿瘤不同亚型；(5)区分或辅助区分甲状腺恶性肿瘤不同分期。3.用于检测权利要求1所述甲基化生物标志物的甲基化水平的物质在制备产品中的应用；所述产品的用途为如下中的至少一种：(1)区分或辅助区分甲状腺良性肿瘤和甲状腺恶性肿瘤；(2)区分或辅助区分甲状腺良性肿瘤和不同亚型的甲状腺恶性肿瘤；(3)区分或辅助区分甲状腺良性肿瘤和不同分期的甲状腺恶性肿瘤；(4)区分或辅助区分甲状腺恶性肿瘤不同亚型；(5)区分或辅助区分甲状腺恶性肿瘤不同分期。4.用于检测权利要求1所述甲基化生物标志物的甲基化水平的物质和储存有数学模型和/或数学模型使用方法的介质在制备产品中的应用；所述产品的用途为如下中的至少一种：(1)区分或辅助区分甲状腺良性肿瘤和甲状腺恶性肿瘤；(2)区分或辅助区分甲状腺良性肿瘤和不同亚型的甲状腺恶性肿瘤；(3)区分或辅助区分甲状腺良性肿瘤和不同分期的甲状腺恶性肿瘤；(4)区分或辅助区分甲状腺恶性肿瘤不同亚型；(5)区分或辅助区分甲状腺恶性肿瘤不同分期；所述数学模型按照包括如下步骤的方法获得：(c1)分别检测n1个a类型样本和n2个b类型样本的基因甲基化水平；(c2)取步骤(c1)获得的所有样本的基因甲基化水平数据，按照a类型和b类型的分类方式，通过二分类逻辑回归法建立数学模型，确定分类判定的阈值；所述数学模型使用方法包括如下步骤：(d1)检测待测样本的基因甲基化水平；(d2)将步骤(d1)获得的所述待测样本的基因甲基化水平数据代入所述数学模型，得到检测指数；然后比较检测指数和阈值的大小，根据比较结果确定所述待测样本的类型是a类型还是b类型；所述a类型样本和所述b类型样本为如下任一种：(e1)甲状腺良性肿瘤和甲状腺恶性肿瘤；(e2)甲状腺良性肿瘤和不同亚型的甲状腺恶性肿瘤；(e3)甲状腺良性肿瘤和不同分期的甲状腺恶性肿瘤；(e4)不同亚型的甲状腺恶性肿瘤；(e5)不同分期的甲状腺恶性肿瘤。5.一种试剂盒，包括用于检测权利要求1所述甲基化生物标志物的甲基化水平的物质；
所述试剂盒的用途为如下中的至少一种：(1)区分或辅助区分甲状腺良性肿瘤和甲状腺恶性肿瘤；(2)区分或辅助区分甲状腺良性肿瘤和不同亚型的甲状腺恶性肿瘤；(3)区分或辅助区分甲状腺良性肿瘤和不同分期的甲状腺恶性肿瘤；(4)区分或辅助区分甲状腺恶性肿瘤不同亚型；(5)区分或辅助区分甲状腺恶性肿瘤不同分期。6.根据权利要求5所述的试剂盒，其特征在于：所述试剂盒中还含有权利要求4中所述的储存有数学模型和/或数学模型使用方法的介质。7.系统，包括：(f1)用于检测cux2基因甲基化水平的试剂和/或仪器；(f2)装置，所述装置包括单元x和单元y；所述单元x用于建立数学模型，包括数据采集模块、数据分析处理模块和模型输出模块；所述数据采集模块被配置为采集(f1)检测得到的n1个a类型样本和n2个b类型样本的cux2基因甲基化水平数据；所述数据分析处理模块被配置为接收来自于所述数据采集模块的所述n1个a类型样本和n2个b类型样本的cux2基因甲基化水平数据，按照a类型和b类型的分类方式，通过二分类逻辑回归法建立数学模型，确定分类判定的阈值；所述模型输出模块被配置为接收来自于所述数据分析处理模块建立的所述数学模型，并进行输出；所述单元y用于确定待测样本类型，包括数据输入模块、数据运算模块、数据比较模块和结论输出模块；所述数据输入模块被配置为输入(f1)检测得到的待测者的cux2基因甲基化水平数据；所述数据运算模块被配置为接收来自于所述数据输入模块的所述待测者的cux2基因甲基化水平数据，并将所述待测者的cux2基因甲基化水平数据代入所述单元x中的所述数据分析处理模块建立的所述数学模型，计算得到检测指数；所述数据比较模块被配置为接收来自于所述数据运算模块计算得到的检测指数，并将所述检测指数与所述单元x中的所述数据分析处理模块中确定的所述阈值进行比较；所述结论输出模块被配置为接收来自于所述数据比较模块的比较结果，并根据所述比较结果输出所述待测样本的类型是a类型还是b类型的结论；所述a类型样本和所述b类型样本为如下任一种：(e1)甲状腺良性肿瘤和甲状腺恶性肿瘤；(e2)甲状腺良性肿瘤和不同亚型的甲状腺恶性肿瘤；(e3)甲状腺良性肿瘤和不同分期的甲状腺恶性肿瘤；(e4)不同亚型的甲状腺恶性肿瘤；(e5)不同分期的甲状腺恶性肿瘤。8.根据权利要求3-7中任一所述的应用或试剂盒或系统，其特征在于：用于检测所述cux2基因甲基化水平的物质或试剂包含用于扩增cux2基因全长或部分片段的引物组合；进一步地，所述部分片段为如下中至少一个片段：
(g1)seq id no.1所示的dna片段或其包含的dna片段；(g2)seq id no.2所示的dna片段或其包含的dna片段；(g3)seq id no.3所示的dna片段或其包含的dna片段；(g4)seq id no.4所示的dna片段或其包含的dna片段；(g5)与seq id no.1所示的dna片段或其包含的dna片段具有80％以上同一性的dna片段；(g6)与seq id no.2所示的dna片段或其包含的dna片段具有80％以上同一性的dna片段；(g7)与seq id no.3所示的dna片段或其包含的dna片段具有80％以上同一性的dna片段；(g8)与seq id no.4所示的dna片段或其包含的dna片段具有80％以上同一性的dna片段。9.根据权利要求8所述的应用或试剂盒或系统，其特征在于：所述引物组合为引物对a和/或引物对b和/或引物对c和/或引物对d；所述引物对a为引物a1和引物a2组成的引物对；所述引物a1为seq id no.5或seq id no.5的第11-35位核苷酸所示的单链dna；所述引物a2为seq id no.6或seq id no.6的第32-56位核苷酸所示的单链dna；所述引物对b为引物b1和引物b2组成的引物对；所述引物b1为seq id no.7或seq id no.7的第11-35位核苷酸所示的单链dna；所述引物b2为seq id no.8或seq id no.8的第32-56位核苷酸所示的单链dna；所述引物对c为引物c1和引物c2组成的引物对；所述引物c1为seq id no.9或seq id no.9的第11-35位核苷酸所示的单链dna；所述引物c2为seq id no.10或seq id no.10的第32-56位核苷酸所示的单链dna；所述引物对d为引物d1和引物d2组成的引物对；所述引物d1为seq id no.11或seq id no.11的第11-35位核苷酸所示的单链dna；所述引物d2为seq id no.12或seq idno.12的第32-56位核苷酸所示的单链dna。10.根据权利要求2-9中任一所述的应用或试剂盒或系统，其特征在于：检测权利要求1所述甲基化生物标志物的甲基化水平为检测肿瘤组织样本中权利要求1所述甲基化生物标志物的甲基化水平。

技术总结

本发明公开了一种用于鉴别甲状腺肿瘤良恶性的甲基化分子标志物。本发明提供了一种甲基化生物标志物，其核苷酸序列为CUX2基因中SEQ ID No.1-4所示的DNA片段；包括的CpG位点选自SEQ ID No.1、SEQ ID No.2、SEQ ID No.3和SEQ ID No.4所示4个DNA片段中的任意一个或多个CpG位点；用于区分或辅助区分甲状腺良性肿瘤和甲状腺恶性肿瘤、甲状腺良性肿瘤和不同亚型/不同分期的甲状腺恶性肿瘤；区分或辅助区分甲状腺恶性肿瘤不同亚型/不同分期。本发明揭示了相较于甲状腺良性肿瘤，甲状腺癌患者组织中CUX2基因的低甲基化现象，本发明对提高甲状腺癌早期诊疗效果和降低甲状腺癌死亡率，以及指导制定合理的临床方案均有重要的科学意义和临床应用价值。学意义和临床应用价值。