用于判断样本配对或污染的位点组合及其筛选方法和应用与流程



1.本发明属于生物信息技术领域,具体地,涉及用于判断样本配对和/或污染的位点组合及其筛选方法和应用。


背景技术:



2.随着高通量测序成本的降低,分析样本数量逐渐增多,导致样品混淆和污染的机会增大。典型的肿瘤样本检测工作流程复杂,从样本信息录入,湿实验各步骤,到最终的数据分析都可能引起样本污染。癌症研究经常联合分析匹配的“肿瘤-正常”样本,以检测肿瘤中存在的体细胞突变。即使在肿瘤样本中出现非常低的跨个体污染,也可能引入许多低等位基因频率的等位基因变异,这些变异会被体细胞变异调用算法解释为体细胞变异,导致特异性大大降低。检测样本混淆和污染是关键的质量控制步骤,会影响肿瘤检测的准确性,应在每个体细胞分析之前进行。
3.目前的评估样本污染的方法包括verifybamid、contest、conpair等,这些方法均只适用于配对样,其中conpair方法可评估低至0.1%的污染。配对样本均污染时,不能准确评估是否污染。


技术实现要素:



4.为了解决上述技术问题中的至少一个,本发明采用的技术方案如下:
5.本发明第一方面提供一种用于判断样本是否配对和/或是否存在污染的位点的筛选方法,包括以下步骤:
6.s11,获得待判断样本来源物种的突变位点数据;
7.s12,将步骤s1获得的突变位点进行哈代-温伯格定律检验,筛选出符合哈代-温伯格定律检验的突变位点;
8.s13,利用第一体样本测序数据从步骤s2获得的突变位点中筛选出符合以下条件的位点:

在至少20%的样本中检出该突变位点对应的突变型;

在具有该突变位点对应的突变型的样本中,至少70%的样本其突变频率分布于0.4至0.6之间,
9.获得的全部突变位点即为用于判断样本数据是否存在污染的位点。
10.在本发明的一些实施方案中,所述待判断样本来源物种是人。进一步地,所述突变位点为snp位点,再进一步地,所述获得snp位点是指获取千人计划的东亚人常染体snp位点(vcf文件)。当然,本领域技术人员也可能利用其他已经公开snp位点数据,进一步地,本领域也可以利用测序的技术进一步获得人的snp位点数据。例如,如果已经存在大panel测序结果,可根据panel的检测范围筛选panel范围内的snp位点。
11.在本发明的一些实施方案中,所述第一体样本的数量不低于100,例如100、120、140、150、160、180、200、300、500或更多。
12.在本发明的一些实施方案中,进一步剔除10000bp范围内出现3次以上的突变位点。
13.本发明的第二方面提供利用本发明第一方面所述的筛选方法得到的所述待判断样本来源物种为人的位点组合。优选地,所述位点组合包括如下snp位点:
14.rs2234161、rs13429049、rs3796164、rs2240780、rs1526083、rs466994、rs648387、rs17655、rs11574480、rs2240308、rs1057079、rs2228014、rs2335052、rs740750、rs76436625、rs2070113、rs3758862、rs12853546、rs2291011、rs2302233、rs12063905、rs13387241、rs1573858、rs3830032、rs10263573、rs1056171、rs79978663、rs3742210、rs3825941、rs1042667、rs3754334、rs4444457、rs635721、rs3830035、rs3815221、rs1076160、rs10895417、rs9604573、rs1560975、rs2071654、rs12059454、rs4954672、rs7644369、rs1966265、rs7794637、rs75802666、rs501413、rs1130409、rs17273206、rs3744037、rs2067053、rs78366782、rs3732567、rs351855、rs6977407、rs1805352、rs3740942、rs1049564、rs3815003、rs901065、rs3917981、rs4954852、rs1042787、rs28580074、rs6959712、rs1536475、rs664677、rs1130650、rs2227933、rs2306690、rs2275471、rs13382825、rs2270881、rs9392904、rs3829814、rs1805343、rs562780、rs2284651、rs2227934、rs12944923、rs3219489、rs17575847、rs11717042、rs1050775、rs740949、rs75842134、rs2298650、rs7157716、rs1063147、rs4969429、rs785468、rs1429365、rs2305268、rs16871074、rs2072407、rs2229971、rs521102、rs2069540、rs2293117、rs3829572、rs1707303、rs13007735、rs2227931、rs3734404、rs2302427、rs62579232、rs35195224、rs2230505、rs2593053、rs3751945、rs12030928、rs13413663、rs77504578、rs16871236、rs10274535、rs7852970、rs2229351、rs2273813、rs2301522、rs3751936、rs1048771、rs9973397、rs2699896、rs3752418、rs28723387、rs2229360、rs11062385、rs8904、rs1805105、rs28722141、rs1137100、rs4264514、rs3729679、rs3752416、rs17635434、rs12267460、rs4980885、rs1957106、rs7187438、rs3786348、rs13306519、rs12990449、rs796406、rs9405048、rs66628686、rs7073837、rs3759371、rs11624339、rs3810812、rs3737378、rs3736909、rs1375610、rs11925959、rs1051130、rs3757422、rs7896005、rs6413436、rs79519281、rs129982、rs1042769、rs2735594、rs3106796、rs3732577、rs3024997、rs6464211、rs2273773、rs7303748、rs2230499、rs12051375、rs1791235、rs7556439、rs788023、rs59852126、rs3025000、rs10252263、rs714887、rs11611479、rs2230500、rs254942、rs73454598、rs1627787、rs3769823、rs266720、rs1130809、rs7834206、rs1058932、rs17210957、rs2230501、rs1799801、rs3819162、rs2066411、rs1045487、rs1056932、rs345730、rs4733376、rs2275622、rs17847788、rs1088680、rs2280764、rs8095411、rs1800601、rs3769818、rs28673064、rs901455、rs1488935、rs3740066、rs11044057、rs2057482、rs2075514、rs2229080、rs6334、rs231775、rs1345186、rs345713、rs16887325、rs3824756、rs11044211、rs2277500、rs11644832、rs2276204、rs1801274、rs13002712、rs3135890、rs1010273、rs4647907、rs2001389、rs2306283、rs17834971、rs2272552、rs2298654、rs4466634、rs6757068、rs6811325、rs3778650、rs2305558、rs17114803、rs7956824、rs56104115、rs249954、rs2298606、rs2290854、rs16852600、rs999020、rs1033572、rs11545077、rs12414407、rs6488091、rs8023214、rs7193297、rs1431195、rs747659、rs2229571、rs1008658、rs6907567、rs1800909、rs10883841、rs10772008、rs2239610、rs2279349、rs1502229、
rs1136410、rs2070096、rs2219471、rs714368、rs34854177、rs77961654、rs2271194、rs2241119、rs1800355、rs2270952、rs907187、rs13010249、rs7655964、rs3730353、rs12544121、rs1047057、rs2292238、rs2075179、rs11076620、rs2270953、rs2230656、rs4673993、rs7349683、rs581235、rs4260880、rs2278202、rs2271189、rs3783942、rs17232910、rs57115850、rs1188474、rs12720063、rs2198104、rs9481703、rs1160174、rs12252、rs697221、rs3783941、rs2074963、rs28740963、rs10802607、rs11686067、rs2231157、rs2243384、rs3793379、rs12628、rs2069502、rs1991517、rs2304906、rs11663656、rs10925391、rs1801123、rs1982965、rs1535330、rs3829023、rs3213225、rs2270777、rs2297730、rs2285579、rs3764640、rs10754602、rs2227982、rs2303740、rs2243、rs61753704、rs760419、rs547497、rs2494748、rs8067806、rs2075606、rs2618713、rs3856806、rs13167280、rs3799488、rs940664、rs204930、rs2071629、rs2494749、rs2952976、rs3815308、rs2779430、rs1870134、rs2736098、rs661561、rs940665、rs2303972、rs2301610、rs2280738、rs2905880、rs2302061、rs10802626、rs1155705、rs2287584、rs3924871、rs3750225、rs1799937、rs11066315、rs73376010、rs2285892、rs3746132、rs12563366、rs11466512、rs6885959、rs3798761、rs3750227、rs16754、rs7971249、rs12595504、rs2066736、rs3746130、rs684923、rs2228048、rs3763075、rs12174349、rs2292781、rs2295081、rs1076205、rs7182445、rs9894648、rs4807017、rs1042034、rs6599230、rs7735863、rs2077647、rs2279776、rs2234585、rs2285679、rs3751526、rs2285894、rs4807703、rs676210、rs4135385、rs16901229、rs1801132、rs1359118、rs1799925、rs1179441、rs61149329、rs964288、rs2252673、rs673548、rs2385867、rs2043112、rs2228480、rs7031287、rs4756196、rs28660993、rs2289332、rs2525574、rs3745544、rs4589708、rs6768722、rs6868087、rs3734440、rs7026388、rs12577824、rs2275234、rs45457497、rs9901455、rs2290684、rs2256376、rs4082155、rs2303808、rs3734441、rs3763653、rs2856650、rs4073630、rs17677991、rs1810132、rs16999593、rs2246745、rs6767907、rs832567、rs5746094、rs10758978、rs521950、rs1933437、rs550239、rs4252627、rs11545829、rs1056827、rs2878628、rs832575、rs316003、rs666478、rs2959656、rs3751395、rs2602141、rs903506、rs1048290、rs10012、rs2251219、rs706713、rs316018、rs639225、rs2071313、rs2274019、rs690367、rs1058808、rs2288842、rs10153761、rs17264436、rs706714、rs316016、rs638203、rs9344、rs2280059、rs689647、rs471692、rs2288841、rs1126497、rs3733045、rs72757662、rs3765475、rs1111782、rs2073464、rs1799943、rs560191、rs2293158、rs2075021、rs4399765、rs3755806、rs2302974、rs1801474、rs10121367、rs7932320、rs144848、rs2439831、rs2293152、rs6413504、rs7584256、rs2590846、rs3730089、rs3735295、rs2273715、rs2725832、rs1799955、rs3825962、rs1799966、rs14158、rs2303426、rs2037474、rs1105524、rs2303364、rs2297105、rs562939、rs9534262、rs2303502、rs799905、rs4926222、rs3732182、rs3792572、rs1650697、rs10215655、rs1342017、rs1014666、rs3751436、rs11853943、rs2242598、rs3815188、rs2303428、rs35124509、rs1805355、rs3213661、rs3739959、rs610611、rs3092904、rs140598、rs2271959、rs3746187、rs2303424、rs11713094、rs26279、rs1050171、rs2278275、rs11021065、rs4883918、
rs55699652、rs9900627、rs59045002、rs1042821、rs16854713、rs3734000、rs2293347、rs158689、rs10831316、rs1751034、rs2413907、rs2257205、rs757115、rs2305156、rs2278911、rs3752862、rs1949972、rs2404457、rs583928、rs1751005、rs12442826、rs3744093、rs2238658、rs2166975、rs12108149、rs2229992、rs2272351、rs4647534、rs4753658、rs2274403、rs2289261、rs12946397、rs3218066、rs2278211、rs60174052、rs351771、rs1058425、rs357564、rs484389、rs4148437、rs2289790、rs4988351、rs3218068、rs2278208、rs860224、rs17166050、rs2272348、rs11568778、rs500760、rs9556466、rs3759825、rs4988344、rs2229139、rs2278206、rs820463、rs17166112、rs2301557、rs334354、rs657936、rs4150299、rs3759826、rs2070776、rs77592501、rs2230388、rs1254392、rs246395、rs2242480、rs2236599、rs586592、rs4150360、rs937724、rs35285779、rs6508806、rs75797287、rs4591267、rs3218760、rs2295454、rs2076244、rs10485805、rs41309367、rs1051296、rs5751738、rs3761426、rs2304189、rs1799782、rs2445837、rs6018257、rs41279262、rs1800900、rs1056892、rs12659、rs2070457、rs3747142、rs10411012、rs238417、rs2288528、rs722898、rs2425516、rs1800905、rs2836346、rs914231、rs5762749、rs2530664、rs2304234、rs3212955、rs157816、rs1569548、rs6030462、rs7121、rs2836359、rs2298434、rs1033667、rs1064498、rs2304232、rs11615、rs41275620、rs2076248、rs16998248、rs2297437、rs2836441、rs5760030、rs4820804、rs9610684、rs2239769、rs5758235、rs3818120、rs2294976、rs2076578和rs1135840。
15.本发明的第三方面提供一种判断疾病样本和正常样本是否配对的方法,包括以下步骤:
16.s21,获得待判断疾病样本和正常样本中相关位点的基因型,所述相关位点是利用本发明第一方面所述的筛选方法获得的,优选地,所述相关位点选自本发明第二方面所述的位点组合;
17.s22,利用公式(2-1)计算待判断疾病样本和正常样本的位点相似性,利用公式(2-2)计算待判断疾病样本和正常样本变异等位基因频率的差异:
[0018][0019][0020]
其中,ss表示位点相似性,n表示待判断疾病样本中和正常样本中基因型一致位点数目,n表示所述相关位点的数目,difference表示变异等位基因频率的差异,nafi表示正常样本第i位点的变异等位基因频率,tafi表示疾病样本第i位点的变异等位基因频率;
[0021]
s23,判断样本是否配对:若疾病样本和正常样本中ss高于0.35且difference低于0.25,则认为是配对样本,否则是非配对样本。
[0022]
在本发明的一些实施方案中,所述疾病为肿瘤。所述正常样本又可称为配对样本。
[0023]
在本发明的一些实施方案中,进一步包括利用conpair判断的步骤。
[0024]
本发明第四方面提供一种判断样本数据是否存在污染的方法,包括以下步骤:
[0025]
s31,利用公式(3-1)计算相关位点的变异系数,利用公式(3-2)计算相关位点的变
异等位基因频率距离0.5的距离:
[0026][0027][0028]
所述相关位点是利用本发明第一方面所述的筛选方法获得的,优选地,所述相关位点选自本发明第二方面所述的位点组合,
[0029]
公式(3-1)中,cv表示相关位点的变异系数,σ表示所有相关位点的变异等位基因频率的标准差,μ表示所有相关位点的变异等位基因频率的平均值,
[0030]
公式(3-2)中,het表示所述相关位点变异等位基因频率距离0.5的距离,afi表示样本第i位点的变异等位基因频率,n表示所述相关位点的数目;
[0031]
s32,利用公式(3-3)进行计算污染预测值:
[0032]
perdict=coef*het+intercept
ꢀꢀꢀꢀ
(3-3)
[0033]
其中,perdict是指污染预测值,coef是指相关系数,intercept是指截距,所述coeft和intercept是利用第二体样本数据训练得到的,在训练时,将理论污染比作为perdict;
[0034]
s33,判断样本是否存在污染:若样本predict低于0.15且cv值小于0.35,则可判断样本不存在污染,否则样本存在污染。
[0035]
在本发明的一些实施方案中,所述第二体的数量不低于5,例如5、7、9、10、12、15、20或更多。
[0036]
在本发明的一些实施方案中,若待判断样本是配对样本,则在步骤s31之前,首先利用conpair判断样本是否存在污染。
[0037]
本发明第五方面提供一种计算机设备,包括:
[0038]
存储器,用于存储计算机程序;
[0039]
处理器,用于执行所述计算机程序时实现如本发明第一方面至第四方面任一所述方法的步骤。
[0040]
本发明第六方面提供一种计算机可读存储介质,
[0041]
所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如本发明第一方面至第四方面所述方法的步骤。
[0042]
本发明的有益效果
[0043]
相对于现有技术,本发明的有益效果如下:
[0044]
利用本发明的位点,可能通过计算位点相似性和vaf差异来判断疾病样本和正常样本是否是配对样本,并可进一步通过计算变异系数和污染比例预测样本的污染情况。由此可获取所述簇的中心集合,由于只是将所述每个簇的中心集合的每一读长与参考基因序列对比,判断每个簇的基因组类别,因此,与现有技术相比,本发明提供的技术方案可进行污染和配对判断的代表性位点筛选;既实现了正常样本的配对情况,又实现了单疾病样本的污染判断,从而可以实现疾病-正常样本均受到污染时能够预测其污染情况的功能。
附图说明
[0045]
图1示出了等位基因偏差分布情况。
[0046]
图2示出了本发明实施例1中筛选位点的流程示意图。
[0047]
图3示出了本发明实施例2判断样本是否配对的流程示意图。
[0048]
图4示出了本发明实施例3判断样本是否存在污染的流程示意图。
具体实施方式
[0049]
除非另有说明、从上下文暗示或属于现有技术的惯例,否则本技术中所有的份数和百分比都基于重量,且所用的测试和表征方法都是与本技术的提交日期同步的。在适用的情况下,本技术中涉及的任何专利、专利申请或公开的内容全部结合于此作为参考,且其等价的同族专利也引入作为参考,特别这些文献所披露的关于本领域中的合成技术、产物和加工设计、聚合物、共聚单体、引发剂或催化剂等的定义。如果现有技术中披露的具体术语的定义与本技术中提供的任何定义不一致,则以本技术中提供的术语定义为准。
[0050]
本技术中的数字范围是近似值,因此除非另有说明,否则其可包括范围以外的数值。数值范围包括以1个单位增加的从下限值到上限值的所有数值,条件是在任意较低值与任意较高值之间存在至少2个单位的间隔。例如,如果记载组分、物理或其它性质(如分子量,熔体指数等)是100至1000,意味着明确列举了所有的单个数值,例如100,101,102等,以及所有的子范围,例如100到166,155到170,198到200等。对于包含小于1的数值或者包含大于1的分数(例如1.1,1.5等)的范围,则适当地将1个单位看作0.0001,0.001,0.01或者0.1。对于包含小于10(例如1到5)的个位数的范围,通常将1个单位看作0.1。这些仅仅是想要表达的内容的具体示例,并且所列举的最低值与最高值之间的数值的所有可能的组合都被认为清楚记载在本技术中。
[0051]
术语“包含”,“包括”,“具有”以及它们的派生词不排除任何其它的组分、步骤或过程的存在,且与这些其它的组分、步骤或过程是否在本技术中披露无关。为消除任何疑问,除非明确说明,否则本技术中所有使用术语“包含”,“包括”,或“具有”的组合物可以包含任何附加的添加剂、辅料或化合物。相反,出来对操作性能所必要的那些,术语“基本上由
……
组成”将任何其他组分、步骤或过程排除在任何该术语下文叙述的范围之外。术语“由
……
组成”不包括未具体描述或列出的任何组分、步骤或过程。除非明确说明,否则术语“或”指列出的单独成员或其任何组合。
[0052]
为了使本发明所解决的技术问题、技术方案及有益效果更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。
[0053]
实施例
[0054]
以下例子在此用于示范本发明的优选实施方案。本领域内的技术人员会明白,下述例子中披露的技术代表发明人发现的可以用于实施本发明的技术,因此可以视为实施本发明的优选方案。但是本领域内的技术人员根据本说明书应该明白,这里所公开的特定实施例可以做很多修改,仍然能得到相同的或者类似的结果,而非背离本发明的精神或范围。
[0055]
除非另有定义,所有在此使用的技术和科学的术语,和本发明所属领域内的技术人员所通常理解的意思相同,在此公开引用及他们引用的材料都将以引用的方式被并入。
[0056]
那些本领域内的技术人员将意识到或者通过常规试验就能了解许多这里所描述的发明的特定实施方案的许多等同技术。这些等同将被包含在权利要求书中。
[0057]
下述实施例中的实验方法,如无特殊说明,均为常规方法。下述实施例中所用的仪
器设备,如无特殊说明,均为实验室常规仪器设备;下述实施例中所用的试验材料,如无特殊说明,均为自常规生化试剂商店购买得到的。
[0058]
实施例1肿瘤污染判断位点筛选
[0059]
等位基因偏差(allele balance,ab)指的是一个杂合位点上,参考碱基(ref)或突变碱基(alt)的测序深度与该位点的总测序深度之间的比值。在测序过程中(二倍体),一个位点的等位基因(allele)总会被测到多次。对于杂合子来说,支持ref和alt的读长(read)数理论上比例应该接近于1。由于测序错误、比对错误、嵌合,拷贝数事件等,这个值可能会出现一些偏差,但总体应该服从均值为0.5的正态分布(如图1所示)。
[0060]
不同个体间往往有大量不同的基因型,相同位点间不同的突变会导致ab分布的变化。纯合位点引入不同的基因型会导致计算ab时将该位点按照杂合来统计,造成杂合位点的增多;杂合位点引入纯合突变会导致该位点ab值偏高。
[0061]
由此,发明人设想可以通过样本的位点分布特性来区分污染的情况。
[0062]
本实施例提供一种位点筛选的方法,具体地,详细包括以下步骤(如图2所示):
[0063]
(1)获得snp位点:从千人基因组计划下载人vcf文件,并筛选出东亚人的snp位点(11266366个)生成vcf文件。
[0064]
(2)hwe检测:将获得的snp位点进行hwe检验,筛选出符合hwe检验的snp位点(27889个)。
[0065]
(3)利用144个样本测序数据从步骤(2)获得的snp位点中筛选snp位点:

在至少20%的样本中检出该snp位点对应的突变型;

在具有该snp位点对应的突变型的样本中,至少70%的样本其突变频率分布于0.4至0.6之间,保证大多数样本其突变型杂合突变且不同样本间突变频率差异不大。如此得到1471个snp位点符合上述要求。
[0066]
(4)进一步,剔除10000bp范围内出现3次以上的snp位点,得到最终的666个snp位点,如表1所示:
[0067]
表1筛选得到的snp位点
[0068]
[0069]
[0070][0071]
实施例2判断样本配对与否的方法
[0072]
本实施提供判断样本是否配对的方法,如图3所示,详细步骤如下:
[0073]
1.利用conpair软件判断样本配对与否
[0074]
(1)获取包含实施例1筛选出的snp位点的20对配对-肿瘤样本bam文件,20对样本主要来源肺癌,并使用novaseq进行测序得到的测序数据,然后使用bwa软件把fastq序列进行比对生成bam文件。
[0075]
(2)利用conpair软件判断配对样本的一致性,输入文件格式为bam格式。如果肿瘤和配对样本均未发生污染,其conpair一致性在90%以上;如果肿瘤样本发生污染,但是配对样本未发生污染,不会影响conpair判断样本配对与否;如果肿瘤样本发生污染,且随着污染比例的增加,conpair计算配对样本的一致性会逐渐降低,甚至在污染比例至20%以上
时,conpair计算的一致性低至60%以下,与非配对样本计算出的一致性值混淆,无法判断其是否配对。
[0076]
2.通过位点相似性和样本变异等位基因频率的差异来判断样本配对与否
[0077]
使用gatk的haplotypecaller检出肿瘤-配对样本中实施例1筛选得到所有位点的基因型(gvcf),然后分别计算样本的位点相似性(site similar,ss)和样本变异等位基因频率(variant allele frequency,vaf)的差异(difference)。
[0078]
(1)位点相似性计算
[0079]
统计肿瘤和配对样本基因型一致的位点n以及检出的所有位点n:
[0080][0081]
(2)vaf的差异计算(不考虑基因型)
[0082][0083]
其中,nafi代表配对样本第i位点的vaf,tafi代表肿瘤样本第i位点的vaf。
[0084]
结果如表2所示:
[0085]
表2样本配对情况
[0086]
[0087]
[0088]
[0089][0090]
上述结果显示,配对样本位点相似性最低值高于0.35,而非配对样本的位点相似性最高值低于0.35,也就是说,0.35可以作为位点相似性判断样本是否配对的阈值;difference结果显示,配对样本(包括污染样本)位点difference最低值低于0.25,而非配对样本的位点difference最低值高于0.25,也就是说,0.25可以作为位点differe nce判断样本是否配对的阈值。
[0091]
综上,为了配对样本与否的判断更加敏感,可结合上述方法计算的conpair一致性和位点相似性与difference来进行最终的判断。如果conpair一致性高于90%,则认为是配对样本,否则如果位点相似性高于0.35且difference低于0.25则认为是配对样本,否则是非配对样本。
[0092]
实施例3样本肿瘤污染的评估
[0093]
本实施例提供样本肿瘤污染的评估判断方法,如图4所示。
[0094]
利用实施例2的数据,抓取每个样本包含实施例1位点的序列重新生成fastq,设置污染比例从0.01到0.5,每2个样本之间根据污染比例挑选fastq序列生成污染样本。
[0095]
例如:样本1的污染比例为0.01,污染来源于样本2,首先,统计样本1的fastq序列数,通过样本1的fastq序列数*污染比0.01则为需从样本2中提取的序列数目,把从样本2提取的序列数目随机替换到样本1的fastq序列中,就生成了污染样本。
[0096]
1.变异系数计算:
[0097]
变异系数(coefficient of variation,cv),又称“离散系数”,是概率分布离散程度的一个归一化量度,其定义为标准差σ与平均值μ之比:
[0098][0099]
其中标准差σ为所有位点的等位频率的标准差,平均值μ为所有位点的等位频率的平均值。
[0100]
2.位点vaf距离0.5的距离(het):
[0101][0102]
其中,afi代表样本第i位点的vaf。
[0103]
使用6960个混样数据进行线性回归分析(80%训练,20%预测),对以下公式使用训练数据进行训练,然后使用预测数据进行预测和判断:
[0104]
perdict=coef*het+intercept
[0105]
其中,perdict是指污染预测值,coef是指相关系数,intercept是指截距。
[0106]
训练时,首先计算每个样本的位点杂合度het值,然后根据每个样本的理论污染比和het值拟合predict曲线,最终得到predict计算公式:predict=1.3976*het-0.0701。
[0107]
如果是配对样本,首先使用conpair评估样本的污染比例,但是,conpair可准确预测1%以上污染。并且,如果肿瘤和配对样本均受到来自同一样本的污染,则无法判断样本是否污染。本实施例中,利用conpair评估污染情况的结果如表3所示:
[0108]
表3conpair评估污染情况
[0109]
[0110][0111]
然而,使用上述方法,无论样本配对与否,计算cv以及污染predict值可进一步判断样本是否存在污染,结果如表4所示:
[0112]
表4利用cv和predict判断污染情况
[0113]
[0114][0115]
如果predict值低于0.15且cv值小于0.35则可判断样本不存在污染,进一步地,为了样本污染判断更敏感,可结合conpair的预测结果,如果是配对样本,copair的污染比例大于1%则认为样本存在污染,其次,如果样本predict值低于0.15且cv值小于0.35则可判断样本不存在污染。
[0116]
在本发明提及的所有文献都在本技术中引用作为参考,就如同每一篇文献被单独引用作为参考那样。此外应理解,在阅读了本发明的上述讲授内容之后,本领域技术人员可以对本发明作各种改动或修改,这些等价形式同样落于本技术所附权利要求书所限定的范围。

技术特征:


1.一种用于判断样本是否配对和/或是否存在污染的位点的筛选方法,其特征在于,包括以下步骤:s11,获得待判断样本来源物种的突变位点数据;s12,将步骤s1获得的突变位点进行哈代-温伯格定律检验,筛选出符合哈代-温伯格定律检验的突变位点;s13,利用第一体样本测序数据从步骤s2获得的突变位点中筛选出符合以下条件的位点:

在至少20%的样本中检出该突变位点对应的突变型;

在具有该突变位点对应的突变型的样本中,至少70%的样本其突变频率分布于0.4至0.6之间,获得的全部突变位点即为用于判断样本数据是否存在污染的位点。2.根据权利要求1所述的筛选方法,其特征在于,所述待判断样本来源物种是人。3.根据权利要求1或2所述的筛选方法,其特征在于,所述第一体样本的数量不低于100。4.利用权利要求1所述的筛选方法得到的所述待判断样本来源物种为人的位点组合,其特征在于,所述突变位点为snp位点。5.一种判断疾病样本和正常样本是否配对的方法,其特征在于,包括以下步骤:s21,获得待判断疾病样本和正常样本中相关位点的基因型,所述相关位点是利用权利要求1所述的筛选方法获得的;s22,利用公式(2-1)计算待判断疾病样本和正常样本的位点相似性,利用公式(2-2)计算待判断疾病样本和正常样本变异等位基因频率的差异:算待判断疾病样本和正常样本变异等位基因频率的差异:其中,ss表示位点相似性,n表示待判断疾病样本中和正常样本中基因型一致位点数目,n表示所述相关位点的数目,difference表示变异等位基因频率的差异,naf
i
表示正常样本第i位点的变异等位基因频率,taf
i
表示疾病样本第i位点的变异等位基因频率;s23,判断样本是否配对:若疾病样本和正常样本中ss高于0.35且difference低于0.25,则认为是配对样本,否则是非配对样本。6.根据权利要求5所述的判断疾病样本和正常样本是否配对的方法,其特征在于,进一步包括利用conpair判断的步骤。7.一种判断样本数据是否存在污染的方法,其特征在于,包括以下步骤:s31,利用公式(3-1)计算相关位点的变异系数,利用公式(3-2)计算相关位点的变异等位基因频率距离0.5的距离:位基因频率距离0.5的距离:所述相关位点是利用权利要求1所述的筛选方法获得的,公式(3-1)中,cv表示相关位点的变异系数,σ表示所有相关位点的变异等位基因频率
的标准差,μ表示所有相关位点的变异等位基因频率的平均值,公式(3-2)中,het表示所述相关位点变异等位基因频率距离0.5的距离,af
i
表示样本第i位点的变异等位基因频率,n表示所述相关位点的数目;s32,利用公式(3-3)进行计算污染预测值:perdict=coef*het+intercept
ꢀꢀꢀꢀ
(3-3)其中,perdict是指污染预测值,coef是指相关系数,intercept是指截距,所述coeft和intercept是利用第二体样本数据训练得到的,在训练时,将理论污染比作为perdict;s33,判断样本是否存在污染:若样本predict低于0.15且cv值小于0.35,则可判断样本不存在污染,否则样本存在污染。8.根据权利要求7所述的判断样本数据是否存在污染的方法,若待判断样本是配对样本,则在步骤s31之前,首先利用conpair判断样本是否存在污染。9.一种计算机设备,其特征在于,包括:存储器,用于存储计算机程序;处理器,用于执行所述计算机程序时实现如权利要求1至7任一所述方法的步骤。10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1-8任一所述方法的步骤。

技术总结


本发明公开了用于判断样本是否配对和/或是否存在污染的位点及其筛选方法和应用。其中,所述筛选方法包括以下步骤:获得待判断样本来源物种的SNP位点数据;将获得的SNP位点进行HWE检验,筛选出HWE检验的SNP位点;筛选出符合以下条件的位点:


技术研发人员:

严自创 周雍 蔡庆乐 郎秋蕾 张梦莹

受保护的技术使用者:

杭州链康医学检验实验室有限公司

技术研发日:

2022.09.01

技术公布日:

2022/11/25

本文发布于:2024-09-22 04:03:35,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/3/8433.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:样本   位点   所述   突变
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议