一种基于NGS扩增子测序技术的IGH超突变检测方法及系统与流程


一种基于ngs扩增子测序技术的igh超突变检测方法及系统
技术领域
1.本技术涉及生信分析技术领域,具体涉及一种基于ngs扩增子测序技术的igh超突变检测方法及系统。
技术背景
2.igh超突变(somatic hyper mutation,shm)是指b淋巴细胞在外界抗原的刺激下,ighv基因发生的体细胞高频突变。其发生于b淋巴细胞成熟之后,突变频率高,一般定义为发生重排的v基因与胚系参考v基因片段的差异大于或等于2%,低于2%认为没有发生超突变。igh超突变作为慢性淋巴细胞白血病和淋巴瘤的预后指标,在国际cll-ipi评分系统和iwcll诊疗指南中被推荐为必检指标。
3.在b淋巴细胞的生长发育过程中,要经历重链的v/d/j基因重排和轻链的v/j基因重排。重排过程中会随机选择基因的重排片段,产生10
8-10
10
种免疫球蛋白分子;此外igh超突变、重链和轻链的相互组合又会进一步增加抗体的多样性。这些基因重排在每个细胞中的长度和序列都是独一无二的。多重pcr实验以免疫球蛋白基因内的保守区域为捕获靶点,使用一系列已知序列的混合引物对,来识别细胞内特异的基因重排,并以此鉴别源自单个细胞的b淋巴细胞落。
4.为了检测igh vdj基因重排,一般思路是在ighv基因的多个保守区域(fr1、fr2、fr3)和ighj基因的末端区域设计引物与目标序列结合。fr2/fr3区域设计引物获取的目标片段较短,特异性低,会导致无法对重排后的片段进行准确分型。在igh超突变的检测过程,通常选取leader或fr1区域设计引物与其结合。igh超突变检测所需分辨率高,fr1区域无法覆盖完整的v基因区域,超突变比例因此会受到影响。leader区的引物虽然可以覆盖完整的v区,但目标片段偏长;结合igh各个基因的位置分布(图1)可以发现,leader/fr1区与j区距离较远,ngs常规测序方式无法获取完整的igh-vdj重排片段。
5.综上所述,igh超突变的检测会受到引物设计位置、测序读长等多种因素影响;鉴于此,提出本技术。本技术基于leader-j和fr1-j区域的引物对,结合ngs-pe250的测序技术平台,开发了一种igh超突变的检测方法。在保证igh超突变检测准确性的同时,大大降低实验成本,有利于常规临床检测的普及和应用。


技术实现要素:



6.为解决上述技术问题,本技术巧妙设计扩增方式和测序方式,通过leader-j、fr1-j两组pcr扩增引物对及pe250测序方式,采用碎片化有序连接的方式完成igh-vdj全长序列的组装,进一步比对计算得到准确的克隆分型和超突变比例。
7.具体的,本技术提出如下技术方案:
8.本技术首先提供一种基于ngs扩增子测序技术的igh超突变的序列处理方法,所述方法包括如下步骤:
9.1)使用leader-j引物对和fr1-j引物对分别对同一样本进行扩增建库,分别ngs测
序获得原始下机数据;
10.2)下机数据过滤低质量reads;优选的,进一步去除接头序列;
11.3)过滤非特异性扩增片段,同时将测序数据归类至相应引物类别;
12.4)切除插入片段中5’端pcr扩增引物;
13.5)对4)处理后的测序序列进行对比和拼接,得到fr1-j间完整的扩增序列mergefr1,和leader-j引物对扩增的上游序列leader-r1和下游序列leader-r2;
14.6)分别对fr1-j间完整的扩增序列mergefr1和leader-j引物对扩增的下游序列leader-r2进行无监督聚类;
15.7)聚类后基于二者序列间overlap的相似性评分,完成全长目标序列组装。
16.进一步的,所述步骤1)中,所述扩增建库具体为:选取fr1及j端保守区域设计多重pcr引物fr1-j引物对,扩增cdr3区域的全长、j区以及部分v区的序列;选取leader区域与j端保守区域设计多重pcr引物对leader-j引物对,补充扩增leader与fr1之间序列间隔;使用leader-j引物对和fr1-j引物对分别对同一样本进行扩增并进行文库构建。
17.进一步的,所述步骤1)中,所述ngs测序为ngs-pe250技术平台测序。
18.进一步的,所述步骤3)中,所述过滤非特异性扩增的片段具体为:测序序列与各自引物序列比对,设置相关比对阈值,过滤非特异性扩增的片段。
19.进一步的,所述步骤3)进一步包括:计算引物特异性扩增reads比例,评估引物扩增效率和实验数据的有效比例。
20.进一步的,所述步骤5)中,所述拼接具体为:fr1-j引物对的pcr扩增产物序列短,测序得到的r1与r2之间存在overlap,拼接完成后得到fr1-j间完整的扩增序列mergefr1;leader-j引物对间距离远,上下游序列无overlap,无法对其进行拼接,仍为独立的上下游序列leader-r1和leader-r2。
21.进一步的,所述步骤7)具体为:聚类后,取mergefr1聚类结果中序列数占比高于5%的聚类、leader-r2聚类结果中序列数占比高于5%的聚类,基于二者序列间overlap的相似性评分,完成全长目标序列组装。
22.本技术还提供一种基于ngs扩增子测序技术的igh超突变的检测方法,包括上述任一所述的序列处理方法,并进一步包括如下步骤:
23.8)将组装完成的序列分别比对至igmt数据库中igh-vdj胚系基因片段,根据比对结果,统计各克隆的占比,确定优势克隆;计算优势克隆中v基因序列差异比例,判定超突变状态。
24.本技术还提供一种电子设备,包括:处理器和存储器;所述处理器和存储器相连,其中,所述存储器用于存储计算机程序,所述处理器用于调用所述计算机程序,以执行如上述任一项所述的方法。
25.本技术还提供一种计算机存储介质,所述计算机存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时,执行如上述任一项所述的方法。
26.本技术至少具有如下有益技术效果:
27.1)本技术首次开发出一种基于ngs扩增子测序技术平台的igh超突变检测方法。
28.2)本技术巧妙设计扩增方式,选择特定测序手段,同时选取相应组装测序,实现了
通过碎片化有序连接的方法,有效解决了igh超突变在常规测序平台上无法获取全长重排序列的难点。
附图说明
29.图1、igh各区域间的距离分布;
30.图2、数据分析流程图;
31.图3、测序数据碎片化有序连接获取目标序列全长;
32.图4、组装后序列与igmt数据库中igh-vdj胚系基因片段比对结果;
33.图5、pe250组装的优势序列超突变比例与临床超突变比例相关性。
具体实施方式
34.下面将结合实施例对本技术的实施方案进行详细描述,但是本领域技术人员将会理解,下列实施例仅用于说明本技术,而不应视为限制本技术的范围。实施例中未注明具体条件者,按照常规条件或制造商建议的条件进行。所用试剂或仪器未注明生产厂商者,均为可以通过市场购买获得的常规产品。
35.部分术语定义
36.除非在下文中另有定义,本技术具体实施方式中所用的所有技术术语和科学术语的含义意图与本领域技术人员通常所理解的相同。虽然相信以下术语对于本领域技术人员很好理解,但仍然阐述以下定义以更好地解释本技术。
37.如本技术中所使用,在提及单数形式名词时使用的不定冠词或定冠词例如“一个”或“一种”,“所述”,包括该名词的复数形式。
38.如本技术中所使用,术语“包括”、“包含”、“具有”、“含有”或“涉及”为包含性的(inclusive)或开放式的,且不排除其它未列举的元素或方法步骤。术语“由

组成”被认为是术语“包含”的优选实施方案。如果在下文中某一组被定义为包含至少一定数目的实施方案,这也应被理解为揭示了一个优选地仅由这些实施方案组成的组。
39.本技术中的术语“大约”表示本领域技术人员能够理解的仍可保证论及特征的技术效果的准确度区间。该术语通常表示偏离指示数值的
±
10%,优选
±
5%。
40.此外,说明书和权利要求书中的术语第一、第二、第三、(a)、(b)、(c)以及诸如此类,是用于区分相似的元素,不是描述顺序或时间次序必须的。应理解,如此应用的术语在适当的环境下可互换,并且本技术描述的实施方案能以不同于本技术描述或举例说明的其它顺序实施。
41.以上术语或定义仅仅是为了帮助理解本技术而提供。这些定义不应被理解为具有小于本领域技术人员所理解的范围。
42.本技术的基于ngs扩增子测序技术的igh超突变的检测方法,是基于特定的引物设计思路,结合特定的测序手段,并匹配相应的序列组装策略,实现碎片化有序连接,进而完成igh-vdj全长序列组装,进一步通过比对计算得到准确的克隆分型和超突变比例。
43.大体方法包括如下步骤:
44.1)使用leader-j引物对和fr1-j引物对分别对同一样本进行扩增建库,分别ngs测序获得原始下机数据;2)下机数据过滤低质量reads;3)过滤非特异性扩增片段,同时将测
序数据归类至相应引物类别;4)切除插入片段中5’端pcr扩增引物;5)对4)处理后的测序序列进行对比和拼接,得到fr1-j间完整的扩增序列mergefr1,和leader-j引物对扩增的上游序列leader-r1和下游序列leader-r2;6)分别对fr1-j间完整的扩增序列mergefr1和leader-j引物对扩增的下游序列leader-r2进行无监督聚类;7)聚类后基于二者序列间overlap的相似性评分,完成全长目标序列组装;8)将组装完成的序列分别比对至igmt数据库中igh-vdj胚系基因片段,根据比对结果,统计各克隆的占比,确定优势克隆;计算优势克隆中v基因序列差异比例,判定超突变状态。
45.在一些实施方式中,所述步骤1)中,所述扩增建库可以为:经过综合评估序列地保守型和可及性问题,选取fr1及j端保守区域设计多重pcr引物fr1-j引物对,扩增cdr3区域的全长、j区以及部分v区的序列;选取leader区域与j端保守区域设计多重pcr引物对leader-j引物对,补充扩增leader与fr1之间序列间隔;扩增后进行文库构建。
46.在一些实施方式中,所述步骤1)中,所述ngs测序优选为ngs-pe250技术平台测序,进而能够满足上述扩增子的测序。
47.在一些实施方式中,所述步骤2)中,进一步去除接头序列步骤;
48.在一些实施方式中,所述步骤3)中,所述过滤非特异性扩增的片段可以为:测序序列与各自引物序列比对,设置相关比对阈值,过滤非特异性扩增的片段。
49.在一些实施方式中,所述步骤3)可进一步包括:计算引物特异性扩增reads比例,评估引物扩增效率和实验数据的有效比例。
50.在一些实施方式中,所述步骤5)中,所述拼接可以为:fr1-j引物对的pcr扩增产物序列短,测序得到的r1与r2之间存在overlap,拼接完成后得到fr1-j间完整的扩增序列mergefr1;leader-j引物对间距离远,上下游序列无overlap,无法对其进行拼接,仍为独立的上下游序列leader-r1和leader-r2。
51.在一些实施方式中,所述步骤7)可以为:聚类后,取mergefr1聚类结果中序列数占比高于5%的聚类、leader-r2聚类结果中序列数占比高于5%的聚类,基于二者序列间overlap的相似性评分,完成全长目标序列组装。
52.在不脱离本技术设计思路的情况下,相应方法的适当改变都属于本技术的范围。下面结合具体实施例来阐述本技术。
53.实施例1本技术方法构建
54.1、本技术引物及测序方式的选取和设计
55.综合分析vdj重排基因的可变区及保守区的引物可及性,首先选取在fr1及j端的保守区域设计多重pcr引物,用以扩增cdr3区域的全长、j区以及部分v区的序列。其次通过leader区域与j端的引物对,补充leader与fr1之间的序列间隔。
56.fr1-j引物对的扩增产物长度350bp左右,leader引物与fr1引物位置相距190bp左右。根据leader与fr1引物位置之间的距离,以及j的位置情况,综合分析需要使用pe250+组装的策略,才能达到目的,其他测序方式,无法测完全长,因此本技术选取pe250的测序方式,分别对fr1-j的扩增产物、leader-j的扩增产物进行测序。综合两种引物组合的测序数据,分析igh超突变。
57.2、分析方法
58.详细分析方法如图2所示,具体分为以下步骤:
59.1)使用leader-j、fr1-j引物对分别同一样本扩增获取目的片段,并在ngs-pe250平台测序得到原始下机数据;
60.2)下机数据使用分析软件过滤低质量的reads,去除接头序列;
61.3)通过测序序列与各自引物序列比对,设置相关比对阈值,过滤非特异性扩增的大片段,同时将测序数据归类至相应引物类别。计算引物特异性扩增reads的比例,评估引物的扩增效率和实验数据的有效比例。
62.4)使用引物切除软件将插入片段中5’端pcr扩增引物切除;
63.5)采用测序数据拼接软件进行对比、拼接测序序列r1与r2。fr1-j的pcr扩增产物序列短,pe250测序方式得到的r1与r2之间有overlap,拼接完成后可以得到fr1与j之间完整的扩增序列mergefr1(图3)。leader-j引物对之间距离远,r1与r2无overlap,因此该步骤无法对其进行拼接,仍为独立的r1和r2序列(leader-r1,leader-r2),具体参见图3。
64.6)使用序列聚类软件分别对fr1区域与j之间完整的扩增序列mergefr1、leader引物对扩增的下游测序序列(leader-r2)进行无监督聚类。
65.7)聚类完成后,取mergefr1聚类结果中序列数占比高于5%的聚类、leader-r2聚类结果中序列数占比高于5%的聚类,基于二者序列之间的overlap的相似性评分,完成全长目标序列的组装(图3)。
66.8)使用比对软件将组装完成的序列分别比对至igmt数据库中igh-vdj胚系基因片段,根据比对结果,统计各克隆的占比,确定最终优势克隆;并计算优势克隆种v基因序列差异比例是否高于2%,判定超突变状态。
67.实施例2、临床数据验证
68.1)超突变及优势克隆准确性评估
69.选取6例临床优势克隆阳性样本,其中超突变阳性样本3例,超突变阴性样本3例。表1展示了具体的优势克隆分型及超突变状态。
70.以一例超突变阴性样本为例,序列组装如下:将原始测序序列去除接头和引物序列后,详细信息下。fr1-j引物对扩增产物的r1端序列长度227bp,r2端序列长度225bp;leader-j引物对扩增产物的r1端序列长度227bp,r2端序列长度227bp。
[0071][0072]
fr1-j引物对扩增产物的r1与r2之间overlap为164bp,相似性100%;拼接后序列merger1长度288bp。
[0073][0074]
leader-j引物对r2端与merger1序列之间overlap为23bp,相似性100%;组装后完整序列长度为492bp,如下所示:
[0075][0076]
组装后序列与igmt数据库中igh-vdj胚系基因片段进行比对,详细比对结果如图4。v、d、j基因的比对分型分别为ighv3-23*01、ighd3-10*01、ighj4*02。igh超突变比例为1.7%。
[0077]
所有样本分析结果如表1,结果表明,采用本技术pe250组装方式得到的优势克隆序列对应的ighv/d/j基因的分型与临床均一致。而且,根据2%的超突变阈值判断的超突变状态也与临床一致,其超突变比例与临床结果之间的相关性r2为99.52%(图5),二者高度相关。
[0078]
表1优势克隆序列分型及超突变状态
[0079][0080]
最后应说明的是:以上各实施例仅用以说明本技术的技术方案,而非对其限制;尽管参照前述各实施例对本技术进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本技术各实施例技术方案的范围。

技术特征:


1.一种基于ngs扩增子测序技术的igh超突变的序列处理方法,其特征在于,所述方法包括如下步骤:1)使用leader-j引物对和fr1-j引物对分别对同一样本进行扩增建库,分别ngs测序获得原始下机数据;2)下机数据过滤低质量reads;优选的,进一步去除接头序列;3)过滤非特异性扩增片段,同时将测序数据归类至相应引物类别;4)切除插入片段中5’端pcr扩增引物;5)对4)处理后的测序序列进行对比和拼接,得到fr1-j间完整的扩增序列mergefr1,和leader-j引物对扩增的上游序列leader-r1和下游序列leader-r2;6)分别对fr1-j间完整的扩增序列mergefr1和leader-j引物对扩增的下游序列leader-r2进行无监督聚类;7)聚类后基于二者序列间overlap的相似性评分,完成全长目标序列组装。2.根据权利要求1所述的分析方法,其特征在于,所述步骤1)中,所述扩增建库具体为:选取fr1及j端保守区域设计多重pcr引物fr1-j引物对,扩增cdr3区域的全长、j区以及部分v区的序列;选取leader区域与j端保守区域设计多重pcr引物对leader-j引物对,补充扩增leader与fr1之间序列间隔;使用leader-j引物对和fr1-j引物对分别对同一样本进行扩增并进行文库构建。3.根据权利要求1所述的分析方法,其特征在于,所述步骤1)中,所述ngs测序为ngs-pe250技术平台测序。4.根据权利要求1所述的分析方法,其特征在于,所述步骤3)中,所述过滤非特异性扩增的片段具体为:测序序列与各自引物序列比对,设置相关比对阈值,过滤非特异性扩增的片段。5.根据权利要求1所述的分析方法,其特征在于,所述步骤3)进一步包括:计算引物特异性扩增reads比例,评估引物扩增效率和实验数据的有效比例。6.根据权利要求1所述的分析方法,其特征在于,所述步骤5)中,所述拼接具体为:fr1-j引物对的pcr扩增产物序列短,测序得到的r1与r2之间存在overlap,拼接完成后得到fr1-j间完整的扩增序列mergefr1;leader-j引物对间距离远,上下游序列无overlap,无法对其进行拼接,仍为独立的上下游序列leader-r1和leader-r2。7.根据权利要求1所述的分析方法,其特征在于,所述步骤7)具体为:聚类后,取mergefr1聚类结果中序列数占比高于5%的聚类、leader-r2聚类结果中序列数占比高于5%的聚类,基于二者序列间overlap的相似性评分,完成全长目标序列组装。8.一种基于ngs扩增子测序技术的igh超突变的检测方法,其特征在于,包括权利要求1-7任一所述的序列处理方法,并进一步包括如下步骤:8)将组装完成的序列分别比对至igmt数据库中igh-vdj胚系基因片段,根据比对结果,统计各克隆的占比,确定优势克隆;计算优势克隆中v基因序列差异比例,判定超突变状态。9.一种电子设备,其特征在于,包括:处理器和存储器;所述处理器和存储器相连,其中,所述存储器用于存储计算机程序,所述处理器用于调用所述计算机程序,以执行如权利要求1-7任一项所述的方法。10.一种计算机存储介质,其特征在于,所述计算机存储介质存储有计算机程序,所述
计算机程序包括程序指令,所述程序指令当被处理器执行时,执行如权利要求1-7任一项所述的方法。

技术总结


本申请涉及生物信息学领域,具体提供一种基于NGS扩增子测序技术的IGH超突变检测方法及系统,本方法采用碎片化有序连接的方式完成IGH-VDJ全长序列的组装,进一步比对计算得到准确的克隆分型和超突变比例。准确的克隆分型和超突变比例。准确的克隆分型和超突变比例。


技术研发人员:

丁雨 杨雪雨 邓望龙 张超 任用 李诗濛

受保护的技术使用者:

南京先声医学检验实验室有限公司 江苏先声医疗器械有限公司

技术研发日:

2022.09.09

技术公布日:

2022/12/5

本文发布于:2024-09-24 09:26:31,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/2/42386.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:引物   序列   所述   突变
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议