一种基因组拷贝数变异自动化分析系统及方法与流程



1.本发明属于拷贝数变异检测技术领域,具体涉及一种基因组拷贝数变异自动化分析系统及方法。


背景技术:



2.基因组拷贝数变异(copy number variant,cnv)与多种人类疾病相关。全基因组cnv检测已作为临床一线手段用于寻“发育迟缓、智力低下、多发畸形”患儿、反复自然流产患者、以及产前超声提示结构畸形胎儿等病例的遗传学病因。
3.近年来,已发展出多种技术用于cnv的检测,主要包括染体微阵列分析(chromosomal microarray,cma)和基于高通量测序的基因组拷贝数变异检测技术(copy number variation sequencing,cnv-seq)。然而,这些技术所检出的海量cnv给数据分析和遗传咨询都带来了极大的挑战。
4v的数据分析工作十分复杂,常常需要检索多种数据库,如基因组变异数据库(database of genomic variants,dgv)、临床基因组数据库(clinical genome,clingen)、人类在线孟德尔遗传数据库(online mendelian inheritance in man,omim)等,这些数据库手动查询十分繁琐,不同数据库对于cnv的数据提交格式不尽相同,这给cnv数据分析工作带来很大的不便。因此,cnv数据分析自动化软件亟需开发。
5.目前已有4款cnv自动化分析软件,分别是annotsv、x-cnv、classifycnv和autocnv。这些软件在一定程度上可以自动化辅助数据分析,但这些软件也都存在一定的缺陷。annotsv和x-cnv的算法未基于acmg关于cnv致病性评估指南,因此其评估的cnv致病性级别很难直接作为临床医师遗传咨询的依据;classifycnv和autocnv虽然是基于acmg关于cnv致病性评估指南, 但这两款软件仅对于特别明确致病的cnv判读有一定帮助,而遗传数据分析人员对于这些cnv往往已十分熟悉,对于绝大多数需要花时间分析的cnv,这些软件能够提供的帮助十分有限。cnv的分析通常需要查阅文献,而这四款软件均未提供文献检索辅助功能,且这几款软件均只能查询数据库中过往数据,然而在实际的数据分析时分析人员往往需要检索数据库最新信息,特别是clingen数据库的“单倍剂量不足”和“三倍剂量敏感”评分对于cnv的致病性判断尤为关键。


技术实现要素:



6.为达到上述目的,本发明的技术方案如下:一种基因组拷贝数变异自动化分析系统,所述系统包括:信息输入模块,用户根据信息输入模块输入待分析的cnv数据;离线数据库查询模块,用户根据自动解析后的cnv数据相关注释进行离线数据库的本地化查询,并返回相应结果;以及在线数据库查询模块,用户根据自动解析后的cnv数据的类型信息,进行数据库的在线实时查询,并返回相应结果。
7.基于上述技术方案,本方案中提供的一种基因组拷贝数变异自动化分析系统,只需一次性输入cnv信息,便可以自动查询多种cnv数据解读所需的数据库,还可以自动实时查询cnv数据几个常用的关键数据库,以及实时查询文献数据库,该系统可以极大地提升cnv数据分析工作的效率,也能更好地辅助临床医师进行遗传咨询工作。
8.作为本发明的一种改进,所述信息输入模块提供包括分段输入数据递交方式,分段输入数据递交方式用于数据分析人员临时对特定的某个cnv数据进行分析,信息输入模块中,用户通过分段输入数据递交方式提交cnv数据的信息类别包括染体、上游位置、下游位置及拷贝数。
9.作为本发明的一种改进,所述信息输入模块提供还包括iscn(国际人类细胞遗传命名系统)标准格式输入数据递交方式,iscn标准格式输入数据递交方式用于用户现有的iscn标准写法的cnv数据,用户将iscn标准格式的cnv数据粘贴进系统,系统则自动将iscn标准格式的cnv数据分析为分段输入数据递交格式。
10.作为本发明的一种改进,所述离线数据库查询模块中包括dgv数据库、isca数据库、clingen数据库、omim表型数据库、hgmd数据库、clinvar数据库、g2p数据库及genereview数据库。
11.基于上述技术方案,用户提交待分析cnv数据后,系统将自动查询本地mysql数据库,并返回相应的查询结果。本地mysql数据库基于前期已搭建完成的数据集,数据主要来自cnv分析相关数据库,包括dgv、isca、clingen、omim、hgmd、clinvar、g2p、genereview等数据库。mysql数据库定期(3个月)进行更新,以保证数据的时效性。
12.作为本发明的一种改进,所述dgv数据库记录正常人的cnv数据,所述isca数据库记录疾病人中的cnv记录,所述clingen数据库记录待检索区段中是否涉及单倍剂量不足或三倍剂量敏感的基因,所述omim表型数据库记录待检索区段中是否含所述omim数据库中的morbid基因(与人类疾病相关的基因),所述hgmd数据库记录待检索区段中的基因是否含致病性突变及突变的种类,所述clinvar数据库记录待检索区段中的基因是否含致病性突变及突变的种类,所述g2p数据库记录待检索区段中的基因通过何种机制发挥致病作用,所述genereview数据库记录待检索区段中是否有genereview数据库已收录的基因。
13.作为本发明的一种改进,若所述dgv数据库中包含待检索的cnv记录,则其结果被检索出来,若所述isca数据库中有比待检索cnv小的或者相近案例,其结果将被检索出来。
14.作为本发明的一种改进,在所述clingen数据库数据库中,若某个基因的haplo_score(单倍剂量不足评分)结果为sufficient(表示该基因杂合缺失明确致病),则表示该基因为单倍剂量不足致病基因,如果某个基因的triplo_score(三倍剂量敏感评分)结果为sufficient(表示该基因杂合重复明确致病),则表示该基因为三倍剂量敏感致病基因,如果某个基因的haplo_score(单倍剂量不足评分)结果为recessive(表示该基因为隐性基因),则表示该基因为隐性致病基因。
15.作为本发明的一种改进,系统通过pubmed数据库在线实时查询,通过pubmed数据库以“refseq gene and keyword”为关键词进行检索(refseq gene是美国国家生物技术信息中心注释的基因;keyword是根据cnv类型衍生的检索词,若cnv为缺失,则keyword为“deletion”或“loss of function”或“haploinsufficiency”,若cnv为重复,则keyword为“duplication”或“gain of function”或“triplosensitivity”)。
16.作为本发明的一种改进,系统通过驱动浏览器进行自动化在线实时检索cnv分析关键数据库。
17.基于上述技术方案,系统提供了在线数据库查询模块。当用户提交待分析cnv后,系统会解析cnv中包含的refseq gene,并会按照cnv的类型(缺失或重复),依据“refseq gene and keyword”为关键词在pubmed数据库中进行实时查询。此外,软件通过python的selenium库,驱动浏览器进行关键数据库的实时在线自动化检索,从而实时查看待分析cnv相关的注释信息。
18.作为本发明的一种改进,一种基于基因组拷贝数变异自动化分析系统的分析方法,所述方法包括以下步骤:1)用户提交待分析的cnv数据,用户选择分段模式或iscn标准格式输入待分析cnv数据;2)当用户提交待分析cnv后,系统将自动查询本地mysql数据库,并返回相应的查询结果;3)当用户提交待分析cnv后,系统会解析cnv中包含的refseq gene,并会按照cnv的缺失或重复类型信息,依据“refseq gene and keyword关键词在pubmed数据库中进行实时查询或软件通过python的selenium库,驱动浏览器进行关键数据库的实时在线自动化检索。
19.相对于现有技术,本发明的有益效果为:1)本方案中提供的基因组拷贝数变异自动化分析系统,只需一次性输入cnv信息,便可以自动查询多种cnv数据解读所需的数据库,还可以自动实时查询cnv数据几个常用的关键数据库,以及实时查询文献数据库,从而能更好地辅助临床医师进行遗传咨询工作。
20.2)本系统采用自顶向下、逐步求精的结构化的软件设计方法,面向医疗行业,开发目的是实现基因组智能化查询,辅助遗传变异数据分析人员高效地进行cnv数据解读工作,该系统可以极大地提升cnv数据分析工作的效率。
附图说明
21.图1本基因组拷贝数变异自动化分析系统的分析流程图。
22.图2离线数据库查询模块架构图。
23.图3在线数据库查询模块架构图。
24.图4为用户提交cnv数据的两种方式示意图。
25.图5为离线数据库查询界面示意图一(dgv、isca、clingen、omim数据库)。
26.图6为离线数据库查询界面示意图二(hgmd、clinvar、g2p、genereview数据库)。
27.图7为在线数据库查询界面示意图一(pubmed数据库)。
28.图8为在线数据库查询界面示意图二(dgv数据库)。
29.图9为在线数据库查询界面示意图三(decipher数据库-病例查询)。
30.图10为在线数据库查询界面示意图四(decipher数据库-基因查询)。
31.图11为在线数据库查询界面示意图五(clingen数据库)。
32.图12为在线数据库查询界面示意图六(ucsc数据库)。
具体实施方式
33.下面结合附图和具体实施方式,进一步阐明本发明,应理解下述具体实施方式仅用于说明本发明而不用于限制本发明的范围,其中附图中的注释如下:附图注释:【cnv:拷贝数变异;refseq gene:美国国家生物技术信息中心注释的基因;gene:基因名称;deletion:缺失;loss of function:功能丧失;haploinsufficiency:单倍剂量不足;duplication:重复;gain of function:功能获得;triplosensitivity:三倍剂量敏感;python entrez:python中的entrez检索库,可用于pubmed数据库的在线检索;pubmed:美国国立医学图书馆;python selenium:python中的selenium库,用于模拟浏览器进行动态爬虫的一个库;dgv:基因组变异数据库;decipher数据库:疾病相关的cnv数据库;clingen:临床基因组数据库;ucsc:加利福尼亚大学圣克鲁兹分校数据库】。
34.实施例:如图1所示,一种基于基因组拷贝数变异自动化分析系统的分析流程如下:首先启动软件;用户提交待分析的cnv数据;用户选择分段模式输入待分析cnv数据,(如:染体17,上游位置34822465,下游位置36307773,拷贝数1);用户选择cnv数据的iscn标准写法输入待分析cnv数据(如:arr[hg19] 17q12(34822465_36307773)
×
1);软件自动解析输入的cnv数据,并进行cnv数据相关注释数据库的本地化查询;软件自动解析输入的cnv数据,并进行cnv数据相关注释数据库的在线实时查询;软件结束运行。
[0035]
进一步地,如图2和图3所示,基因组拷贝数变异自动化分析系统(以下部分简称系统)包括:信息输入模块,用户根据信息输入模块输入待分析的cnv数据;离线数据库查询模块,用户根据自动解析后的cnv数据相关注释进行离线数据库的本地化查询,并返回相应结果;以及在线数据库查询模块,用户根据自动解析后的cnv数据的类型信息,进行数据库的在线实时查询,并返回相应结果。
[0036]
进一步地,所述信息输入模块提供包括分段输入数据递交方式,分段输入数据递交方式用于数据分析人员临时对特定的某个cnv数据进行分析,信息输入模块中,用户通过分段输入数据递交方式提交cnv数据的信息类别包括染体、上游位置、下游位置及拷贝数。所述信息输入模块提供还包括iscn标准格式输入数据递交方式,iscn标准格式输入数据递交方式用于用户现有的iscn标准写法的cnv数据,用户将iscn标准格式的cnv数据粘贴系统,系统则自动将iscn标准格式的cnv数据分析为分段输入数据递交格式。
[0037]
进一步地,所述离线数据库查询模块中包括dgv数据库、isca数据库、clingen数据库、omim表型数据库、hgmd数据库、clinvar数据库、g2p数据库及genereview数据库。用户提交待分析cnv数据后,系统将自动查询本地mysql数据库,并返回相应的查询结果。本地mysql数据库基于前期已搭建完成的数据集,数据主要来自cnv分析相关数据库,包括dgv、isca、clingen、omim、hgmd、clinvar、g2p、genereview等数据库。mysql数据库定期(3个月)进行更新,以保证数据的时效性。
[0038]
进一步地,用户提交cnv数据:系统提供了两种cnv数据递交格式(输入模式1:分段输入;输入模式2:iscn标准格式输入)(如图4a所示)。分段输入法(如图4b所示)适用于数据分析人员需要临时对特定的某个cnv进行分析时(如在遗传咨询门诊时,患者拿着外院的cnv评估报告,需要本院数据分析人员对该cnv进行再评估),用户只需要分别提交“染体”、“上游位置”、“下游位置”和“拷贝数”即可。iscn标准格式输入法(如图4c所示)适用于用户手头有现成的iscn标准写法的cnv(如刚下机的chas软件生成的cnv),用户可一次性将
iscn标准写法cnv粘贴入系统,系统则会自动将iscn标准写法cnv解析成“分段输入法”的格式,随后进行之后的数据分析。
[0039]
进一步地,所述dgv数据库(如图5a所示)记录的是正常人中的一些cnv,如果这些数据库中有包含待检索cnvs的案例,这些结果将被检索出来。所述isca数据库(如图5b所示)记录的是疾病人中的一些cnvs记录,如果这些数据库中有比待检索cnvs小的或者类似的案例,这些结果将被检索出来。图中显示”empty dataframe”则表示该数据库中无类似cnv。所述clingen数据库(如图5c所示)记录的是待检索区段中是否涉及单倍剂量不足或三倍剂量敏感的基因。在所述clingen数据库中,若某个基因的haplo_score结果为sufficient,则表示该基因为单倍剂量不足致病基因,如果某个基因的triplo_score结果为sufficient,则表示该基因为三倍剂量敏感致病基因,如果某个基因的haplo_score结果为recessive,则表示该基因为隐性致病基因。此外,系统可以查看不同时期clingen数据库的结果,便于数据分析人员掌握某个基因的haplo_score或triplo_score的变化。所述omim表型数据库(如图5d所示)记录待检索区段中是否含omim数据库中的morbid基因,展示的是某个区段中相对更加重要的与某种表型明确相关的基因,某个基因的phenomapkey为1,代表该基因与1种表型相关。某个基因的phenomapkey为3,代表该基因与3种表型相关。所述hgmd数据库(如图6a所示)记录的是待检索区段中的基因是否被hgmd记录,这些基因的一些突变可能与疾病相关。所述clinvar数据库(如图6b所示)记录的是待检索区段中的基因是否被clinvar记录,这些基因的一些突变可能与疾病相关。所述g2p数据库(如图6c所示)记录的是待检索区段中的基因通过何种机制发挥致病作用,如果mutation_consequence为loss of function,则表示该基因是通过“丧失功能”的机制来发挥生物学作用。所述genereview数据库(如图6d所示)记录的是待检索区段中是否有genereview数据库已收录的基因。这些基因的功能或对应的表型研究得已经较为透彻,可以重点参考。
[0040]
进一步地,系统可以进行pubmed数据库在线实时查询:将待检索区段中所有”refseq基因+deletion/duplication”在pubmed数据库中进行实时检索,从而帮助数据分析人员更快地锁定待检索区段中比较重要的基因(如图7所示),进而提高文献检索效率。
[0041]
此外, 系统还可以驱动浏览器进行自动化在线实时检索cnv分析关键数据库(pubmed数据库、dgv数据库、decipher数据库-病例查询、decipher数据库-基因查询、clingen数据库、ucsc数据库)(如图8-12所示)。 由于数据分析人员在出具报告前,往往需要查看一些数据库的最新数据,倘若数据分析人员手动进行这些数据库的在线查询,由于各数据库对于cnv的提交格式不尽相同,工作效率将十分低下。本系统将python的selenium库与cnv信息结合,用户只需要输入一次cnv信息,便可以实时查看相关数据库信息。
[0042]
需要说明的是,以上内容仅仅说明了本发明的技术思想,不能以此限定本发明的保护范围,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰均落入本发明权利要求书的保护范围之内。

技术特征:


1.一种基因组拷贝数变异自动化分析系统,其特征在于,所述系统包括:信息输入模块,用户根据信息输入模块输入待分析的cnv数据;离线数据库查询模块,用户根据自动解析后的cnv数据注释进行离线数据库的本地化查询,并返回相应结果;以及在线数据库查询模块,用户根据自动解析后的cnv数据的类型信息进行数据库的在线实时查询,并返回相应结果。2.根据权利要求1所述的一种基因组拷贝数变异自动化分析系统,其特征在于,所述信息输入模块提供包括分段输入数据递交方式,分段输入数据递交方式用于数据分析人员临时对特定的某个cnv数据进行分析,所述信息输入模块中用户通过分段输入数据递交方式提交cnv数据的信息类别包括染体、上游位置、下游位置及拷贝数。3.根据权利要求1所述的一种基因组拷贝数变异自动化分析系统,其特征在于,所述信息输入模块还包括iscn标准格式输入数据递交方式,iscn标准格式输入数据递交方式用于用户现有的iscn标准写法的cnv数据,用户将iscn标准格式的cnv数据粘贴进系统,系统则将iscn标准格式的cnv数据分析为分段输入数据递交格式。4.根据权利要求1所述的一种基因组拷贝数变异自动化分析系统,其特征在于,所述离线数据库查询模块中包括dgv数据库、isca数据库、clingen数据库、omim表型数据库、hgmd数据库、clinvar数据库、g2p数据库及genereview数据库。5.根据权利要求4所述的一种基因组拷贝数变异自动化分析系统,其特征在于,所述dgv数据库记录正常人的cnv数据,所述isca数据库记录疾病人中的cnv记录,所述clingen数据库记录待检索区段中是否涉及单倍剂量不足或三倍剂量敏感的基因,所述omim表型数据库记录待检索区段中是否含所述omim数据库中的morbid基因,所述hgmd数据库记录待检索区段中的基因是否含致病性突变及突变的种类,所述clinvar数据库记录待检索区段中的基因是否含致病性突变及突变的种类,所述g2p数据库记录待检索区段中的基因通过何种机制发挥致病作用,所述genereview数据库记录待检索区段中是否有genereview数据库已收录的基因。6.根据权利要求5所述的一种基因组拷贝数变异自动化分析系统,其特征在于,若所述dgv数据库中包含待检索的cnv记录,则其结果被检索出来,若所述isca数据库中有比待检索cnv数据小的或者相近案例,其结果将被检索出来。7.根据权利要求5所述的一种基因组拷贝数变异自动化分析系统,其特征在于,在所述clingen数据库中,若某个基因的haplo_score结果为sufficient,则表示该基因为单倍剂量不足致病基因,如果某个基因的triplo_score结果为sufficient,则表示该基因为三倍剂量敏感致病基因,如果某个基因的haplo_score结果为recessive,则表示该基因为隐性致病基因。8.根据权利要求1所述的一种基因组拷贝数变异自动化分析系统,其特征在于,系统通过pubmed数据库在线实时查询,通过pubmed数据库对待检索区段中所有refseq 基因进行检索。9.根据权利要求1所述的一种基因组拷贝数变异自动化分析系统,其特征在于,所述系统通过驱动浏览器进行自动化在线实时检索cnv数据分析关键数据库。10.一种基于权利要求1至9任意一项所述系统的基因组拷贝数变异自动化分析方法,
其特征在于,所述方法包括以下步骤:1)用户提交待分析的cnv数据,用户选择分段模式或iscn标准格式输入待分析cnv数据;2)当用户提交待分析cnv数据后,系统将自动查询本地mysql数据库,并返回相应的查询结果;3)当用户提交待分析cnv数据后,系统会解析cnv数据中包含的refseq基因,并会按照cnv数据的缺失或重复类型信息,在pubmed数据库中进行实时查询或通过python的selenium库,驱动浏览器进行关键数据库的实时在线自动化检索。

技术总结


本发明公开了一种基因组拷贝数变异自动化分析系统,所述系统包括:信息输入模块,用户根据信息输入模块输入待分析的CNV数据;离线数据库查询模块,用户根据自动解析后的CNV数据相关注释进行离线数据库的本地化查询,并返回相应结果;以及在线数据库查询模块,用户根据自动解析后的CNV数据的类型信息,进行数据库的在线实时查询,并返回相应结果,本系统采用自顶向下、逐步求精的结构化的软件设计方法,面向医疗行业,开发目的是实现基因组智能化查询,辅助遗传变异数据分析人员高效地进行CNV数据解读工作,该系统可以极大地提升CNV数据分析工作的效率。据分析工作的效率。


技术研发人员:

周冉 王艳 胡平 许争峰

受保护的技术使用者:

南京市妇幼保健院

技术研发日:

2022.08.05

技术公布日:

2022/11/18

本文发布于:2024-09-20 13:36:24,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/1/3495.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:数据库   数据   基因   所述
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议