基于病人临床症状数据和全外显子组测序数据筛选单基因遗传病致病基因的分析检测系统

著录项
  • CN201711189668.5
  • 20171124
  • CN110021364A
  • 20190716
  • 上海暖闻信息科技有限公司
  • 田卫东;张丰;黎籽秀
  • G16B50/00
  • G16B50/00 G16B40/00 G16B30/10 G16B20/30

  • 上海市黄浦区云南南路118号凯腾大厦3层
  • 上海(31)
  • 北京神州华茂知识产权有限公司
  • 吴照幸
摘要
本发明涉及一种基于病人临床表型信息和全外显子组测序数据的整合来自动筛选单基因病遗传病致病基因的自动化分析系统。本发明系统包含四个自动化分析模块:(1)病人临床报告到标准化表型术语(HPO,人类表型本体)的自动转换;(2)基于病人标准化表型筛选疾病致病基因的自动化分析系统;(3)基于病人全外显子组测序数据筛选疾病致病基因的自动化分析系统;(4)p值整合系统。本发明采用概率模型来计算在给定病人的某个标准表型的情况下其患某个单基因遗传病的概率,并利用计算机统计检验的办法来系统性评估在给定病人的所有标准表型后其可能患某个单基因遗传病的显著程度,从而实现基于临床标准表型筛选候选致病基因的目的。
权利要求

1.一种基于病人临床症状数据和全外显子组测序数据筛选单基因遗传病致病基因的自动分析检测系统,所述系统具有通用的计算机结构,具有通用的CPU、存储器、显示器等常规的计算机硬件设备,以及常规的输入/输出装置,并能运行通行的操作系统以便能接入互联网等网络资源,所述系统的特征在于能运行如下的自动分析检测流程:

(1)将病人临床报告自动转换成标准化表型术语(HPO,人类表型本体)数据;

当输入内容为病人的临床报告等不规范表型术语数据时,本发明所述系统可自动提取报告中关于病人的临床症状数据,并通过自然语言处理等方式将临床症状转换成标准表型术语编号(HPO);

(2)基于病人标准化表型数据自动筛选致病基因;

当输入为病人的标准表型编号集合时,

首先,所述系统对疾病表型数据库(OMIM)中的每一个疾病(暂记作疾病k)及标准表型数据库(HPO)中的每一个表型(暂记作表型a),计算当病人具有表型a时,该病人患疾病k的概率A,概率A经贝叶斯模型推出;

之后,对疾病k,把所有表型按照前述计算得到的概率大小进行排序,得到疾病k特异性表型排序列表。把病人的标准表型编号匹配到该排序列表中,记录病人的每个标准表型的排序,然后利用单侧K-S检验,检验在疾病k中病人表型排序分布的偏向性(趋向于排在前列)。K-S检验的p值越小,则代表病人患疾病k的可能性越大。同时,对所有疾病都按此方法计算K-S检验的p值;

然后,输出p值从小到大排序的所有疾病的排序列表,排名越靠前的疾病则是病人所患疾病的可能性越大;

最后,对OMIM数据库中每一个致病基因(暂记作基因j),寻与其所可能导致的所有疾病在上述列表中中最小的p值,并把该p值赋予基因j。输出所有致病基因根据所得p值的排序列表,p-value越小则说明该基因越有可能是该病人的致病基因;

(3)基于病人全外显子组测序数据自动筛选疾病致病基因;

当输入为病人的全外显子组测序(WES)数据时,所述系统会经过标准流程,通过与参考基因组序列比对,获得病人的变异数据(VCF格式)文件。所述发明所述系统也接受直接输入病人的变异数据(VCF格式)文件;

所述系统还包括有,一变异筛选子系统,用于从病人VCF数据文件自动化筛选候选致病性变异位点;

所述变异筛选子系统,用来执行如下步骤:(a)质量控制;(b)频率筛选;(c)致病性筛选;(d)遗传模式筛选;

之后,所述系统使用上述变异筛选子系统在健康人的变异数据库或内部数据库中筛选每个健康人基因组中的致病性变异位点;针对每个健康人的致病性变异位点,所述系统会计算其在健康人中的频率,并在此基础上,计算致病性变异位点频率的累加概率分布;利用该累加概率分布,推测在病人中筛选得到的致病性变异位点的频率所对应的累加概率,并把其记录为该变异位点的p值。

最后,输出所有筛选位点对应的基因为候选致病基因,并定义其p值为其上的变异位点的p值,并按照p值进行排序,p值越小,则其为致病基因的可能性越大;

所述系统会自动整合从病人表型数据和变异数据分别筛选获得的候选致病基因的p值,并基于p值排序,输出基于病人临床表型和全外显子组测序数据的候选致病基因的排序。p值越小,则该基因为致病基因的可能性越大。

2.根据权利要求1的系统,其特征在于:所述系统采用如下方式来实现病人临床报告到标准化表型术语(HPO,人类表型本体)数据的转换:

首先根据标点符号,将临床报告分割成一系列短语(根据标点)。对于每一个短语,在移除若干无意义词汇后,使用公开的或收费的自然语言处理工具标明词性,将短语划分为几个基础语意单元;

之后,在每个基础语意单元中提取名词以及每个名词前最近的形容词,也即所谓的关键词;随后,在标准表型(HPO)数据库根据每个HPO词条及其同义词,寻其在该基础语意单元内所可匹配的关键词的个数,并保留可匹配该基础语意单元最多关键词的HPO词条;

如一基础语意单元保留了大于一个HPO词条,则检查所保留的HPO词条之间的关系;如其中一HPO词条为另一词条在HPO树状结构的子节点,则仅保留父节点;在其他情况下,首先选择保留最接近HPO树状结构中根节点的HPO词条,然后选择其他所有保留的HPO词条的最近共享父节点作为保留的HPO词条。这样,每个基础语意单元最多保留2个HPO词条;

最后,合并所有基础语意单元所选择的HPO词条,输出作为该临床报告所对应的标准表型(HPO)。

3.根据权利要求1或2系统,其特征在于,所述系统基于病人标准化表型自动筛选疾病致病基因的方法通过如下步骤推导当病人具有表型a时,该病人患疾病k的概率A:

对于疾病k(Disease k),首先定义疾病的精确HPO为在数据库中注释到某个疾病的所有HPO,而且这些HPO之间在HPO树状结构中不能互为父子节点。这样,把OMIM数据库中所有疾病对应的精确HPO的集合称作HPOd;

定义病人的某个表型为HPOa,则概率A可写为条件概率P(Diseasek|HPOa),由贝叶斯公式来计算:

所述联合概率P(Diseasek,HPOa)和P(HPOa)在特定的前提条件下,可简化为如下形式:

其中,P(HPOi)为病人表现出某精确HPOi所定义的表型时的概率,P(Diseasek|HPOi)和P(HPOa|HPOi)分别为当病人表现出某精确HPOi所定义的表型时,所患疾病k或被医生解释为表型HPOa的条件概率。这三个概率可以通过以下公式获得:

其中,Ni是某个精确HPO所注释到的疾病的个数,Na是某个精确HPO在HPO树状结构中的所有祖先节点的个数。

4.根据权利要求1或2的系统,其特征在于,所述系统基于病人标准化表型自动筛选疾病致病基因的方法通过如下步骤来筛选候选致病基因:

当输入为不规范表型术语时,将其转换为标准化表型HPO数据;而当输入为病人的标准化表型编号数据集合时,

首先对所有疾病和所有表型的组合,计算每个组合对应的概率A;

然后,针对特定疾病k,把所有表型HPO按照对应的概率大小进行排序,得到疾病k特异性表型排序列表。把病人的标准表型编号匹配到该排序列表中,记录病人的每个标准表型的排序,再利用单侧K-S检验,检验在疾病k中病人表型排序分布的偏向性(趋向于排在前列)。K-S检验的p值越小,则代表病人患疾病k的可能性越大。对所有疾病都按此方法计算在给定病人标准表型情况下的K-S检验的p值;

之后,输出p值从小到大排序的所有疾病的排序列表,排名越靠前的疾病则是病人所患疾病的可能性越大;

最后,对OMIM数据库中每一个致病基因(暂记作基因j),寻与其所可能导致的所有疾病在上述列表中中最小的p值,并把该p值赋予基因j。输出所有致病基因根据所得p值的排序列表,p-value越小则说明该基因越有可能是该病人的致病基因。

5.根据权利要求1或2的系统,其特征在于,所述系统基于病人全外显子组测序数据自动筛选疾病致病基因的方法,通过如下步骤来从病人变异数据自动筛选候选致病变异位点数据:

所述变异筛选子系统执行以下几个步骤:

首先进行质量控制:所述系统会根据每个变异位点上GATK软件输出的分数、读段的深度、及变异位点的位置和种类来自动筛除质量较低的变异位点数据;

其次,进行频率筛选:所述系统会把每个变异位点与公共数据库以及内部数据库进行比对,计算每个位点在正常人中的分布频率,并自动筛选留下在人中频率属于罕见性的变异位点数据;

再次,进行致病性筛选:所述系统会与公共或商业化的致病性文献数据库进行比对,筛选留下有文献报道的致病性变异位点数据。同时,所述系统还会使用变异注释软件来自动筛选留下被这些软件注释为潜在致病性的变异位点;

最后,进行遗传模式筛选:在有患者父母的变异数据的基础上,所述发明系统还会自动检查每个变异位点的遗传模式,筛除不符合遗传模式的变异位点。经该变异筛选模块处理后,每个病人会输出约一百多候选致病性变异位点。

6.根据权利要求1或5系统,其特征在于,所述系统基于病人全外显子组测序数据自动筛选疾病致病基因的方法通过如下步骤实现:

首先,当输入为病人的全外显子组测序(WES)数据时,所述系统会经过标准流程,通过与参考基因组序列比对,获得病人的变异数据(VCF格式)文件数据。所述发明所述系统也接受直接输入病人的变异数据(VCF格式)文件数据;

之后,在输入病人变异数据后,本发明所述系统会利用所述变异筛选子系统从病人变异数据中自动化筛选候选致病性变异位点;

然后,本发明所述系统会应用上述的自动化变异筛选模块在健康人的变异数据库或内部数据库,筛选每个健康人基因组中的致病性变异位点。针对每个健康人致病性变异位点,本发明所述系统会计算其在健康人中的频率,并在此基础上,计算致病性变异位点频率的累加概率分布。然后再利用该累加概率分布,推测在病人中筛选得到的致病性变异位点的频率所对应的累加概率,并把其记录为该变异位点的p值;

最后,输出所有筛选位点对应的基因为候选致病基因,并定义其p值为其上的变异位点的p值,并按照p值进行排序,p值越小,则其为致病基因的可能性越大。

7.根据权利要求1或6系统,其特征在于,所述发明系统对基于病人标准表型所得的候选致病基因的p值及基于病人全外显子组测序数据所得的候选疾病致病基因的p值通过如下步骤进行整合:

首先,如其中一个p值为1,则最终p值定义为1;

其次,如两个p值都不为一,则使用Fisher方法对p值进行整合。具体公式为t=-2ln(p1)-2ln(p2)。该t值服从自由度为4的卡方分布,最终的p值可从卡方检验获得;

最后,输出基于整合p值的候选基因排序列表。p值越小,则该基因为致病基因的可能性越大。

说明书
技术领域

本发明涉及计算机数据处理领域,具体涉及电子数据的查询以及数据加工、处理领域。更具体地涉及在临床诊断实践中应用基于病人临床表型信息和全外显子组测序数据的整合来自动筛选单基因病遗传病致病基因,是一种用计算机技术查询、处理基于概率模型的计算机程序并将其应用在在临床医学研究、实践中的典型应用。

分子生物学的快速发展与人类基因组计划的实施,使人们对遗传病的认识达到前所未有的高度越来越多的疾病被证实与遗传相关包括许多危害人类健康的常见病如心脑血管疾病、高血压、癌症等。临床医学与分子遗传学相互渗透、相互结合形成了新的分子医学。同时,随着信息科学的发展,计算机在遗传学的发展中起到了不可替代的作用;计算机的应用开辟了一个新的遗传学研究领域;可以说,以网络计算机技术为基础的在线数据库更改变了研究人员、医务人员和公众获得相关遗传数据信息的方式和手段。

单基因遗传病又称孟德尔遗传病,是由一对等位基因控制的疾病或病理性状,人体中只要单个基因发生突变就足以发病的一类遗传性疾病1。目前最广为使用的一类遗传信息数据库之一就是在线人类孟德尔遗传数据库,简称为OMIM(http://omim.org),其存储着孟德尔遗传病的相关信息。具体来说,OMIM是一个关于人类基因和遗传疾病的综合性数据库,其收录了所有的孟德尔遗传性疾病人类基因信息,其中不仅包含了简略描述的各种疾病的临床特征、诊断、与预防信息,还提供了已知有关致病基因的连锁关系、染体定位、功能、动物模型等资料并附有经缜密筛选的相关参考文献;可以说,及时性、权威性、全面性和实用性是OMIM的特点。目前已知的单基因遗传病有 7000多种2,其中有约半数疾病的致病基因已知3。尽管每种单基因遗传病在人中的发病率都很低,但合起来它们可潜在影响约8%的人口,给家庭和社会都带来很大负担4.精确诊断单基因遗传病的致病基因在某些情况下可以带来精准的方案,极大缓解或在一定程度上治愈患者的疾病5。因而,精确诊断单基因遗传病的致病基因在临床实践上具有重大意义和临床价值。

目前,在临床实践上诊断单基因遗传病的方法可分为单基因检测、基因集合检测和全外显子组测序三种手段。前两种方法一般都针对具有特定单基因遗传病或某类单基因遗传病典型临床症状的病人6.,在临床时间上具有一定的局限性。全外显子组测序理论上可适用于任一单基因遗传病,由于其测序成本的迅速降低,现在已成为临床上诊断单基因遗传病,特别是非典型遗传病的主要手段7.无论是那种诊断方法,与病人临床症状的结合都是必须的。这是由于(1)从全外显子组测序数据筛选潜在的致病性变异位点,一般都会获得数百个候选位点8,没有临床症状的结合,无法确定那个位点是致病性位点;(2)在每个健康人的基因组中也存在上百个致病性变异位点8,这更说明了结合临床症状的必要性。

一般情况下,病人的临床症状都是以非标准化语言呈现的。要实现与变异数据的整合,首先需要把非标准化临床症状转化为可被计算机识别的标准化临床表型,如基于人类表型本体论(HPO)数据库所构建的标准化表型术语2。HPO数据库以树状结构存储人类表型(症状) 术语,比如:左心房异常,其父节点为心房异常。该数据库中还存储了每一个表型术语(HPO),其与OMIM数据库中疾病的对应关系。把非标准化临床症状转化为HPO标准化表型可通过医生或遗传分析师阅读临床报告,进行人工操作来实现,也可通过使用计算机工具如 Phenolyzer9等来自动实现。

在有了病人的标准化表型后,可通过与OMIM数据库中定义的每个疾病的标准化表型进行相似性对比,筛选相似性最高的疾病,再通过在OMIM数据库中的疾病-基因关系,挑选候选致病性基因;同时,结合变异数据筛选之后获得候选致病性变异位点,来最终挑选最有可能的致病性基因。目前,已有的方法和工具包括PhenIX5,Exomiser10, Phenomizer11,Phenolyzer9,and Phen-Gen12等。这些方法普遍基于语义学关系来推测病人的标准化表型与OMIM数据库中的疾病之间的相似性,而其中一个关键的步骤是比较两个HPO之间的相关性。这些方法都采用了一种称为MICA(最大信息量祖先节点)的思路。该思路是首先计算每个HPO表型所对应的信息量(一个HPO表型对应的疾病个数越少,则其信息量越大);其次,寻两个HPO表型在HPO树状结构图中的所有共享的祖先节点;然后,根据每个祖先节点的信息量,出信息量最大的祖先节点,作为最大信息量祖先节点-MICA;最后,用MICA的信息量作为两个HPO表型之间的相关性。然而,MICA方法的局限性在于,HPO树状结构图是基于表型在解刨学上的相关性而建立的,而与表型在病理上的相关性不一定有直接关系。例如,利用MICA 的IC的方法,HP:0011537(左心房异常)和HP:0011536(右心房异常)有较高的相似度打分,这主要是因为他们的MICA(HP:0011535,心房异常)有高的IC值,然而这两个HPO对应的表征虽然在解刨学上紧密相关(左、右心房),但其所对应的致病基因确完全不同(致病基因分别为CFC1和GDF1)。因而,利用MICA的方法会有可能会导致发现病理不同但解剖上相近的两个表征具有高度的相似性,从而导致假阳性的诊断结果。

本发明系统采取了完全不同于现有方法的技术实现方式,其通过采用概率模型来计算在给定病人的某个标准表型的情况下其患某个单基因遗传病的概率,并利用计算机统计检验的办法来系统性评估在给定病人的所有标准表型后其可能患某个单基因遗传病的显著程度,从而实现基于临床标准表型筛选候选致病基因的目的。同时,本发明所涉及的检测系统还包含了一个从临床病例报告到标准化表型的自动转换子系统,一个从病人全外显子组测序数据自动筛选候选致病变异位点的子系统,及一个整合临床表型筛选结果和全外显子组数据筛选结果的整合子系统,达到了从病人临床表型和全外显子组测序数据出发到自动输出候选致病基因排序的目的,从而为单基因遗传病致病基因的诊断的相关医护、研究以及其他相关人员提供了一种高效、实用、快捷的自动化分析系统。

参考文献:

1.Jamuar,S.S.,and Tan,E.C.(2015).Clinical application of next-generation sequencing for Mendelian diseases.Human genomics 9,10.

2.Kohler,S.,Doelken,S.C.,Mungall,C.J.,Bauer,S.,Firth, H.V.,Bailleul-Forestier,I.,Black,G.C.,Brown,D.L., Brudno,M.,Campbell,J.,et al.(2014).TheHuman Phenotype Ontology project:linking molecular biology and diseasethrough phenotype data.Nucleic acids research 42, D966-974.

3.Boycott,K.M.,Vanstone,M.R.,Bulman,D.E.,and MacKenzie, A.E.(2013).Rare-disease genetics in the era of next-generation sequencing:discovery totranslation. Nat Rev Genet 14,681-691.

4.Shashi,V.,McConkie-Rosell,A.,Rosell,B.,Schoch,K., Vellore,K.,McDonald,M.,Jiang,Y.H.,Xie,P.,Need,A., and Goldstein,D.B.(2014).The uti lityof the traditional medical genetics diagnostic evaluation in the context ofnext-generation sequencing for undiagnosed genetic disorders.Genet Med 16,176-182.

5.Zemojtel,T.,Kohler,S.,Mackenroth,L.,Jager,M.,Hecht, J.,Krawitz,P.,Graul-Neumann,L.,Doelken,S.,Ehmke, N.,Spielmann,M.,et al.(2014).Effectivediagnosis of genetic disease by computational phenotype analysis of thedisease-associated genome.Science translational medicine 6,252ra123.

6.Yu,Y.,Wu,B.L.,Wu,J.,and Shen,Y.(2012).Exome and whole-genomesequencing as clinical tests:a transformative practice in moleculardiagnostics.Clin Chem 58,1507-1509.

7.Soden,S.E.,Saunders,C.J.,Willig,L.K.,Farrow,E.G., Smith,L.D.,Petrikin,J.E.,LePichon,J.B.,Miller,N.A., Thiffault,I.,Dinwiddie,D.L.,et al.(2014). Effectiveness of exome and genome sequencing guided by acuity ofillness for diagnosis of neurodevelopmental disorders.Sci Transl Med 6,265ra168.

8.MacArthur,D.G.,Balasubramanian,S.,Frankish,A.,Huang, N.,Morris,J.,Walter,K.,Jostins,L.,Habegger,L., Pickrell,J.K.,Montgomery,S.B.,et al.(2012).A systematic survey of loss-of-function variants in human protein-codinggenes.Science 335,823-828.

9.Yang,H.,Robinson,P.N.,and Wang,K.(2015).Phenolyzer: phenotype-basedprioritization of candidate genes for human diseases.Nat Methods 12,841-843.

10.Robinson,P.N.,Kohler,S.,Oellrich,A.,Sanger Mouse Genetics,P.,Wang,K.,Mungall,C.J.,Lewis,S.E., Washington,N.,Bauer,S.,Seelow,D.,et al.(2014).Improved exome prioritization of disease genes through cross-speciesphenotype comparison.Genome research 24, 340-348.

11.Kohler,S.,Schulz,M.H.,Krawitz,P.,Bauer,S.,Dolken, S.,Ott,C.E.,Mundlos,C.,Horn,D.,Mundlos,S.,and Robinson,P.N.(2009).Clinical diagnostics inhuman genetics with semantic similarity searches in ontologies. Americanjournal of human genetics 85,457-464.

12.Javed,A.,Agrawal,S.,and Ng,P.C.(2014). Phen-Gen:combiningphenotype and genotype to analyze rare disorders.Nat Methods 11,935-937.

本发明涉及一种基于病人临床症状数据和全外显子组测序数据筛选单基因遗传病致病基因的自动分析检测系统,所述系统具有通用的计算机结构,具有通用的CPU、存储器、显示器等常规的计算机硬件设备,以及常规的输入/输出装置,并能运行通行的操作系统以便能接入互联网等网络资源,所述系统的特征在于能运行如下的自动分析检测流程:

(1)将病人临床报告自动转换成标准化表型术语(HPO,人类表型本体)数据;

当输入内容为病人的临床报告等不规范表型术语数据时,本发明所述系统可自动提取报告中关于病人的临床症状数据,并通过自然语言处理等方式将临床症状转换成标准表型术语编号 (HPO);

(2)基于病人标准化表型数据自动筛选致病基因;

当输入为病人的标准表型编号集合时,

首先,所述系统对疾病表型数据库(OMIM)中的每一个疾病 (暂记作疾病k)及标准表型数据库(HPO)中的每一个表型(暂记作表型a),计算当病人具有表型a时,该病人患疾病k的概率 A,概率A经贝叶斯模型推出;

之后,对疾病k,把所有表型按照前述计算得到的概率大小进行排序,得到疾病k特异性表型排序列表。把病人的标准表型编号匹配到该排序列表中,记录病人的每个标准表型的排序,然后利用单侧K-S检验,检验在疾病k中病人表型排序分布的偏向性 (趋向于排在前列)。K-S检验的p值越小,则代表病人患疾病k 的可能性越大。同时,对所有疾病都按此方法计算K-S检验的p 值;

然后,输出p值从小到大排序的所有疾病的排序列表,排名越靠前的疾病则是病人所患疾病的可能性越大;

最后,对OMIM数据库中每一个致病基因(暂记作基因j), 寻与其所可能导致的所有疾病在上述列表中中最小的p值,并把该p值赋予基因j。输出所有致病基因根据所得p值的排序列表, p-value越小则说明该基因越有可能是该病人的致病基因;

(3)基于病人全外显子组测序数据自动筛选疾病致病基因;

当输入为病人的全外显子组测序(WES)数据时,所述系统会经过标准流程,通过与参考基因组序列比对,获得病人的变异数据(VCF格式)文件。所述发明所述系统也接受直接输入病人的变异数据(VCF格式)文件;

所述系统还包括有,一变异筛选子系统,用于从病人VCF数据文件自动化筛选候选致病性变异位点;

所述变异筛选子系统,用来执行如下步骤:(a)质量控制; (b)频率筛选;(c)致病性筛选;(d)遗传模式筛选;

之后,所述系统使用上述变异筛选子系统在健康人的变异数据库或内部数据库中筛选每个健康人基因组中的致病性变异位点;针对每个健康人的致病性变异位点,所述系统会计算其在健康人中的频率,并在此基础上,计算致病性变异位点频率的累加概率分布;利用该累加概率分布,推测在病人中筛选得到的致病性变异位点的频率所对应的累加概率,并把其记录为该变异位点的p值。

最后,输出所有筛选位点对应的基因为候选致病基因,并定义其p值为其上的变异位点的p值,并按照p值进行排序,p值越小,则其为致病基因的可能性越大;

所述系统会自动整合从病人表型数据和变异数据分别筛选获得的候选致病基因的p值,并基于p值排序,输出基于病人临床表型和全外显子组测序数据的候选致病基因的排序。p值越小,则该基因为致病基因的可能性越大。

图1是本发明系统所述的一种基于病人临床症状和全外显子组测序数据筛选单基因遗传病致病基因的自动化分析系统流程图。

本发明所述系统是一种基于病人临床症状数据和全外显子组测序数据筛选单基因遗传病致病基因的分析检测系统。所述系统具有通用的计算机结构,具有通用的CPU、存储器、显示器等常规的计算机硬件设备,以及常规的输入/输出装置,并能运行通行的操作系统以便能接入互联网等网络资源,所述系统的特征在于能运行如下的分析检测流程:(1)病人临床报告到标准化表型术语(HPO,人类表型本体)的自动转换;(2)基于病人标准化表型筛选疾病致病基因的自动化分析系统;(3)基于病人全外显子组测序数据筛选疾病致病基因的自动化分析系统;(4)p值整合系统。

以下,分别说明这四个分析检测流程的具体实施步骤。

(1)将病人临床报告自动转换成标准化表型术语(HPO,人类表型本体)数据;

首先,根据标点符号,将临床报告分割成一系列短语(根据标点)。对于每一个短语,在移除若干无意义词汇后,使用公开的或收费的自然语言处理工具标明词性,将短语划分为几个基础语意单元;

之后,在每个基础语意单元中提取名词以及每个名词前最近的形容词,也即所谓的关键词;随后,在标准表型(HPO)数据库根据每个HPO词条及其同义词,寻其在该基础语意单元内所可匹配的关键词的个数,并保留可匹配该基础语意单元最多关键词的HPO词条;

如一基础语意单元保留了大于一个HPO词条,则检查所保留的 HPO词条之间的关系;如其中一HPO词条为另一词条在HPO树状结构的子节点,则仅保留父节点;在其他情况下,首先选择保留最接近 HPO树状结构中根节点的HPO词条,然后选择其他所有保留的HPO词条的最近共享父节点作为保留的HPO词条。这样,每个基础语意单元最多保留2个HPO词条;

最后,合并所有基础语意单元所选择的HPO词条,输出作为该临床报告所对应的标准表型(HPO)。

(2)基于病人标准化表型筛选疾病致病基因的分析流程

当输入内容为病人的标准表型编号集合时,

首先,本发明所述系统对疾病表型数据库(OMIM)中的每一个疾病(暂记作疾病k)及标准表型数据库(HPO)中的每一个表型(暂记作表型a),计算当病人具有表型a时,该病人患疾病k的概率A。概率A经贝叶斯模型推出。其具体计算如下:

对于疾病k(Disease k),首先定义疾病的精确HPO为在数据库中注释到某个疾病的所有HPO,而且这些HPO之间在HPO树状结构中不能互为父子节点。这样,把OMIM数据库中所有疾病对应的精确 HPO的集合称作HPOd。

定义病人的某个表型为HPOa,则概率A可写为条件概率 P(Diseasek|HPOa),由贝叶斯公式来计算:

所述联合概率P(Diseasek,HPOa)和P(HPOa)在特定的前提条件下,可简化为如下形式:

其中,P(HPOi)为病人表现出某精确HPOi所定义的表型时的概率,P(Diseasek|HPOi)和P(HPOa|HPOi)分别为当病人表现出某精确HPOi所定义的表型时,所患疾病k或被医生解释为表型HPOa的条件概率。这三个概率可以通过以下公式获得:

其中,Ni是某个精确HPO所注释到的疾病的个数,Na是某个精确HPO在HPO树状结构中的所有祖先节点的个数。

之后,对疾病k,把所有表型按照前述计算得到的概率大小进行排序,得到疾病k特异性表型排序列表。把病人的标准表型编号匹配到该排序列表中,记录病人的每个标准表型的排序,然后利用单侧 K-S检验,检验在疾病k中病人表型排序分布的偏向性(趋向于排在前列)。K-S检验的p值越小,则代表病人患疾病k的可能性越大。同时,对所有疾病都按此方法计算K-S检验的p值。

然后,输出p值从小到大排序的所有疾病的排序列表,排名越靠前的疾病则是病人所患疾病的可能性越大;

最后,对OMIM数据库中每一个致病基因(暂记作基因j),寻与其所可能导致的所有疾病在上述列表中中最小的p值,并把该p值赋予基因j。输出所有致病基因根据所得p值的排序列表,p-value 越小则说明该基因越有可能是该病人的致病基因。

(3)基于病人全外显子组测序数据筛选疾病致病基因的分析检测流程

当输入为病人的全外显子组测序(WES)数据时,所述发明系统会经过标准流程,通过与参考基因组序列比对,获得病人的变异数据 (VCF格式)数据文件。所述发明所述系统也接受直接输入病人的变异数据(VCF格式数据文件。

首先,本发明所述系统包括一变异筛选子系统,用于从病人VCF 文件自动化筛选候选致病性变异位点。所述变异筛选子系统用于执行如下步骤:(a)质量控制;(b)频率筛选;(c)致病性筛选; (d)遗传模式筛选。具体步骤如下:首先进行质量控制:所述发明系统会根据每个变异位点上GATK软件输出的分数、读段的深度、及变异位点的位置和种类来自动筛除质量较低的变异位点。其次,进行频率筛选:所述发明系统会把每个变异位点与dbSNP、1000Genome、 ExAC等公共数据库以及内部数据库进行比对,计算每个位点在正常人中的分布频率,并自动筛选留下在人中频率属于罕见性的变异位点。再次,进行致病性筛选:所述发明系统会与HGMD、ClinVar、 OMIM、ACMG等公共或商业化的致病性文献数据库进行比对,筛选留下有文献报道的致病性变异位点。同时,所述发明系统还会使用ANNOVAR、VEP等变异注释软件来自动筛选留下被这些软件注释为潜在致病性的变异位点。最后,进行遗传模式筛选:在有患者父母的变异数据的基础上,所述发明系统还会自动检查每个变异位点的遗传模式,筛除不符合遗传模式的变异位点。

经该变异筛选系统处理后,每个病人会输出约一百多候选致病性变异位点。

之后,本发明所述系统会应用上述的自动化变异筛选系统在健康人的变异数据库如1000Genome或内部数据库,筛选每个健康人基因组中的致病性变异位点。针对每个健康人的致病性变异位点,本发明所述系统会计算其在健康人中的频率,并在此基础上,计算致病性变异位点频率的累加概率分布。利用该累加概率分布,推测在病人中筛选得到的致病性变异位点的频率所对应的累加概率,并把其记录为该变异位点的p值。

最后,输出所有筛选位点对应的基因为候选致病基因,并定义其 p值为其上的变异位点的p值,并按照p值进行排序,p值越小,则其为致病基因的可能性越大;

(4)p值整合系统

本发明系统会自动整合从病人表型数据和变异数据分别筛选获得的候选致病基因的p值,并基于p值排序,输出基于病人临床表型和全外显子组测序数据的候选致病基因的排序。p值越小,则该基因为致病基因的可能性越大。

首先,如其中一个p值为1,则最终p值定义为1;

其次,如两个p值都不为一,则使用Fisher方法对p值进行整合。具体公式为t=-2ln(p1)-2ln(p2)。该t值服从自由度为4的卡方分布,最终的p值可从卡方检验获得。

最后,输出基于整合p值的候选基因排序列表。p值越小,则该基因为致病基因的可能性越大。

综合以上的论述,采用本发明所述流程的系统相比于现有技术具有更高地效率和更为精确的检测结果,从而能取得更好地临床使用效果。

本文发布于:2024-09-24 18:14:18,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/2/84458.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议