下采样基因组序列数据的制作方法


下采样基因组序列数据


背景技术:



1.本发明一般涉及基因组序列数据领域,并且更具体地涉及下采样脱氧核糖核酸(dna)序列数据。
2.每天对基因组进行测序,其中单个人类基因组可能占据100千兆字节的存储空间,因此,基因组序列数据的存储需求将从千兆字节增长到拍字节(petabyte)到艾字节(exabyte)。此外,对于人类基因组序列的每三十亿个碱基,由于测序、碱基判定和基因组对准中的错误,必须收集30倍增加的数据(大约100千兆碱基)。这意味着2025年仅对人类基因组需要多达2-40个艾字节的存储容量。在数字信号处理中,下采样、压缩和抽取是与多速率数字信号处理系统中的重采样过程相关联的术语。下采样和抽取两者都可以与压缩同义,或者它们可以描述带宽降低(滤波)和采样率降低的整个过程。当对特定信号的采样序列或其它连续函数执行该过程时,下采样产生了通过以较低速率(或密度,如在照片的情况下)对信号进行采样而获得的序列的近似。
3.称为下一代测序(ngs)的大规模平行高通量测序技术的出现已经使生物科学领域发生了革命性变化。ngs的出现导致dna序列数据的量和可用性的增加。超高规模和有效的ngs测序机可以在单次运行中产生超过太字节(terabyte)数据的数十亿短dna读数。将短dna读数存储在fastq文件(千兆字节的纯文本文件)中,fastq文件是fastq格式的文件,其用于广泛的应用,例如基因注释、表达研究、个性化和精确医学。fastq格式是基于文本的格式,用于存储生物序列(通常是核苷酸序列)和其相应的质量评分。为了简洁,序列字母和质量评分都各自用单个美国信息交换标准代码(ascii)字符编码。


技术实现要素:



4.本发明的实施例公开了一种用于使用变分自动编码器对dna序列数据进行自动下采样并保持原始文件的基因组完整性的方法、计算机程序产品和系统,所述方法包括:由编码器对基因组序列数据执行自举以产生重采样;由所述编码器评估所述重采样的非代表性(unrepresentativeness)和自不一致性,并且根据所述评估选择代表性重采样;由修改的编码器基于所选择的代表性采样从基因型似然性构建向量表示;通过分析引擎整合映射位置信息和基因型似然性以识别重采样的最佳向量表示;以及通过修改的解码器对所识别的重采样的最佳向量表示进行解码,以获得与原始文件的基因组完整性相似并维持原始文件的基因组完整性的下采样读数文件。
附图说明
5.图1是示出根据本发明的实施例的分布式数据处理环境的功能框图;
6.图2a示出了根据本发明的实施例的描述下采样组件的框图,该下采样组件在图1的分布式数据处理环境内的服务器计算机上执行,用于使用变分自动编码器对dna序列数据进行下采样;
7.图2b是根据本发明实施例的自举过程的概述的示例;
8.图2c示出了根据本发明实施例的描绘在图1的分布式数据处理环境内用于使用变分自动编码器对dna序列数据进行下采样的生物信息生成的概况的框图;
9.图3示出了根据本发明实施例的在图1的分布式数据处理环境内的计算设备上的下采样组件的操作步骤,该下采样组件用于使用变分自动编码器对dna序列数据进行自动下采样;以及
10.图4描绘了根据本发明的实施例的在图1的分布式数据处理环境内执行下采样组件的服务器计算机的组件的框图。
具体实施方式
11.本发明的实施方式认识到,用于基因组数据分析以及整合和存档dna序列数据的当前方法和系统存在问题。例如,高通量基因组测序固有地产生每个采样含有数百万读数的文件、需要大量计算资源用于储存和处理的文件、以及需要被有效地汇总(例如,下采样)以优化计算效率的采样。本发明的实施例认识到,当前的下采样方法不能维持原始采样的基因组完整性。
12.本领域已知,基因组数据的激增在分析、整合、共享和存档dna序列数据中提出了巨大的挑战。本发明的实施例通过提出一种系统和方法来解决上述问题,该系统和方法用于对fastq文件中的数十亿读数进行下采样,以减小dna读数的文件大小和数量,同时保持原始信息的完整性并避免重要基因组信息的丢失,其中信息的丢失主要归因于基因组变异的丢失,例如编码在过多读数中的结构变异,因而使得能够进行有效和高效的基因组序列数据的下游处理和分析。
13.另外,本发明的实施例使用复合表示来概括基因组信息。本发明的实施方案作为整体考虑基因组序列数据,并将基因组信息(例如基因组序列数据作为整体)转化为保持原始生物信息完整的表示(例如数值向量),其中输入数据来自多个读数的dna测序(例如分析、识别和/或解释多个读数的转化)。在本发明的各种实施方式中,主要捕获并编码到读数中的生物信息是本领域已知的不同类型的变异,例如插入-缺失突变(得失位(indel))、单核苷酸多态性(snp)和/或编码数变异(cnv),其可以用于解释不同的表型。此外,本发明的实施例利用使用自举方法的浅采样来计算代表性和一致性的最小值。在本发明的一些实施方案中,本发明不是集中于单核苷酸多态性(snp)判读,而是在读数内多个位置的基因型似然性评估。本发明的实施例可以使用图形泊松分布来估计基因型似然性。在本发明的各种实施例中,本发明是下采样方法,并且在一些情况下是无对准的。本发明的实施例认识到,当用户(即,研究者)拥有参考基因组并且在大多数情况下参考基因组不完整时对准起作用,从而导致对准依赖于参考基因组(即,对准仅与你的参考一样好)。在本发明的各种实施方案中,本发明集中于在读数内多个位置的基因型似然性评估以用作先验信息而不依赖变异识别技术。
14.本发明的实施例的实现可以采取各种形式,并且随后参考附图(即,图1-图4)讨论示例性实现细节。
15.图1是示出根据本发明一个实施例的分布式数据处理环境的功能框图,通常指定为100。本说明书中使用的术语“分布式”描述了包括多个物理上不同的设备的计算机系统,这些设备作为单个计算机系统一起操作。图1仅提供了一种实现的图示,并且不暗示对其中
可实现不同实施例的环境的任何限制。本领域技术人员可以对所描述的环境进行许多修改,而不偏离权利要求所记载的本发明的范围。分布式数据处理环境100包括通过网络130互连的计算设备110和服务器计算机120。
16.网络130可以是例如存储区域网络(san)、电信网络、局域网(lan)、诸如因特网的广域网(wan)、用于在短距离上交换数据的无线技术(使用来自固定和移动设备的从2.4到2.485ghz的工业、科学和医疗(ism)频带中的短波长超高频(uhf)无线电波,以及建筑物个人区域网络(pan)或这三者的组合),并且可以包括有线、无线或光纤连接。网络130可以包括一个或多个有线和/或无线网络,其可以接收和发送数据、语音和/或视频信号,包括多媒体信号,其包括语音、数据、文本和/或视频数据。通常,网络130可以是支持计算设备110和服务器计算机120以及分布式数据处理环境100内的任何其他计算设备和/或存储设备(图1中未示出)之间的通信的连接和协议的任何组合。
17.在本发明的一些实施例中,计算设备110可以是但不限于独立设备、客户端、服务器、膝上型计算机、平板计算机、上网本计算机、个人计算机(pc)、智能电话、台式计算机、智能电视、智能手表、收音机、立体声系统、基于云的服务(例如,基于认知云的服务)、ar眼镜、虚拟现实头戴式耳机、本领域已知的任何hud和/或能够经由网络130或其中的任何组合与分布式数据处理环境100内的各种组件和设备通信的任何可编程电子计算设备。一般而言,计算设备110可以表示能够执行机器可读程序指令并经由网络130与其他计算设备的用户通信和/或能够执行机器可读程序指令并与服务器计算机120通信的任何可编程计算设备或可编程计算设备的组合。在一些实施例中,计算设备110可以表示多个计算设备。
18.在本发明的一些实施例中,计算设备110可以表示任何可编程电子计算设备或可编程电子计算设备的组合,其能够执行机器可读程序指令、操纵可执行机器可读指令、以及经由诸如网络130的网络与服务器计算机120和分布式数据处理环境100内的其他计算设备(未示出)通信。计算设备110可以包括用户接口(接口)106的实例和本地存储装置104。在图1中未描绘的各种实施例中,计算设备110可以具有多个用户接口。在图1中未示出的其它实施例中,分布式数据处理环境100可以包括多个计算设备、多个服务器计算机和/或多个网络中的一个。计算设备110可以包括内部和外部硬件组件,如参照图4进一步详细描绘和描述的。
19.用户接口(接口)106提供到预测组件140的接口。计算设备110经由用户接口106可以使用户和/或客户机能够以各种方式与组件140和/或服务器计算机120交互,诸如发送程序指令、接收程序指令、发送和/或接收消息、更新数据、发送数据、输入数据、编辑数据、收集数据、和/或接收数据。在一个实施例中,接口106可以是图形用户接口(gui)或web用户接口(wui),并且可以至少显示文本、文档、web浏览器窗口、用户选项、应用接口和操作指令。界面106可以包括呈现给用户的数据(例如图形、文本和声音)以及用户用来控制操作的控制序列。在另一实施例中,接口106可以是提供计算设备110的用户与服务器计算机120之间的接口的移动应用软件。移动应用软件或“app”可以被设计成在智能电话、平板计算机和其他计算设备上运行。在一个实施例中,接口106可以使计算设备110的用户能够至少发送数据、输入数据、编辑数据(注释)、收集数据和/或接收数据。
20.服务器计算机120可以是独立的计算设备、管理服务器、web服务器、移动计算设备、一个或多个客户端服务器、或能够接收、发送和处理数据的任何其他电子设备或计算系
统。在其他实施例中,服务器计算机120可以表示利用多个计算机的服务器计算系统,诸如但不限于诸如在云计算环境中的服务器系统。在另一个实施例中,服务器计算机120可以表示利用集计算机和组件(例如,数据库服务器计算机、应用服务器计算机等)的计算系统,当在分布式数据处理环境100内访问时,集计算机和组件充当单个无缝资源池。服务器计算机120可以包括内部和外部硬件组件,如参照图4进一步详细描述的那样。在一些实施例中,服务器计算机120可以代表多个服务器计算机。
21.共享存储装置124和本地存储装置104中的每一个可以是可由组件140、服务器计算机120和计算设备110中的一个或其组合来写入和/或读取的数据/知识储存库和/或数据库。在所描述的实施例中,共享存储装置124驻留在服务器计算机120上,而本地存储装置104驻留在计算设备110上。在另一个实施例中,共享存储装置124和/或本地存储装置104可以驻留在分布式数据处理环境100中的其它地方,只要每个都可以访问计算设备110和服务器计算机120并且可以由计算设备110和服务器计算机120访问。共享存储装置124和/或本地存储装置104各自可以用能够存储可由服务器计算机120访问和利用的数据和配置文件的任何类型的存储设备来实现,诸如但不限于数据库服务器、硬盘驱动器或闪存。
22.在本发明的一些实施例中,共享存储装置124和/或本地存储装置104可以各自是硬盘驱动器、存储卡、计算机输出到激光光盘(冷存储)和/或本领域已知的任何形式的数据存储装置。在一些实施例中,共享存储装置124和/或本地存储装置104可以各自是链接到云网络的一个或多个云存储系统和/或数据库。在各种实施例中,共享存储装置124和/或本地存储装置104可以访问、存储和/或容纳用户数据、物理房间数据和会议数据和/或在整个分布式数据处理环境100中共享的数据。
23.在所描述的实施例中,下采样组件(组件)140在服务器计算机120上执行。在其他实施例中,下采样组件140可以在计算设备110上执行。在图1中未示出的本发明的各种实施例中,下采样组件140可以在多个服务器计算机120和/或多个计算设备110上执行。在一些实施例中,组件140可以位于分布式数据处理环境100内的任何地方和/或在该处执行,只要下采样组件140经由网络130连接到计算设备110和/或服务器计算机120和/或与其通信。在所描绘的实施例中,编码器142、解码器144和分析引擎146各自位于下采样组件140上并在其上执行。在图1中未描绘的各种实施例中,编码器142、解码器144和分析引擎146可以在分布式数据处理环境100内的任何地方执行,只要编码器142、解码器144和/或分析引擎146各自经由网络130连接到计算设备110和/或服务器计算机120和/或与其通信。
24.在本发明的各种实施例中,编码器142可以是以下中的一个或多个:经修改的编码器、音频编码器、简单编码器、优先级编码器、压缩器、旋转编码器、线性编码器、绝对编码器、增量编码器和/或本领域已知的任何类型的编码器。在本发明的各种实施例中,解码器144可以是以下中的一个或多个:音频解码器、二进制解码器、解压缩解码器、指令解码器、正交解码器、视频解码器和/或本领域中已知的任何其它解码器。分析引擎146可以是如本领域所理解的一个或多个分析引擎。
25.在各实施例中,下采样组件140经由编码器142利用概率重采样框架来从整个文件中选择读数片段的子集。编码器(例如编码器142)执行自举的优化,以产生针对给定n大小的重采样集合(例如n=1百万个读数,其可以具有总共100个重采样)。在本发明的各种实施例中,下采样组件140经由编码器142在满足一个或多个预定标准之后从一个或多个重采样
中选择编码读数片段的子集。在本发明的各种实施例中,解码器144可以用于产生代表原始fastq文件的最终一组读数片段。在本发明的各种实施例中,解码器144用于产生可置于最终重采样中的最终读数片段。在本发明的各种实施例中,解码器144可用于产生x(即,最终代表性重采样)。解码器144可以重建一个或多个向量表示,所述向量表示在读数移动通过管线时对读数进行编码以生成实际读数/dna片段。
26.在本发明的各种实施例中,下采样组件140包括两个步骤:首先,编码器(例如编码器142)检索和/或接收基因组序列数据并执行自举以产生重采样,其中评估所产生的重采样的非代表性和自不一致性,其中使所述变化最小化,且其中选择最具代表性的重采样;其次,解码器(例如,解码器144)接收最具代表性的采样(例如,所选择的最具代表性的重采样)作为输入,并且产生原始输入读数的重构。在本发明的各种实施例中,下采样组件140从fastq文件中去除重复的读数,以减少基因组信息的冗余。在本发明的各种实施例中,下采样组件140可以通过用唯一标识符标记一个或多个读数(例如,所有读数)并随后将它们映射到采样参考序列来处理包含数百万和/或数十亿个读数的fastq文件。在本发明的各种实施例中,下采样部件140通过编码器142可以对每个读数片段的位置信息和映射以及质量评分进行编码。在本发明的各种实施方案中,训练统计模型以估计每个位置的基因型似然性,并通过编码器142对每个读数片段的这种信息进行编码。
27.在本发明的各种实施例中,下采样组件140可以对从大规模并行测序生成的dna片段进行重采样,而不损害(即,同时维持)原始文件的基因组完整性。例如,基因组完整性是指导致不同表型并且在不同读数(即,多个或过多读数)中编码的基因组变异。在该特定示例中,为了维持基因组完整性,下采样组件140对多个读数中的一个或多个执行下采样,其中下采样组件140保留大多数或预定量的读数。
28.在本发明的各种实施例中,下采样组件140可以经由编码器142从一个或多个用户、一个或多个数据库和/或从一个或多个搜索引擎检索和/或接收基因组序列数据(例如,dna序列数据),并且对检索和/或接收的基因组序列数据执行自举以产生重采样。在本发明的各种实施例中,下采样组件140可经由编码器142执行概率重采样以获得包含多个读数的重采样集合。在本发明的各种实施例中,组件140可评估重采样的非代表性和自不一致性,并选择最好的/“最具代表性的”重采样。
29.在本发明的各种实施方式中,下采样部件140通过编码器142可以从基因型似然性构建表示(例如,将fastq格式的基因组读数转换为数字向量表示)。下采样组件140可以经由分析引擎146整合映射位置信息和基因型似然性以识别重采样的最佳向量表示。在本发明的各种实施例中,下采样组件140可经由解码器144检索和/或接收最具代表性的采样作为输入,并产生原始输入读数的重构。在本发明的各种实施例中,下采样组件140可经由解码器144解码最佳重采样的向量表示,以获得类似于并维持原始文件的基因组完整性的下采样读数文件。
30.在本发明的各种实施方式中,给定与基因组位置重叠的几个读数,算法通过最大化联合似然函数参数来估计每个读数的基因型似然概率。这些参数基于泊松图形分布(pgd)。参数θ0、

、θ
d-1
的似然性是从具有这些特定参数的分布中采样读数的概率。这可以在如下的等式1中简化:1等式1:
[0031][0032]
如果通过将多个读数的基因型计数合并在一起来计算似然值,则检测统计数据可以保持相同。对于每个读数,估计每种可能的似然性基因型的概率。
[0033]
在本发明的各种实施例中,使用自举方法产生重采样。对于每次自举迭代,给定fastqxn,其中x是具有总共n个读数的fastq文件,随机选择一部分读数以产生x
1n
,用替换进行采样(图2b)。该过程重复i次。在重采样过程的下一次迭代中xn通过增加读数的数目来选择。
[0034]
为了到最佳zi(即,z,其中z是从自举获得的重采样的最佳集合),应用自不一致性和非代表性,其中,
[0035]
使用等式2定义自不一致性:
[0036]
2等式2:
[0037][0038]
然后使用等式3对自不一致性取平均:
[0039]
3等式3:
[0040][0041]
使用等式4定义非代表性:
[0042]
等式4:
[0043][0044]
然后使用等式5对自不一致性取平均:
[0045]
等式5:
[0046][0047]
应注意,在等式1中,n表示采样大小(原始文件中的读数数目),n表示重采样大小(重采样中的读数数目),θ表示毒杀率(poison rate)。应注意,在等式2-5中,nr表示重采样的数目,n表示每一者中序列/读数数目,k表示k-mer大小,m表示采样的总数,表示非代表性,且表示自不一致性。在本发明的各种实施例中,选择一组重采样以由分析引擎146进一步处理。在本发明的各种实施方式中,对分析引擎146的输入是一组重采样(例如,100个重采样,每个重采样包含1百万个读数(即,100个重采样的选定组,并且每个重采样包含1百万个读数))。分析引擎146然后可以处理100个重采样,以获得真正代表原始文件的最佳重采样。这通过最小化如下所述的等式中的步骤来完成。
[0048]
为了获得最佳重采样或重采样的集合(即,最佳重采样),其中最佳重采样或重采样的集合是具有非代表性和自不一致性的最低值的重采样,如下组合和分析位置信息和基因型似然性:
[0049]
给定其中是从自举获得的最佳重采样集合,zi……zn
是具有m个读数
的单次重采样,x是整个fastq文件和),其中y是从对准获得的约束,其包括读数的位置信息和它们相应的基因型信息最小化:的位置信息和它们相应的基因型信息最小化:这意味着[z,y]~x,以致于考虑到一个或多个约束,在其最小值时给出最佳的[z,y]。在本发明的各种实施例中,最佳[z,y]通过解码器144,其产生具有减少的读数数目的下采样fastq文件,但是保留的读数维持输入文件的基因组完整性。
[0050]
在本发明的其它实施例中,下采样组件140还可以使用一个或多个约束来识别重采样的最佳集合(即,最佳z)。可由下采样组件140用来标识重采样的最佳集合的一个或多个约束可包括:(i)基于从映射编码的位置信息选择最大间隔;(ii)计算每个重采样中的间隔的分布,使得位置覆盖最大化;(iii)出具有具有最大覆盖分布的最小重叠的重采样;(iv)基于在每个读数上发生的基因型似然性计算平均读数权重;和/或通过考虑读数的权重来计算重采样的总权重。
[0051]
图2a图示了描绘在图1的分布式数据处理环境100内与计算设备110和/或服务器计算机120通信的下采样组件140的框图,用于使用变分自动编码器对dna序列数据进行下采样。图2a提供了使用经修改的变化自动编码器对fastq文件进行下采样所遵循的步骤的概况的一个具体示例。图2a提供了一种实现的图示,并且不暗示对其中可以实现不同实施例的环境的任何限制。本领域技术人员可以对所描述的环境进行许多修改,而不偏离权利要求所记载的本发明的范围。
[0052]
在步骤201中,下采样组件140接收和/或检索dna序列数据。在本发明的各种实施例中,下采样组件140可以从数据库接收和/或检索dna序列数据,或者作为来自用户或另一程序的输入。
[0053]
在步骤202中,下采样组件140对dna序列数据执行自举。在本发明的各种实施例中,下采样组件140经由编码器142对所接收和/或检索的dna序列数据执行自举。在本发明的各种实施例中,下采样组件140使用经修改的变分编码器(例如编码器142)来执行概率重采样,以获得包含多个读数的重采样集合,如图2b所示。所选择的重采样可以是自一致的,并且代表原始文件,其中自一致性描述了对于给定次数的重采样迭代,在相同大小的重采样之间出现的最小变化,而代表性是相对于原始文件的重采样变化的最小化。在本发明的各种实施例中,下采样部件140使用等式2-5(如上所述)确保其基因组完整性被维持。为了获得一组自一致的重采样,下采样组件140比较采样分布中的相似性,并且在这样做时,其使用编码器中的哈希表来执行分布计算。
[0054]
例如,图2b提供了自举过程的概述的示例。在图2b中,表示为θk(x1)的采样1经历随机取样250并产生数量'n'个自举采样,其中'n'是预定数量。在该特定示例中,编码器142输出表示为θk(x
11
)的自举采样251、表示为θk(x
12
)的自举采样252、以及表示为θk(x
1nr
)的自举采样253。
[0055]
在步骤204中,下采样组件140生成生物信息。在本发明的各种实施例中,下采样组件140生成在图2c中进一步描述的生物信息。生物信息可以包括位置信息、基因型似然性和/或本领域已知的任何其他生物信息。
[0056]
在步骤206中,下采样组件140生成具有位置和基因型信息的文件。在本发明的各种实施例中,下采样部件140生成具有在图2c中进一步描述的位置和基因型信息的文件。
[0057]
在步骤208,下采样组件140整合映射位置信息和基因型似然性。在各种实施例中,下采样组件140可以经由分析引擎146整合映射位置信息和基因型似然性以识别重采样的最佳向量表示。分析引擎146计算每个重采样中的多个读数的间隔分布,使得核苷酸位置覆盖最大化,并到重采样中具有最小重叠的多个读数,所述最小重叠具有给定采样基因组的最大核苷酸覆盖分布。分析引擎146还可以基于在每个读数上发生的多个基因型似然性和基于多个读数的权重的重采样的总权重来计算平均读数权重。
[0058]
在步骤210中,下采样组件140可以识别最佳z。在本发明的各种实施例中,下采样组件140可以经由分析引擎146来识别最佳z。在各种实施例中,下采样组件140可以经由分析引擎146来计算最佳z的列表并将其显示给用户。
[0059]
在步骤212中,下采样组件140对最佳重采样的向量表示进行解码。在本发明的各种实施例中,下采样组件140可经由解码器144解码最佳重采样的向量表示,以获得类似于并保持原始文件的基因组完整性的下采样读数文件。
[0060]
图2c图示了描绘在图1的分布式数据处理环境100内与计算设备110和/或服务器计算机120通信的下采样组件140的框图,该下采样组件140用于使用变分自动编码器对dna序列数据进行下采样。图2c提供了生物信息产生的概况,其中对读数片段映射,并将读数片段的位置信息和基因型似然性编码成数值表示。图2c提供了一种实现的图示,并且不暗示对其中可以实现不同实施例的环境的任何限制。本领域技术人员可以对所描述的环境进行许多修改,而不偏离权利要求所记载的本发明的范围。
[0061]
在步骤204中,下采样组件140生成生物信息。在本发明的各种实施例中,下采样组件140使得能够对从大规模并行测序生成的dna片段进行重采样,而不损害原始文件的基因组完整性。
[0062]
在步骤204a中,下采样组件140对准核苷酸。在本发明的各种实施方式中,下采样组件140利用经修改的变分编码器(例如编码器142),其中编码器142将包含核苷酸的多个读数与采样基因组上的不同位置对准。
[0063]
在步骤204b中,下采样组件140生成经对准的多个读数的位置信息。在本发明的各种实施方式中,下采样组件140经由编码器142可以产生和/或识别经对准的多个读数中的核苷酸的位置信息,其中位置信息包括:映射的多个读数的映射位置、映射评分和核苷酸质量评分。在本发明的各种实施方式中,下采样组件140经由编码器142可以将映射到采样基因组的特定位置的多个读数的映射位置、映射评分和核苷酸质量评分编码成向量表示。例如,如本领域已知的,使用smith-waterman算法将具有数百万读数的fastq文件定位到参考基因组。smith-waterman算法进行局部序列对准以确定两条核酸序列之间的相似区域。然后将每个读数的映射位置编码到矩阵中作为开始和结束位置(矩阵220)。在矩阵220中,矩阵结构包括连续具有数据结构[n1,和n2]间隔的读数的起始和结束位置,直到表示生物数据和/或多个读数,其中n可以是本领域已知的任何位置、整数和/或数值表示。
[0064]
在步骤204c中,下采样组件140从所述多个读数获得一个或多个基因组位置的基因型似然性,其中基因型似然性是在多个读数上具有指定位置变化的多个等位基因。在本发明的各种实施方式中,编码器142被修改以使用泊松图形分布模型(等式1)来从多个读数获得每个基因组位置的基因型似然性。在本发明的各种实施方式中,下采样部件140通过编码器142确定基因型似然性匹配多个读数,其中基因型似然性给出等位基因在核苷酸位置
出现的概率,并且丢弃不被多个序列读数支持的低基因型似然性概率。
[0065]
在本发明的各种实施方案中,经修改的编码器(例如,编码器142)使用读数上的多个基因型似然性来计算和确定读数权重,降低具有少数基因型似然性的读数的权重,并丢弃不具有在任何核苷酸位置处估计的任何基因型似然性的序列以及未映射到采样基因组上的任何位置的序列以最小化冗余。在本发明的各种实施方式中,经修改的编码器(例如,编码器142)可用于从基因型似然性构建表示。表示捕获原始文件中的基因组细微差别,使得原始文件中的基因组变异被维持在下采样表示中。
[0066]
为了计算每个读数上的基因型似然性,不独立地考虑参考基因组的位置,而是结合确保在读数水平上考虑基因型的积累。这使得位置读数异常能够被视为依赖性的而不是假定独立性。假定存在基因型积累的读数重叠位置的出现是随机的,可以使用pgd对基因型似然性建模。pgd考虑到读数与位置的相关性而将读数的计数拉到一起。
[0067]
此外,pgd将相对于参考重叠基因组位置的读数视为多项式联合分布的指数家族。这使得能够对假定上限的与位置重叠的读数的计数之间的依赖性进行建模,这对于特别考虑读数深度是合理的。联合似然函数可以将似然基因型调用估计为从参考等位基因到替代等位基因的变化的概率。将与基因型位置重叠的读数编码到矩阵(例如,矩阵222)中,所述矩阵用于训练用于估计基因型似然性概率的模型。估计的基因型似然性概率也用于加权读数。因此,理想地,可以在相同的重采样中发现累积了更多基因型似然性的大多数读数,从而确保原始文件的基因组完整性得以维持。具有高于平均累积基因型似然性的重采样被向上加权以增加其选择机会。
[0068]
图3示出了根据本发明的实施例的在图1的分布式数据处理环境100内与计算设备110通信的下采样组件140(一般表示为300)的操作步骤,该下采样组件140用于使用变分自动编码器对dna序列数据进行自动下采样。图3提供了一种实现的图示,并且不暗示对其中可以实现不同实施例的环境的任何限制。本领域技术人员可以对所描述的环境进行许多修改,而不偏离权利要求所记载的本发明的范围。
[0069]
在步骤302中,下采样组件140从文件检索基因组序列数据。在本发明的各种实施例中,下采样组件140可以从一个或多个文件、一个或多个数据库、一个或多个搜索引擎和/或手动输入数据检索和/或接收基因组序列数据。
[0070]
在步骤304中,下采样组件140执行自举以产生重采样。在本发明的各种实施例中,下采样组件140可以经由编码器142对接收到的和/或检索到的基因组序列数据执行自举以产生重采样。在本发明的各种实施例中,下采样组件140可经由经修改的变分编码器(例如编码器142)执行概率重采样以获得包含多个读数的重采样集合。
[0071]
在步骤306中,下采样组件140对dna片段进行重采样。在本发明的各种实施例中,下采样组件140可以对从并行测序生成的dna片段进行重采样,而不损害原始文件的基因组完整性。
[0072]
在步骤308中,下采样组件140生成生物信息。在本发明的各种实施方式中,下采样部件140通过编码器142可以产生生物信息,其中读数片段被映射,并且读数片段的位置信息和基因型似然性被编码成数字表示,如图2c所示。
[0073]
在步骤310中,下采样组件140生成包含位置和基因型信息的文件。在本发明的各种实施例中,下采样部件140经由编码器142可以生成包含位置和基因型信息的一个或多个
文件。
[0074]
在步骤312中,下采样组件140访问所产生的重采样的非代表性和自不一致性。在本发明的各种实施例中,下采样组件140可以经由编码器142访问所产生的重采样中的一个或多个的非代表性和自不一致性,并且选择一个或多个代表性重采样。
[0075]
在步骤314,下采样组件140从基因型似然性建立表示。在本发明的各种实施例中,下采样部件140通过编码器142(例如,经修改的编码器)可以从基因型似然性建立一个或多个向量表示。
[0076]
在步骤316,下采样组件140整合映射位置信息和基因型似然性。在本发明的各种实施例中,下采样组件140可以经由分析引擎146整合映射位置信息和基因型似然性,以识别一个或多个重采样的一个或多个最佳向量表示。
[0077]
在步骤318中,下采样组件140对重采样的向量表示进行解码。在本发明的各种实施例中,下采样组件140可经由解码器144接收代表性采样作为输入,并产生原始输入读数的重构。在本发明的各种实施例中,下采样组件140经由解码器144(例如,经修改的解码器)解码最佳重采样的向量表示,以获得类似于并维持原始文件的基因组完整性的下采样读数文件。
[0078]
在步骤320中,下采样组件140输出下采样读数文件。在本发明的各种实施例中,下采样组件140可以经由解码器144通过在ui 106上显示数据和/或显示向用户提醒文件数据的响应提示来向一个或多个用户输出一个或多个下采样读数文件,其类似于并维持原始文件的基因组完整性。在本发明的各种实施例中,下采样组件140通过解码器144可以执行一个或多个下采样读数文件,其类似于并维持原始文件的基因组完整性。
[0079]
图4描述了根据本发明实施例的图1的分布式数据处理环境100中的服务器计算机120的组件的框图。应当理解,图4仅提供了一种实现的说明,而不暗示对其中可实现不同实施例的环境的任何限制。可以对所描述的环境进行许多修改。
[0080]
图4描绘了计算机系统400,其中服务器计算120表示包括下采样组件140的计算机系统400的示例。计算机系统包括处理器401、高速缓存403、存储器402、永久性存储装置405、通信单元407、(一个或多个)输入/输出(i/o)接口406、显示器409、(一个或多个)外部设备408和通信结构404。通信结构404提供高速缓存403、存储器402、永久性存储装置405、通信单元407和输入/输出(i/o)接口406之间的通信。通信结构404可以用被设计用于在处理器(诸如微处理器、通信和网络处理器等)、系统存储器、外围设备和系统内的任何其它硬件组件之间传递数据和/或控制信息的任何体系结构来实现。例如,通信结构404可以用一个或多个总线或纵横开关来实现。
[0081]
存储器402和永久性存储装置405是计算机可读存储介质。在该实施例中,存储器402包括随机存取存储器(ram)。通常,存储器402可以包括任何合适的易失性或非易失性计算机可读存储介质。高速缓存403是通过保存来自存储器402的最近访问的数据和最近访问的数据附近的数据来增强处理器401的性能的快速存储器。
[0082]
用于实施本发明的实施例的程序指令和数据可以存储在永久性存储装置405和存储器402中,以便由一个或多个相应的处理器401经由高速缓存403执行。在一个实施例中,永久性存储装置405包括磁硬盘驱动器。作为磁硬盘驱动器的替代或补充,永久性存储装置405可包括固态硬盘驱动器、半导体存储设备、只读存储器(rom)、可擦除可编程只读存储器
(eprom)、闪存或能够存储程序指令或数字信息的任何其它计算机可读存储介质。
[0083]
永久性存储装置405所使用的介质也可以是可移动的。例如,可移动硬盘驱动器可以用于永久性存储装置405。其它示例包括光盘和磁盘、拇指驱动器和智能卡,它们被插入到驱动器中以便传送到也是永久性存储装置405的一部分的另一计算机可读存储介质上。
[0084]
在这些例子中,通信单元407提供与其他数据处理系统或设备的通信。在这些示例中,通信单元407包括一个或多个网络接口卡。通信单元407可以通过使用物理和无线通信链路中的一种或两种来提供通信。用于实施本发明的实施例的程序指令和数据可以通过通信单元407下载到永久性存储器405。
[0085]
(一个或多个)i/o接口406使得能够与可以连接到每个计算机系统的其它设备输入和输出数据。例如,i/o接口406可以提供到外部设备408的连接,所述外部设备诸如键盘、小键盘、触摸屏和/或一些其它合适的输入设备。外部设备408还可以包括便携式计算机可读存储介质,诸如例如拇指驱动器、便携式光盘或磁盘、以及存储卡。用于实践本发明的实施例的软件和数据可以存储在这样的便携式计算机可读存储介质上,并且可以经由(一个或多个)i/o接口406加载到永久性存储装置405上。(一个或多个)i/o接口406还连接到显示器409。
[0086]
显示器409提供向用户显示数据的机制,并且可以是例如计算机监视器。
[0087]
这里描述的程序是基于在本发明的特定实施例中实现它们的应用来标识的。然而,应当理解,这里的任何特定程序术语仅是为了方便而使用,因此本发明不应当限于仅在由这样的术语标识和/或暗示的任何特定应用中使用。
[0088]
本发明可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括其上具有计算机可读程序指令的计算机可读存储介质(一个或多个),所述计算机可读程序指令用于使处理器执行本发明的各方面。
[0089]
计算机可读存储介质可以是任何有形设备,其可以保留和存储由指令执行设备使用的指令。计算机可读存储介质可以是例如但不限于电子存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或前述的任何合适的组合。计算机可读存储介质的更具体示例的非穷举列表包括以下:便携式计算机磁盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom或闪存)、静态随机存取存储器(sram)、便携式光盘只读存储器(cd-rom)、数字多功能盘(dvd)、记忆棒、软盘、诸如上面记录有指令的打孔卡或凹槽中的凸起结构的机械编码装置,以及上述的任何适当组合。如本文所使用的计算机可读存储介质不应被解释为暂时性信号本身,诸如无线电波或其他自由传播的电磁波、通过波导或其他传输介质传播的电磁波(例如,通过光纤线缆的光脉冲)、或通过导线传输的电信号。
[0090]
本文描述的计算机可读程序指令可以从计算机可读存储介质下载到相应的计算/处理设备,或者经由网络,例如因特网、局域网、广域网和/或无线网络,下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光传输光纤、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或网络接口从网络接收计算机可读程序指令,并转发计算机可读程序指令以存储在相应计算/处理设备内的计算机可读存储介质中。
[0091]
用于执行本发明的操作的计算机可读程序指令可以是汇编指令、指令集架构
(isa)指令、机器相关指令、微代码、固件指令、状态设置数据,或者以一种或多种编程语言的任意组合编写的源代码或目标代码,所述编程语言包括面向对象的编程语言(例如smalltalk、c++等)以及常规的过程式编程语言(例如“c”编程语言或类似的编程语言)。计算机可读程序指令可以完全在用户的计算机上执行,部分在用户的计算机上执行,作为独立的软件包执行,部分在用户的计算机上并且部分在远程计算机上执行,或者完全在远程计算机或服务器上执行。在后一种情况下,远程计算机可以通过任何类型的网络连接到用户的计算机,包括局域网(lan)或广域网(wan),或者可以连接到外部计算机(例如,使用因特网服务提供商通过因特网)。在一些实施例中,为了执行本发明的各方面,包括例如可编程逻辑电路、现场可编程门阵列(fpga)或可编程逻辑阵列(pla)的电子电路可以通过利用计算机可读程序指令的状态信息来执行计算机可读程序指令以使电子电路个性化。
[0092]
在此参考根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述本发明的各方面。将理解,流程图和/或框图的每个框以及流程图和/或框图中的框的组合可由计算机可读程序指令来实现。
[0093]
这些计算机可读程序指令可以被提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器以产生机器,使得经由计算机或其他可编程数据处理装置的处理器执行的指令创建用于实现流程图和/或框图的一个或多个框中指定的功能/动作的装置。这些计算机可读程序指令还可以存储在计算机可读存储介质中,其可以引导计算机、可编程数据处理装置和/或其他设备以特定方式工作,使得其中存储有指令的计算机可读存储介质包括制品,该制品包括实现流程图和/或框图的一个或多个框中指定的功能/动作的方面的指令。
[0094]
计算机可读程序指令还可以被加载到计算机、其他可编程数据处理装置或其他设备上,以使得在计算机、其他可编程装置或其他设备上执行一系列操作步骤,以产生计算机实现的过程,使得在计算机、其他可编程装置或其他设备上执行的指令实现流程图和/或框图的一个或多个框中指定的功能/动作。
[0095]
图中的流程图和框图示出了根据本发明的各种实施例的系统、方法和计算机程序产品的可能实现的架构、功能和操作。在这点上,流程图或框图中的每个框可以表示指令的模块、段或部分,其包括用于实现指定的逻辑功能的一个或多个可执行指令。在一些替代实施方式中,框中所标注的功能可以不按图中所标注的顺序发生,例如,连续示出的两个框实际上可以基本上同时执行,或者这些框有时可以按相反的顺序执行,这取决于所涉及的功能。还将注意,框图和/或流程图图示的每个框以及框图和/或流程图图示中的框的组合可以由执行指定功能或动作或执行专用硬件和计算机指令的组合的专用的基于硬件的系统来实现。
[0096]
已经出于说明的目的给出了本发明的各种实施例的描述,但是其不旨在是穷尽的或限于所公开的实施例。在不背离本发明的范围和精神的情况下,许多修改和变化对于本领域的普通技术人员来说是显而易见的。选择本文所使用的术语是为了最好地解释实施例的原理、实际应用或对市场上存在的技术改进,或为了使本领域的其他普通技术人员能够理解本文所公开的实施例。

技术特征:


1.一种用于使用变分自动编码器对dna序列数据进行自动下采样并保持原始文件的基因组完整性的计算机实现的方法,所述方法包括:由编码器对基因组序列数据执行自举以产生重采样;由所述编码器评估所述重采样的非代表性和自不一致性,并且根据所述评估选择代表性重采样;由经修改的编码器基于所选择的代表性采样从基因型似然性构建向量表示;由分析引擎整合映射位置信息和基因型似然性以识别重采样的最佳向量表示;以及由经修改的解码器对所述重采样的经识别的最佳向量表示进行解码,以获得与所述原始文件相似并维持所述原始文件的基因组完整性的经下采样的读数文件。2.如权利要求1所述的计算机实现的方法,还包括:由所述编码器对从大规模并行测序生成的dna片段进行重采样,而不损害原始文件的基因组完整性。3.如权利要求1所述的计算机实现的方法,还包括:由经修改的变分编码器执行概率重采样以获得包含多个读数的重采样集合。4.如权利要求1所述的计算机实现的方法,还包括:由所述解码器接收所述代表性重采样作为输入;以及由所述解码器基于所接收的代表性重采样来产生多个原始输入读数的重构。5.如权利要求1所述的计算机实现的方法,还包括:向用户输出与所述原始文件相似并维持所述原始文件的基因组完整性的下采样读数文件。6.如权利要求1所述的计算机实现的方法,还包括:由所述编码器生成包含位置和基因型信息的文件。7.如权利要求1所述的计算机实现的方法,还包括;由所述编码器生成生物信息,其中生成所述生物信息包括:由经修改的变分编码器将多个含有核苷酸的读数对准到采样基因组上的不同位置;由所述编码器产生对准的多个读数中的所述核苷酸的位置信息,其中所述位置信息包含:映射的多个读数的映射位置、映射评分和核苷酸质量评分;由所述编码器将映射到采样基因组的特定位置的多个读数的所述映射位置、所述映射评分和所述核苷酸质量评分编码成向量表示;以及由所述编码器从所述多个读数获得一个或多个基因组位置的基因型似然性,其中所述基因型似然性是在所述多个读数上具有指定位置变化的多个等位基因。8.一种用于使用变分自动编码器对dna序列数据进行自动下采样并保持原始文件的基因组完整性的计算机程序产品,所述计算机程序产品包括:一个或多个计算机可读存储设备和存储在所述一个或多个计算机可读存储设备上的程序指令,所存储的程序指令包括:用于由编码器对基因组序列数据执行自举以产生重采样的程序指令;用于由所述编码器评估所述重采样的非代表性和自不一致性并且根据所述评估选择代表性重采样的程序指令;用于由经修改的编码器基于所选择的代表性采样从基因型似然性建立向量表示的程
序指令;用于由分析引擎整合映射位置信息和基因型似然性以识别重采样的最佳向量表示的程序指令;以及用于由经修改的解码器对所述重采样的经识别的最佳向量表示进行解码以获得经下采样的读数文件的程序指令,所述经下采样的读数文件类似于所述原始文件并且维持所述原始文件的基因组完整性。9.如权利要求8所述的计算机程序产品,还包括:用于由所述编码器对从大规模并行测序生成的dna片段重采样而不损害原始文件的基因组完整性的程序指令。10.如权利要求8所述的计算机程序产品,还包括:用于由经修改的变分编码器执行概率重采样以获得包含多个读数的重采样集合的程序指令。11.如权利要求8所述的计算机程序产品,还包括:用于由所述解码器接收所述代表性重采样作为输入的程序指令;以及用于由所述解码器基于所接收的代表性重采样来产生多个原始输入读数的重构的程序指令。12.如权利要求8所述的计算机程序产品,还包括:用于向用户输出与所述原始文件相似并且维持所述原始文件的基因组完整性的所述下采样读数文件的程序指令。13.如权利要求8所述的计算机程序产品,还包括:用于由所述编码器生成包含位置和基因型信息的文件的程序指令。14.如权利要求8所述的计算机程序产品,还包括;用于由所述编码器生成生物信息的程序指令,其中生成所述生物信息包括:用于由经修改的变分编码器将多个含有核苷酸的读数对准到采样基因组上的不同位置的程序指令;用于由所述编码器产生经对准的多个读数中的核苷酸的位置信息的程序指令,其中所述位置信息包含:映射的多个读数的映射位置、映射评分和核苷酸质量评分;用于由所述编码器将映射到采样基因组的特定位置的多个读数的映射位置、映射评分和核苷酸质量评分编码成向量表示的程序指令;以及用于由所述编码器从所述多个读数获得一个或多个基因组位置的基因型似然性的程序指令,其中所述基因型似然性是在所述多个读数上具有指定位置变化的多个等位基因。15.一种用于使用变分自动编码器对dna序列数据进行自动下采样并保持原始文件的基因组完整性的计算机系统,所述计算机系统包括:一个或多个计算机处理器;一个或多个计算机可读存储设备;存储在所述一个或多个计算机可读存储设备上以供所述一个或多个计算机处理器中的至少一个计算机处理器执行的程序指令,所存储的程序指令包括:用于由编码器对基因组序列数据执行自举以产生重采样的程序指令;用于由所述编码器评估所述重采样的非代表性和自不一致性并且根据所述评估选择
代表性重采样的程序指令;用于由经修改的编码器基于所选择的代表性采样从基因型似然性建立向量表示的程序指令;用于由分析引擎整合映射位置信息和基因型似然性以识别重采样的最佳向量表示的程序指令;以及用于由经修改的解码器对所述重采样的经识别的最佳向量表示进行解码以获得经下采样的读数文件的程序指令,所述经下采样的读数文件类似于所述原始文件并且维持所述原始文件的基因组完整性。16.如权利要求15所述的计算机系统,还包括:用于由所述编码器对从大规模并行测序生成的dna片段重采样而不损害原始文件的基因组完整性的程序指令。17.如权利要求15所述的计算机系统,还包括:用于由经修改的变分编码器执行概率重采样以获得包含多个读数的重采样集合的程序指令。18.如权利要求15所述的计算机系统,还包括:用于由所述解码器接收所述代表性重采样作为输入的程序指令;以及用于由所述解码器基于所接收的代表性重采样来产生多个原始输入读数的重构的程序指令。19.如权利要求15所述的计算机系统,还包括:用于向用户输出与所述原始文件相似并且维持所述原始文件的基因组完整性的所述下采样读数文件的程序指令;以及用于由所述编码器生成包含位置和基因型信息的文件的程序指令。20.如权利要求15所述的计算机系统,还包括;用于由所述编码器生成生物信息的程序指令,其中生成所述生物信息包括:用于由经修改的变分编码器将多个含有核苷酸的读数对准到采样基因组上的不同位置的程序指令;用于由所述编码器产生经对准的多个读数中的核苷酸的位置信息的程序指令,其中所述位置信息包含:映射的多个读数的映射位置、映射评分和核苷酸质量评分;用于由所述编码器将映射到采样基因组的特定位置的多个读数的映射位置、映射评分和核苷酸质量评分编码成向量表示的程序指令;以及用于由所述编码器从所述多个读数获得一个或多个基因组位置的基因型似然性的程序指令,其中所述基因型似然性是在所述多个读数上具有指定位置变化的多个等位基因。

技术总结


公开了用于使用变分自动编码器对DNA序列数据自动下采样并保持原始文件的基因组完整性的方法。所述方法包括:由编码器(142)对基因组序列数据执行自举以产生重采样;由所述编码器(142)评估所述重采样的非代表性和自不一致性,并且根据所述评估选择代表性重采样;由经修改的编码器(142)基于所选择的代表性采样从基因型似然性构建向量表示;由分析引擎整合映射位置信息和基因型似然性以识别重采样的最佳向量表示;以及由经修改的解码器(144)对所述重采样的经识别的最佳向量表示进行解码,以获得与所述原始文件相似并维持所述原始文件的基因组完整性的经下采样的读数文件。的基因组完整性的经下采样的读数文件。的基因组完整性的经下采样的读数文件。


技术研发人员:

D

受保护的技术使用者:

国际商业机器公司

技术研发日:

2021.06.09

技术公布日:

2023/3/28

本文发布于:2024-09-20 15:34:35,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/1/82654.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:读数   多个   编码器   基因组
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议