分子对接的方法及电子设备与流程



1.本公开总体上涉及计算机领域和生物信息领域,并且更具体地涉及分子对接的方法及电子设备。


背景技术:



2.生物分子之间的相互作用是实现其生物活性的重要基础。例如,人体可以产生抗体蛋白与入侵的病毒结合从而抑制疾病。在生物制药研究中,可以通过分析那些已知可以互相结合的生物分子来理解分子间相互作用的物理、化学机制,从而帮助设计出可以与一些特定靶点相结合的新型药物分子(如研发新冠抗体)。在此过程中,分子对接(molecular docking)是一个重要的研究方向。
3.目前已有的一种方案是通过海量的采样来确定用于分子对接的可能的结合位点,进而将分子进行对接。但是,这样方案成本较高、且耗时较长,从而导致分子对接的效果低下。


技术实现要素:



4.根据本公开的示例实施例,提供了一种分子对接的方法,基于含时演化多尺度特征确定结合位点,并通过泛函映射来实现分子对接。
5.在本公开实施例的第一方面,提供了一种分子对接的方法,包括:基于第一分子的第一含时演化多尺度特征和第二分子的第二含时演化多尺度特征,确定第一分子的第一分子表面的第一结合位点以及第二分子的第二分子表面的第二结合位点;获取第一结合位点的第一化学特征和第二结合位点的第二化学特征;通过泛函映射,确定第一化学特征与第二化学特征之间的泛函映射矩阵;基于泛函映射矩阵,确定第一结合位点与第二结合位点之间的对应关系;以及基于对应关系,将第一分子和第二分子通过第一结合位点和第二结合位点进行对接。
6.在本公开实施例的第二方面,提供了一种电子设备,包括:至少一个处理单元;至少一个存储器,至少一个存储器被耦合到至少一个处理单元并且存储用于由至少一个处理单元执行的指令,该指令当由至少一个处理单元执行时使得电子设备执行根据本公开的第一方面所描述的方法。
7.在本公开实施例的第三方面,提供了一种计算机可读存储介质,该计算机可读存储介质具有在其上存储的机器可执行指令,该机器可执行指令在由设备执行时使该设备执行根据本公开的第一方面所描述的方法。
8.在本公开实施例的第四方面,提供了一种计算机程序产品,包括计算机可执行指令,其中计算机可执行指令在被处理器执行时实现根据本公开的第一方面所描述的方法。
9.在本公开实施例的第五方面,提供了一种电子设备,包括:处理电路,被配置为执行根据本公开的第一方面所描述的方法。
10.提供发明内容部分是为了以简化的形式来介绍一系列概念,它们在下文的具体实
施方式中将被进一步描述。发明内容部分不旨在标识本公开的关键特征或必要特征,也不旨在限制本公开的范围。本公开的其它特征将通过以下的描述变得容易理解。
附图说明
11.结合附图并参考以下详细说明,本公开各实施例的上述和其他特征、优点及方面将变得更加明显。在附图中,相同或相似的附图标注表示相同或相似的元素,其中:
12.图1示出了根据本公开的一些实施例的示例过程的示意流程图;
13.图2a示出了根据本公开的一些实施例的苯分子的电子密度场的示意图;
14.图2b示出了根据本公开的一些实施例的以三角剖分所表示的分子表面的示意图;
15.图3a示出了根据本公开的一些实施例的将原子的化学信息投影到分子表面的节点的示意图;
16.图3b示出了根据本公开的一些实施例的分子表面的静电势能函数的示意图;
17.图4示出了根据本公开的一些实施例的分子的前6个本征函数在分子表面的分布的示意图;
18.图5示出了根据本公开的一些实施例的在分子表面的热分布随着时间的变化的示意图;
19.图6示出了根据本公开的一些实施例的使用交叉注意力网络的示意图;
20.图7示出了根据本公开的一些实施例的分子对接的示意图;
21.图8示出了根据本公开的一些实施例的示例装置的框图;以及
22.图9示出了可以用来实施本公开的实施例的示例设备的框图。
具体实施方式
23.下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。
24.如上所述,分子对接是生物分子研究领域中的重要方向。例如可以通过计算机建模来实现分子对接,以模拟在真实的生物体中的两个分子如何相互作用并结合。
25.以一对受体蛋白和配体蛋白为例,可以分析受体蛋白和配体蛋白的物理化学性质和几何结构,并将配体蛋白结合到受体蛋白的结合位点。通过对接,可以预测出受体蛋白和配体蛋白进行结合所产生的复合物的三维结构。但是目前的方案无法高效地实现两个分子之间的对接。
26.至少为了解决上述问题以及潜在的其他问题,本公开的实施例提供了一种分子对接的方案。具体而言,可以基于两个分子各自的含时演化多尺度特征来确定结合位点,从而可以进一步基于结合位点的化学特征通过泛函映射而实现分子对接。该方案无需通过大量的采样实现,因此能够更快地确定对接后所产生的三维结构,更加高效。
27.图1示出了根据本公开的一些实施例的示例过程100的示意流程图。在框110,基于第一分子的第一含时演化多尺度特征和第二分子的第二含时演化多尺度特征,确定第一分子的第一分子表面的第一结合位点以及第二分子的第二分子表面的第二结合位点。在框
120,获取第一结合位点的第一化学特征和第二结合位点的第二化学特征。在框130,通过泛函映射,确定第一化学特征与第二化学特征之间的泛函映射矩阵。在框140,基于泛函映射矩阵,确定第一结合位点与第二结合位点之间的对应关系。在框150,基于对应关系,将第一分子和第二分子通过第一结合位点和第二结合位点进行对接。
28.示例性地,本公开的实施例中的分子(如第一分子和第二分子)可以是生物大分子,例如蛋白质、dna等;也可以是小分子,例如阿司匹林药物小分子等。本公开对此不限定。为了简化示意,下面的部分实施例以蛋白质为例进行阐述。
29.在一些实施例中,可理解,在框110之前,可以分别确定第一分子的第一含时演化多尺度特征和第二分子的第二含时演化多尺度特征。本公开的实施例中,确定第一含时演化多尺度特征的过程与确定第二含时演化多尺度特征的过程是类似的。下文将结合图2a至图5描述确定任一分子的含时演化多尺度特征的过程,可理解,可以通过类似的过程来确定第一含时演化多尺度特征、以及确定第二分子的第二含时演化多尺度特征。
30.示例性地,针对任一分子,可以确定分子的分子表面,分子表面为连续的黎曼流形且分子表面包括离散的多个表面节点;基于分子表面,确定分子的几何特征;通过将分子内部的原子信息映射到多个表面节点,确定分子的表面化学特征;以及基于几何特征和表面化学特征,确定分子的含时演化多尺度特征。
31.本公开的一些示例性的实施例中,可以基于分子的电子密度场的等值面来确定分子的分子表面。
32.生物分子的尺度一般以10-10
米(埃)为单位,在此微观尺度下,生物分子普遍遵循量子力学和统计力学所描述的物理定律,而不是宏观尺度下的牛顿力学。从微观电子结构的角度来说,分子由带正电荷的原子核与带负电荷的电子云组成。直观上,可以把分子理解为电子密度场(electron density field)。不同的生物分子拥有不同的化学组成和3维几何结构,从而表现出不同的物理化学性质,例如特定的药物分子会与人体内的某种蛋白受体结合来达到效果。也就是说不同的分子有其独特的电子密度场,因此可以通过描述该密度场的形状和化学性质来表示不同的分子。具体而言,可以确定密度场的等值面,将其称之为该分子的分子表面。
33.作为一个示例,如图2a示出了本公开的实施例的苯分子的电子密度场200,在图2中,曲线210表示等值面。
34.示例性地,分析的电子密度场可以被表示为分子的电子密度函数。可选地,可以通过量子化学模拟的方式来确定分子的电子密度函数,进一步地,可以基于该分子的电子密度函数的等值面来确定分子表面。例如,分子的电子密度函数可能存在多个等值面,那么在本公开的一些实施例中,可以通过选取其中的一个等值面来确定分子表面。
35.本公开的一些示例性的实施例中,也可以通过其他的分子表面计算方法来确定分子表面。举例而言,可以通过msms计算软件来确定分子的分子表面。
36.本公开的一些示例性的实施例中,也可以基于分子的溶剂可及表面或不可及表面的采样,来确定分子的分子表面。
37.可理解,在另一些示例中,本公开的实施例中也可以采用其他的方式来确定分子的分子表面,本公开对此不限定。
38.在一些示例中,分子表面可以被表示为离散的多个节点以及节点与节点之间的连
接关系。示例性地,可以基于所确定的分子表面来进一步确定表面信息。举例而言,可以采用三角剖分等网格表示方法来存储表面信息。如图2b示出了以三角剖分所表示的分子表面的示意图。如图所示,表面上示出有三角剖分节点(简称为“节点”),且节点与节点可能存在连接关系。也就是说,分子表面包括多个表面节点,例如多个三角剖分节点。
39.示例性地,该表面包裹着分子,可以表达分子的形状。本公开的实施例中,被存储的表面信息可以包括:分子内部的原子信息、以及分子表面上每个节点的3维坐标和节点之间的连接关系。例如,分子内部的原子信息包括原子的三维坐标和原子种类等相关化学信息。可理解的是,分子表面是二维黎曼流形,该流形本身是连续光滑的。在本公开的实施例的后续处理过程中,可以将该连续光滑的黎曼流形离散化,例如三角剖分节点。
40.本公开的一些示例性的实施例中,针对多个表面节点中每个节点,通过将与节点关联的多个原子的原子信息映射到节点,得到节点的化学环境特征;基于多个表面节点中每个节点的化学环境特征,使用全连接神经网络,确定化学特征。示例性地,与节点关联的多个原子可以包括:与节点之间的距离低于距离阈值的范围内的多个原子。或者示例性地,与节点关联的多个原子包括:与节点距离最近的固定数量的邻近原子(例如,8个最近邻原子)。举例而言,可以按照与节点之间的距离将原子进行排序,并从经排序的原子中确定最邻近的固定数量的(如8个)原子。
41.具体而言,可以基于分子的表面信息来确定分子表面的化学势分布。可选地,化学势分布也可以被称为化学函数分布,例如静电势能分布。
42.示例性地,针对分析表面的任一节点,可以确定该节点周围特定距离范围内的所有原子与该节点之间的距离。例如,可以将在距离阈值范围内的原子称为临近原子。随后,可以确定每个临近原子与该节点所在的曲面切平面的法线夹角、以及对应的原子种类,并以此作为该节点的化学环境的初始表示。示例性地,可以通过全连接神经网络来提取分子表面的化学函数分布。也就是说,通过全连接神经网络能够学习到表面节点的周围化学环境的表示。
43.这样,通过将内部的原子的化学信息映射(也称投影)到表面的节点,能够通过分子表面的节点来表征整个分子的化学信息。图3a示出了将原子的化学信息投影到分子表面的节点的示意图。如图3a所示,针对节点310,可以确定特定距离范围320内的原子。随后可以将所确定的原子的化学信息投影到节点310上,以确定节点310的化学环境的初始表示,如节点的化学环境特征。
44.应注意的是,本公开的实施例中,可以利用原子的化学信息来更新分子表面的节点的化学表示,但是节点的信息不会反馈和改变原子的化学信息,也就是该投影属于是单向信息传递关系。不同于双向更新的分子的图神经网络。可理解,图神经网络虽然可以通过图信息传递来实现远距离的信息交流,但是该交流机制在节点数量较大的情况下(例如分子的表面三角剖分表示通常有上万个节点)是低效的。相反,本公开的实施例中通过原子信息到节点的单向信息传递关系,能够提升信息交流的处理效率。
45.示例性地,通过全连接神经网络,可以基于多个表面节点中各个节点的化学环境特征,来确定分子表面的化学特征。可选地,作为一例,原子的化学信息例如可以被表示为多维(如5维)数组,表面化学特征例如可以被表示为多维(如16维)数组。
46.图3b示出了分子表面的静电势能函数330的一个示意图。举例而言,可以基于例如
16维数组的化学特征中的第1维特征通过提取得到该静电势能函数。可理解的是,尽管图3b以静电势能函数为例进行阐述,但是本公开的实施例不限于此,例如用户可以自定义其他的化学信息,或者可以通过神经网络等方式来学习到其他的化学表示。
47.以此方式,通过分子表面的化学势分布可以同时包含几何信息以及化学信息。示例性地,诸如静电势能函数等化学势函数在分子表面的分布属于分子的表面黎曼流形空间表示,也就是说,化学信息可以以函数的形式存在于分子的表面黎曼流形空间中。换句话说,本公开的实施例中,将分子的表面看作连续光滑的黎曼流形空间,并在该二维的流形空间中定义与化学相关的函数。
48.本公开的一些示例性的实施例中,几何特征可以包括以下中的一项或多项:热核特征函数、波核特征函数、分子表面的高斯曲率、或分子表面的平均曲率。
49.示例性地,可以确定分子表面(黎曼流形)上的拉普拉斯算符的本征函数(或简称拉普拉斯本征函数)和本征值,并基于本征函数和本征值来确定热核特征函数和/或波核特征函数。
50.示例性地,可以确定每个分子表面黎曼流形上拉普拉斯算符(laplace-beltrami operator)的本征函数和本征值,表示为如下式(1):
51.δφi=λiφiꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)
52.在式(1)中,δ表示拉普拉斯算符,其含义如下式(2):
[0053][0054]
在式(1)中,表示第i个本征函数,λi表示第i个本征值。在式(2)中,表示梯度算符,f表示分布在黎曼流形上的任意函数。示例性地,可以利用已知的(例如scipy数值计算软件)或者未来开发的算法等来确定本征函数,本公开对此不限定。
[0055]
在一些示例中,每个分子表面流形的拉普拉斯本征函数和其对应的本征值是独特的,并且只与该分子本身的形状有关,不受分子在三维空间中的位置与取向的影响。因此,黎曼流形的本征函数也被称为“形状基因(shape dna)”。对每个分子的表面流形,可以确定其所有的本征函数和本征值。示例性地,还可以进一步按本征值的大小进行排序,例如可以按照本征值从小到大的顺序进行排序,然后再取排序中的前k个(例如k=100或其他值)本征值,这样能够降低计算量。
[0056]
可理解的是,由于不同的生物分子具有不同的形状,进而也有不同的表面流形本征函数。图4示出了根据本公开的一些实施例的分子的前6个本征函数在分子表面的分布。示例性地,前6个本征函数在图4中示出为在一些示例中,本征函数在图4中表现出了区域性的起伏,相应地,本征函数可以理解为在二维流形空间的傅里叶基函数(例如可以被理解为二维驻波),其在一维直线上对应为正弦函数和余弦函数。
[0057]
本公开的一些示例性的实施例中,几何特征可以被表示为几何特征函数的形式。可以基于分子表面流形上的拉普拉斯算符的本征函数和本征值,确定分子表面的几何特征函数。可选地,几何特征函数可以包括热核特征函数(heat kernel signature,hks)和/或波核特征函数(wave kernel signature,wks)。
[0058]
示例性地,可以基于前述确定的本征函数和本征值λi,构建hks和wks为:
[0059][0060][0061]
在式(3)和(4)中,t和∈分别表示时间和能量,例如可以由用户进行设置。
[0062]
可选地,分子表面的几何特征函数还可以包括分子表面(黎曼流形)上的高斯曲率和/或平均曲率。可理解,可以通过几何的方法来计算得到高斯曲率和平均曲率,这里不再赘述。
[0063]
本公开的一些示例性的实施例中,可以通过将几何特征与化学特征进行整合,确定分子的统一特征。例如几何特征被表示为几何特征函数,化学特征被表示为化学势分布,那么可以基于分子表面的化学势分布以及分子表面的几何特征函数,确定分子表面的统一特征。该统一特征(例如被表示为表面特征函数)可以表示对化学信息和几何信息的整合。
[0064]
示例性地,可以通过全连接神经网络来整合每个节点的化学特征和几何特征,从而得到每个节点上的表面特征函数。举例而言,假设化学特征被表示为16维的数组,几何特征被表示为32维的数组,那么通过全连接神经网络可以将化学特征和几何特征非线性地变换为64维的表面特征函数。可理解,表面特征函数的维度不限于64维,其可以是由用户自定义的,例如128维或其他维度,本公开对此不限定。
[0065]
示例性地,全连接神经网络可以基于分子数据集通过训练得到,具体而言,分子数据集与本公开的实施例的应用场景(例如下游的预测任务)有关。
[0066]
本公开的一些示例性的实施例中,可以基于含时演化神经网络模型,基于统一特征确定含时演化多尺度特征。示例性地,含时演化多尺度特征表示分子表面的多尺度特征。
[0067]
示例性地,含时演化神经网络模型包括演化算符,该演化算符至少基于拉普拉斯算符和/或基于表面势能项。
[0068]
举例而言,可以将含时演化算符作用于表面特征函数,以得到表征多尺度特征的函数。例如,含时演化算符可以被表示为或其中为哈密顿算符,例如δ表示拉普拉斯算符,v表示表面势能项。例如,表面势能项v可以是用户设定的流形上的函数分布。
[0069]
在一些实施例中,当含时演化算符被表示为时,针对初始函数u0,可以通过下式(5)确定t时刻的函数分布:
[0070][0071]
为了简化示例,可以假设v=0,从而式(5)可以被简化为如下的式(6):
[0072]ut
=e-iδt
u0ꢀꢀꢀꢀꢀꢀꢀ
(6)
[0073]
该式(6)描述了一个初始函数u0在流形空间(也就是分子表面)随时间的变化。通过控制不同的演化时间t,可以得到随不同的时间演化后的新函数分布u
t
。可理解的是,式(6)所得到的u
t
是复数,而输入u0是实数。在实际操作中,可以对u
t
取模,从而得到与u
t
对应的实数。
[0074]
由于不同的分子具有不同的几何结构,其黎曼流形空间也是独特的,函数u0在不同流形上的演化方式也由该流形空间决定。因此演化后的函数可以作为分子信息的新表
示,并且这种表示包含了流形的整体和局部信息。
[0075]
在另一些实施例中,当含时演化算符被表示为且v=0时,针对初始函数v0,可以通过下式(7)确定t时刻的函数分布:
[0076]vt
=e-δt
v0ꢀꢀꢀꢀꢀꢀꢀ
(7)
[0077]
该式(7)可以理解是将上面式(6)中的虚数含时演化算符替换为实数含时演化算符(去掉i)。可以理解为,式(6)属于量子力学框架,而式(7)属于经典力学框架,在实际应用中这两种框架都可以用来实现分子的黎曼流形表示。
[0078]
在本公开的实施例中,初始函数u0或v0可以为前述的统一特征,即分子的表面特征函数。以此方式,本公开的实施例可以基于含时演化算符得到含时演化多尺度特征,即u
t
或v
t

[0079]
示例性地,如式(7)中的含时演化算符e-δt
可以被称为热算符(heat operator),其描述初始的热分布v0在t时间之后在流形空间的分布情况v
t

[0080]
作为一例,图5示出了在分子表面的热分布随着时间的变化的示意图。可理解,该变化可以通过如式(7)所示的含时演化过程来进行定量地描述。
[0081]
从图5可以看到,随着时间t越来越大,热传递的范围越来越远。因此通过控制不同的演化时间t,可以在分子表面的黎曼流形空间实现多尺度信息传递(短时间对应小尺度信息传递,长时间对应大尺度信息传递)。因此,可以利用基于含时演化的神经网络学习到分子在不同尺度下的几何与化学信息,从而提升对分子的表示能力。
[0082]
在本公开的实施例中,如上结合式(1)描述了拉普拉斯算符的本征函数和本征值,因而,含时演化算符可以基于黎曼流形上的拉普拉斯算符的本征函数和本征值。基于此,式(7)可以进一步被表示为如下的式(8):
[0083][0084]
类似地,式(6)可以进一步被表示为如下的式(9):
[0085][0086]
以此方式,本公开的实施例通过使用黎曼流形和其拉普拉斯算符的本征函数和本征值,从而能够在本征空间中进行含时演化,这比在实空间中的操作将更加高效。
[0087]
如上所述,统一特征例如可以被表示为64维的表面特征函数,也就是说,分子表面的每个节点可以由64维数组来表示该节点的统一特征。那么可以基于式(8)或式(9),对64个维度的函数分别进行含时掩护。可理解,每个函数可以具有其独特的演化时间,例如t可以作为用于含时演化的神经网络的参数或者可以由用户设定。经过含时演化之后,可以得到分子表面上的多尺度特征,包括一系列尺度的几何和化学特征。
[0088]
本公开的实施例中,通过含时演化多尺度特征,提供了一种不同于已有的分子表示方法的、基于黎曼流形的分子表示方法。该含时演化多尺度特征包括分子的几何特征和
化学特征,增强了对分子特征的描述能力。
[0089]
继续参考图1,在框110处,可以基于含时演化多尺度特征来确定结合位点。可理解,结合位点是分子上的一个区域,其可以与另一分子结合。
[0090]
附加地或可选地,还可以进一步使用交叉注意力网络。可理解,通过交叉注意力网络可以实现两个分子之间的信息交流。举例来说,针对第一分子的第一分子表面上的每一个节点,可以分别计算与第二分子的第二分子表面上每个节点的注意力,其中注意力可以是两个不同节点的特征的内积,其中该注意力可以反应两个不同节点之间的“相关性”。随后,可以将注意力归一化,并通过交叉的方式来更新各个节点的特征,例如用第一分子表面上的节点的特征来更新第二分子表面上的节点的特征,用第二分子表面上的节点的特征来更新第一分子表面上的节点的特征。图6示出了使用交叉注意力网络的示意图。参照图6,可以通过含时演化神经网络和交叉注意力网络的结合,分别得到两个分子的含时演化多尺度特征。进而可以被用于后续的结合位点的预测。
[0091]
示例性地,假设第一分子为受体蛋白,第二分子为配体蛋白,那么可以基于第二分子的第二含时演化多尺度特征,确定第二分子的分子表面的多个表面节点中的至少一个节点,至少一个节点指示与第一分子进行结合的位点。举例而言,可以获取第二分子的分子表面的第一区域(例如分子表面部分区域或全部区域),针对该第一区域中的各个表面节点,分析每个节点是否能够与第一分子进行结合,从而实现二元预测。
[0092]
在一些示例中,第一结合位点是第一分子的第一分子表面的一个子区域(例如称为第一子区域),第二结合位点是第二分子的第二分子表面的另一个子区域(例如称为第二子区域)。示例性地,可以将第一子区域表示为黎曼流形将第二子区域表示为黎曼流形
[0093]
如上在描述分子的含时演化多尺度特征的过程中,可以得到分子的表面化学特征。相应地,可理解,在框120处,可以基于第一子区域所包括的表面节点,基于第一分子的第一表面化学特征得到第一化学特征。可以基于第二子区域所包括的表面节点,基于第二分子的第二表面化学特征得到第二化学特征。
[0094]
本公开的实施例中,第一化学特征和第二化学特征具有相同的属性,例如可以为静电势能函数。
[0095]
在一些示例中,化学特征可以被表示为对应的本征函数的线性组合。例如,第一化学特征被表示为第一子区域的黎曼流形上的拉普拉斯算符的本征函数的线性组合,第二化学特征被表示为第二子区域的黎曼流形上的拉普拉斯算符的本征函数的线性组合。为了简化描述,可以将第一化学特征和第二化学特征分别表示为:
[0096][0097]
在式(10)中,表示第一子区域的黎曼流形上的拉普拉斯算符的本征函数,分表示第二子区域的黎曼流形上的拉普拉斯算符的本征函数,而ai和bi分别为线性组合的系数。
[0098]
基于第一化学特征和第二化学特征,可以相应地分别确定第一系数矩阵(例如表示为a)和第二系数矩阵(例如表示为b)。进一步地,可以基于第一系数矩阵和第二系数矩阵来确定泛函映射矩阵。
[0099]
例如,泛函映射矩阵(如c)可以被表示为
[0100][0101]
或ca=b
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(12)
[0102]
示例性地,泛函映射矩阵可以为内核函数,通过泛函映射矩阵可以确定第一子区域与第二子区域之间的对应关系。也就是说,可以确定在第一子区域上的各个节点与第二子区域的哪个节点是对应的。例如,针对第一子区域上的某节点,可以确定在第二子区域上与其对应的节点的位置。
[0103]
在一些示例中,在框150处,可以通过几何算法将对应关系转化为相应的平移操作和旋转操作,从而实现对接。例如,将配体蛋白对接到受体蛋白上。从而能准确地预测出蛋白质复合物的结构。
[0104]
以第一分子为受体蛋白且第二分子为配体蛋白为例,图7示出了根据本公开的实施例的分子对接的示意图。
[0105]
可理解,尽管在过程100中结合第一分子和第二分子描述了对接的实施例,但是本公开的实施例可以被应用于更多数量的分子。举例而言,如果第一分子为病毒,那么可以从大量已知的蛋白质结构数据库中筛选出与该病毒存在对接可能性的蛋白质。可选地,还可以基于结合位点对选出的蛋白质的结合区域做进一步的优化,使得对病毒具有更强的结合能力,如此能够更快地得到有效地抗体药物。
[0106]
应理解,在本公开的实施例中,“第一”,“第二”,“第三”等只是为了表示多个对象可能是不同的,但是同时不排除两个对象之间是相同的,不应当解释为对本公开实施例的任何限制。
[0107]
还应理解,本公开的实施例中的方式、情况、类别以及实施例的划分仅是为了描述的方便,不应构成特别的限定,各种方式、类别、情况以及实施例中的特征在符合逻辑的情况下,可以相互结合。
[0108]
还应理解,上述内容只是为了帮助本领域技术人员更好地理解本公开的实施例,而不是要限制本公开的实施例的范围。本领域技术人员根据上述内容,可以进行各种修改或变化或组合等。这样的修改、变化或组合后的方案也在本公开的实施例的范围内。
[0109]
还应理解,上述内容的描述着重于强调各个实施例之前的不同之处,相同或相似之处可以互相参考或借鉴,为了简洁,这里不再赘述。
[0110]
图8示出了根据本公开的一些实施例的示例装置800的示意框图。装置800可以通过软件、硬件或者两者结合的方式实现。如图8所示,装置800包括结合位点确定模块810、化学特征获取模块820、泛函映射矩阵确定模块830、对应关系确定模块840和对接模块850。
[0111]
结合位点确定模块810被配置为基于第一分子的第一含时演化多尺度特征和第二分子的第二含时演化多尺度特征,确定第一分子的第一分子表面的第一结合位点以及第二分子的第二分子表面的第二结合位点。化学特征获取模块820被配置为获取第一结合位点的第一化学特征和第二结合位点的第二化学特征。泛函映射矩阵确定模块830被配置为通过泛函映射,确定第一化学特征与第二化学特征之间的泛函映射矩阵。对应关系确定模块840被配置为基于泛函映射矩阵,确定第一结合位点与第二结合位点之间的对应关系。对接模块850被配置为基于对应关系,将第一分子和第二分子通过第一结合位点和第二结合位
点进行对接。
[0112]
在一些实施例中,装置800还包括:表面节点确定模块,被配置为确定第一分子的第一分子表面,第一分子表面为连续的黎曼流形且第一分子表面包括离散的多个表面节点;几何特征确定模块,被配置为基于第一分子表面,确定第一分子的第一几何特征;表面化学特征确定模块,被配置为通过将第一分子内部的原子信息映射到多个表面节点,确定第一分子的第一表面化学特征;以及含时演化多尺度特征确定模块,被配置为基于第一几何特征和第一表面化学特征,确定第一分子的第一含时演化多尺度特征。
[0113]
示例性地,表面节点确定模块被配置为基于第一分子的电子密度场的等值面,确定第一分子表面。或者表面节点确定模块被配置为基于第一分子的溶剂可及表面或不可及表面的采样,确定第一分子表面。
[0114]
可选地,第一几何特征包括以下至少一项:基于第一分子表面的拉普拉斯算符的本征函数和本征值所确定的热核特征函数,基于第一分子表面的拉普拉斯算符的本征函数和本征值所确定的波核特征函数,第一分子表面的高斯曲率,或第一分子表面的平均曲率。
[0115]
示例性地,表面化学特征确定模块包括:化学环境特征确定子模块,被配置为针对多个表面节点中每个节点,通过将与节点关联的多个原子的原子信息映射到节点,得到节点的化学环境特征;表面化学特征确定子模块,被配置为基于多个表面节点中每个节点的化学环境特征,使用全连接神经网络,确定第一表面化学特征。
[0116]
示例性地,含时演化多尺度特征确定模块,被配置为通过将第一几何特征与第一表面化学特征进行整合,确定第一分子的统一特征;以及基于含时演化神经网络模型,基于统一特征确定第一含时演化多尺度特征。
[0117]
可选地,含时演化神经网络模型包括演化算符,演化算符基于以下至少一项被确定:黎曼流形上拉普拉斯算符的本征函数、或表面势能项,表面势能项为用户设定的在黎曼流形上的函数分布。
[0118]
在一些实施例中,结合位点确定模块810可以被配置为通过使用交叉注意力网络,来确定第一结合位点以及第二结合位点。
[0119]
示例性地,第一化学特征被表示为第一结合位点的黎曼流形上的拉普拉斯算符的本征函数的线性组合,第二化学特征被表示为第二结合位点的黎曼流形上的拉普拉斯算符的本征函数的线性组合。
[0120]
在一些实施例中,泛函映射矩阵确定模块830被配置为确定第一化学特征的第一系数矩阵;确定第二化学特征的第二系数矩阵;以及基于第一系数矩阵和第二系数矩阵,确定泛函映射矩阵。
[0121]
在一些实施例中,装置800还可以包括复合物结构确定模块,被配置为基于第一结合位点和第二结合位点之间的对接,确定第一分子与第二分子对接之后的复合物的结构。
[0122]
图8的装置800能够用于实现上述结合图1至图7所述的过程,为了简洁,这里不再赘述。
[0123]
本公开的实施例中对模块或单元的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时也可以有另外的划分方式,另外,在公开的实施例中的各功能单元可以集成在一个单元中,也可以是单独物理存在,也可以两个或两个以上单元集成为一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
[0124]
图9示出了可以用来实施本公开的实施例的示例设备900的框图。应当理解,图9所示出的设备900仅仅是示例性的,而不应当构成对本文所描述的实现方式的功能和范围的任何限制。例如,可以使用设备900来执行上文描述的图1至图7所述的过程。例如,设备900可以被实现为经典计算机和/或量子计算机。
[0125]
如图9所示,设备900是通用计算设备的形式。计算设备900的组件可以包括但不限于一个或多个处理器或处理单元910、存储器920、存储设备930、一个或多个通信单元940、一个或多个输入设备950以及一个或多个输出设备960。处理单元910可以是实际或虚拟处理器并且能够根据存储器920中存储的程序来执行各种处理。在多处理器系统中,多个处理单元并行执行计算机可执行指令,以提高计算设备900的并行处理能力。
[0126]
计算设备900通常包括多个计算机存储介质。这样的介质可以是计算设备900可访问的任何可以获得的介质,包括但不限于易失性和非易失性介质、可拆卸和不可拆卸介质。存储器920可以是易失性存储器(例如寄存器、高速缓存、随机访问存储器(random access memory,ram))、非易失性存储器(例如,只读存储器(read only memory,rom)、电可擦除可编程只读存储器(electrically erasable programmable read only memory,eeprom)、闪存)或它们的某种组合。存储设备930可以是可拆卸或不可拆卸的介质,并且可以包括机器可读介质,诸如闪存驱动、磁盘或者任何其他介质,其可以能够用于存储信息和/或数据(例如用于训练的训练数据)并且可以在计算设备900内被访问。
[0127]
计算设备900可以进一步包括另外的可拆卸/不可拆卸、易失性/非易失性存储介质。尽管未在图9中示出,可以提供用于从可拆卸、非易失性磁盘(例如“软盘”)进行读取或写入的磁盘驱动和用于从可拆卸、非易失性光盘进行读取或写入的光盘驱动。在这些情况中,每个驱动可以由一个或多个数据介质接口被连接至总线(未示出)。存储器920可以包括计算机程序产品925,其具有一个或多个程序模块,这些程序模块被配置为执行本公开的各种实现方式的各种方法或动作。
[0128]
通信单元940实现通过通信介质与其他计算设备进行通信。附加地,计算设备900的组件的功能可以以单个计算集或多个计算机器来实现,这些计算机器能够通过通信连接进行通信。因此,计算设备900可以使用与一个或多个其他服务器、网络个人计算机(personal computer,pc)或者另一个网络节点的逻辑连接来在联网环境中进行操作。
[0129]
输入设备950可以是一个或多个输入设备,例如鼠标、键盘、追踪球等。输出设备960可以是一个或多个输出设备,例如显示器、扬声器、打印机等。计算设备900还可以根据需要通过通信单元940与一个或多个外部设备(未示出)进行通信,外部设备诸如存储设备、显示设备等,与一个或多个使得用户与计算设备900交互的设备进行通信,或者与使得计算设备900与一个或多个其他计算设备通信的任何设备(例如,网卡、调制解调器等)进行通信。这样的通信可以经由输入/输出(input/output,i/o)接口(未示出)来执行。
[0130]
根据本公开的示例性实现方式,提供了一种计算机可读存储介质,其上存储有计算机可执行指令,其中计算机可执行指令被处理器执行以实现上文描述的方法。根据本公开的示例性实现方式,还提供了一种计算机程序产品,计算机程序产品被有形地存储在非瞬态计算机可读介质上并且包括计算机可执行指令,而计算机可执行指令被处理器执行以实现上文描述的方法。根据本公开的示例性实现方式,提供了一种计算机程序产品,其上存储有计算机程序,所述程序被处理器执行时实现上文描述的方法。
[0131]
这里参照根据本公开实现的方法、装置、设备和计算机程序产品的流程图和/或框图描述了本公开的各个方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机可读程序指令实现。
[0132]
这些计算机可读程序指令可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理单元,从而生产出一种机器,使得这些指令在通过计算机或其他可编程数据处理装置的处理单元执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中,这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作,从而,存储有指令的计算机可读介质则包括一个制造品,其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。
[0133]
可以把计算机可读程序指令加载到计算机、其他可编程数据处理装置、或其他设备上,使得在计算机、其他可编程数据处理装置或其他设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机、其他可编程数据处理装置、或其他设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。
[0134]
附图中的流程图和框图显示了根据本公开的多个实现的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分,模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
[0135]
以上已经描述了本公开的各实现,上述说明是示例性的,并非穷尽性的,并且也不限于所公开的各实现。在不偏离所说明的各实现的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实现的原理、实际应用或对市场中的技术的改进,或者使本技术领域的其他普通技术人员能理解本文公开的各个实现方式。

技术特征:


1.一种分子对接的方法,包括:基于第一分子的第一含时演化多尺度特征和第二分子的第二含时演化多尺度特征,确定所述第一分子的第一分子表面的第一结合位点以及所述第二分子的第二分子表面的第二结合位点;获取所述第一结合位点的第一化学特征和所述第二结合位点的第二化学特征;通过泛函映射,确定所述第一化学特征与所述第二化学特征之间的泛函映射矩阵;基于所述泛函映射矩阵,确定所述第一结合位点与所述第二结合位点之间的对应关系;以及基于所述对应关系,将所述第一分子和所述第二分子通过所述第一结合位点和所述第二结合位点进行对接。2.根据权利要求1所述的方法,还包括:确定所述第一分子的第一分子表面,所述第一分子表面为连续的黎曼流形且所述第一分子表面包括离散的多个表面节点;基于所述第一分子表面,确定所述第一分子的第一几何特征;通过将所述第一分子内部的原子信息映射到所述多个表面节点,确定所述第一分子的第一表面化学特征;以及基于所述第一几何特征和所述第一表面化学特征,确定所述第一分子的第一含时演化多尺度特征。3.根据权利要求2所述的方法,其中确定第一分子表面包括:基于所述第一分子的电子密度场的等值面,确定所述第一分子表面;或者基于所述第一分子的溶剂可及表面或不可及表面的采样,确定所述第一分子表面。4.根据权利要求2所述的方法,其中所述第一几何特征包括以下至少一项:基于所述第一分子表面的拉普拉斯算符的本征函数和本征值所确定的热核特征函数,基于所述第一分子表面的拉普拉斯算符的本征函数和本征值所确定的波核特征函数,所述第一分子表面的高斯曲率,或所述第一分子表面的平均曲率。5.根据权利要求2所述的方法,其中确定第一表面化学特征包括:针对所述多个表面节点中每个节点,通过将与所述节点关联的多个原子的原子信息映射到所述节点,得到所述节点的化学环境特征;基于所述多个表面节点中每个节点的化学环境特征,使用全连接神经网络,确定所述第一表面化学特征。6.根据权利要求2所述的方法,其中确定所述第一含时演化多尺度特征包括:通过将所述第一几何特征与所述第一表面化学特征进行整合,确定所述第一分子的统一特征;以及基于含时演化神经网络模型,基于所述统一特征确定所述第一含时演化多尺度特征。7.根据权利要求6所述的方法,其中所述含时演化神经网络模型包括演化算符,所述演化算符基于以下至少一项被确定:黎曼流形上拉普拉斯算符的本征函数、或表面势能项,所述表面势能项为用户设定的在黎曼流形上的函数分布。
8.根据权利要求1所述的方法,确定所述第一结合位点以及所述第二结合位点包括:通过使用交叉注意力网络,来确定所述第一结合位点以及所述第二结合位点。9.根据权利要求1所述的方法,其中所述第一化学特征被表示为第一结合位点的黎曼流形上的拉普拉斯算符的本征函数的线性组合,所述第二化学特征被表示为第二结合位点的黎曼流形上的拉普拉斯算符的本征函数的线性组合。10.根据权利要求1所述的方法,其中确定所述第一化学特征与所述第二化学特征之间的泛函映射矩阵包括:确定所述第一化学特征的第一系数矩阵;确定所述第二化学特征的第二系数矩阵;基于所述第一系数矩阵和所述第二系数矩阵,确定所述泛函映射矩阵。11.根据权利要求1至10中任一项所述的方法,还包括:基于所述第一结合位点和所述第二结合位点之间的对接,确定所述第一分子与所述第二分子对接之后的复合物的结构。12.一种电子设备,包括:至少一个处理单元;至少一个存储器,所述至少一个存储器被耦合到所述至少一个处理单元并且存储用于由所述至少一个处理单元执行的指令,所述指令当由所述至少一个处理单元执行时使得所述电子设备执行动作,所述动作包括:基于第一分子的第一含时演化多尺度特征和第二分子的第二含时演化多尺度特征,确定所述第一分子的第一分子表面的第一结合位点以及所述第二分子的第二分子表面的第二结合位点;获取所述第一结合位点的第一化学特征和所述第二结合位点的第二化学特征;通过泛函映射,确定所述第一化学特征与所述第二化学特征之间的泛函映射矩阵;基于所述泛函映射矩阵,确定所述第一结合位点与所述第二结合位点之间的对应关系;以及基于所述对应关系,将所述第一分子和所述第二分子通过所述第一结合位点和所述第二结合位点进行对接。13.一种分子对接的装置,包括:结合位点确定模块,被配置为基于第一分子的第一含时演化多尺度特征和第二分子的第二含时演化多尺度特征,确定所述第一分子的第一分子表面的第一结合位点以及所述第二分子的第二分子表面的第二结合位点;化学特征获取模块,被配置为获取所述第一结合位点的第一化学特征和所述第二结合位点的第二化学特征;泛函映射矩阵确定模块,被配置为通过泛函映射,确定所述第一化学特征与所述第二化学特征之间的泛函映射矩阵;对应关系确定模块,被配置为基于所述泛函映射矩阵,确定所述第一结合位点与所述第二结合位点之间的对应关系;以及对接模块,被配置为基于所述对应关系,将所述第一分子和所述第二分子通过所述第一结合位点和所述第二结合位点进行对接。
14.一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现根据权利要求1至11中任一项所述的方法。

技术总结


本公开实施例涉及一种分子对接的方法及电子设备。该方法包括:基于第一分子的第一含时演化多尺度特征和第二分子的第二含时演化多尺度特征,确定第一分子的第一分子表面的第一结合位点以及第二分子的第二分子表面的第二结合位点;获取第一结合位点的第一化学特征和第二结合位点的第二化学特征;通过泛函映射,确定第一化学特征与第二化学特征之间的泛函映射矩阵;基于泛函映射矩阵,确定第一结合位点与第二结合位点之间的对应关系;以及基于对应关系,将第一分子和第二分子通过第一结合位点和第二结合位点进行对接。以此方式,该分子对接方案无需通过大量的采样实现,因此能够更快地确定对接后所产生的三维结构,更加高效。效。效。


技术研发人员:

王逸 汪励颢 沈宇宁 陈实

受保护的技术使用者:

脸萌有限公司

技术研发日:

2022.09.21

技术公布日:

2022/12/30

本文发布于:2024-09-23 14:35:19,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/3/51034.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:分子   特征   表面   所述
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议