分子表示方法及电子设备与流程



1.本公开总体上涉及计算机领域和生物信息领域,并且更具体地涉及分子表示方法及电子设备。


背景技术:



2.近年来,利用人工智能技术(例如机器学习、深度学习等)加速新药研发已经成为生物制药领域的重要发展方向。相比于传统的湿实验方法,如由专家在实验室合成新药并测试活性,基于人工智能的药物研发可以通过计算机模拟和高通量筛选大幅加速新药的研发速率。然而,人工智能技术并不能直接作用于实验室里的药物分子。相反,药物分子需要通过分子表示方法进行表征从而实现计算机建模。常见的分子表示方法包括图模型(molecular graph)、点云(point cloud)、3维体素(voxel)等。
3.但是,目前常见的分子表示方法无法全面地表征分子的整体信息。因此需要一种更普适的分子表示方法。


技术实现要素:



4.根据本公开的示例实施例,提供了一种分子表示方法,基于分子表面的黎曼流形来确定分子的含时演化多尺度特征
5.在本公开实施例的第一方面,提供了一种分子表示方法,包括:确定分子的分子表面,分子表面为连续的黎曼流形且分子表面包括离散的多个表面节点;基于分子表面,确定分子的几何特征;通过将分子内部的原子信息映射到多个表面节点,确定分子的化学特征;通过将几何特征与化学特征进行整合,确定分子的统一特征;以及通过使用含时演化神经网络模型,基于统一特征确定分子的含时演化多尺度特征。
6.在本公开实施例的第二方面,提供了一种电子设备,包括:至少一个处理单元;至少一个存储器,至少一个存储器被耦合到至少一个处理单元并且存储用于由至少一个处理单元执行的指令,该指令当由至少一个处理单元执行时使得电子设备执行根据本公开的第一方面所描述的方法。
7.在本公开实施例的第三方面,提供了一种计算机可读存储介质,该计算机可读存储介质具有在其上存储的机器可执行指令,该机器可执行指令在由设备执行时使该设备执行根据本公开的第一方面所描述的方法。
8.在本公开实施例的第四方面,提供了一种计算机程序产品,包括计算机可执行指令,其中计算机可执行指令在被处理器执行时实现根据本公开的第一方面所描述的方法。
9.在本公开实施例的第五方面,提供了一种电子设备,包括:处理电路,被配置为执行根据本公开的第一方面所描述的方法。
10.提供发明内容部分是为了以简化的形式来介绍一系列概念,它们在下文的具体实施方式中将被进一步描述。发明内容部分不旨在标识本公开的关键特征或必要特征,也不旨在限制本公开的范围。本公开的其它特征将通过以下的描述变得容易理解。
附图说明
11.结合附图并参考以下详细说明,本公开各实施例的上述和其他特征、优点及方面将变得更加明显。在附图中,相同或相似的附图标注表示相同或相似的元素,其中:
12.图1示出了针对苯分子的多种不同的分子表示方法的示意图;
13.图2示出了根据本公开的一些实施例的示例过程的示意流程图;
14.图3示出了根据本公开的一些实施例的苯分子的电子密度场的示意图;
15.图4a和图4b分别示出了根据本公开的一些实施例的以三角剖分所表示的分子表面的示意图;
16.图5a示出了根据本公开的一些实施例的将原子的化学信息投影到分子表面的节点的示意图;
17.图5b示出了根据本公开的一些实施例的分子表面的静电势能函数的示意图;
18.图6示出了根据本公开的一些实施例的分子的前6个本征函数在分子表面的分布的示意图;
19.图7示出了根据本公开的一些实施例的在分子表面的热分布随着时间的变化的示意图;
20.图8示出了根据本公开的一些实施例的确定含时演化多尺度特征的示意图;
21.图9示出了根据本公开的一些实施例的一对镜像对称的手性分子和表面对应的一组函数梯度的空间关系的示意图;
22.图10示出了根据本公开的一些实施例的示例装置的框图;以及
23.图11示出了可以用来实施本公开的实施例的示例设备的框图。
具体实施方式
24.下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。
25.如前所述,通过使用诸如机器学习等人工智能技术,可以加速药物分子的活性测试等。药物分子可以通过分子表示方法进行表征,以用于量化的建模。在已知的分子数量有限的情况下,基于分子表示方法(例如包含丰富分析相关信息的表示方法)使用机器学习模型能够预测分子的性质。但是目前的分子表示方法无法全面地表征分子的信息。即使机器学习可以从大数据中学到一些原始表示中不包含的特征。但是在数据有限的情况下,例如在大多的生物制药的问题上,需要一种更有效的分子表示方法以更全面地表征分子的信息。
26.图1示出了针对苯分子100的多种不同的分子表示方法的示意图。在图1中,示出了分子式(molecular formula)表示110、微笑(smiles)表示120、图(graph)表示130、球棍式表示140、分子轨道表示150和电子密度场表示160。分子表示方法110至160中的任一种都可以被用来对苯分子进行建模,但是不同的分子表示方法所包含的分子信息是不同的。如分子式表示110不包含任何3维结构信息。如图表示130为凯库勒(kekul
é
)结构形式,虽然可以有效地表示原子之间的连接关系,但是不显式地表达其电子云的空间分布,例如分子的空
间占据情况等。
27.虽然各种不同的分子表示方法可以分别用于不同的场景,但是常见的分子表示方法通常不会将分子作为一个整体建模,相反,它们仅仅针对局部的结构和化学信息进行建模。但是实际的物理化学作为是多尺度的,例如静电力是长程相互作用的,因此目前基于局部的分子表示方法无法更准确地符合物理规律地来建模。并且这样的局限性会导致相应的机器学习模型无法有效地对分子的定量结构-活性关系进行建模,从而也会影响下游的生物制药任务的成功率。
28.至少为了解决上述问题以及潜在的其他问题,本公开的实施例提供了一种分子表示的方案。具体而言,基于分子表面的黎曼流形,来确定分子的含时演化多尺度特征,表征分子的化学信息和几何信息,从而既包括分子的局部特征又保证分子的整体特征,使得所包括的信息更加全面。本公开的实施例中的分子表示方法能够被用于诸如机器学习等人工智能技术中的建模,例如能够更有效地表征分子的活性,提升生物制药任务的成功率。
29.图2示出了根据本公开的一些实施例的示例过程200的示意流程图。在框210,确定分子的分子表面,分子表面为连续的黎曼流形且分子表面包括离散的多个表面节点。在框220,基于分子表面,确定分子的几何特征。在框230,通过将分子内部的原子信息映射到多个表面节点,确定分子的化学特征。在框240,通过将几何特征与化学特征进行整合,确定分子的统一特征。在框250,通过使用含时演化神经网络模型,基于统一特征确定分子的含时演化多尺度特征。
30.示例性地,本公开的实施例中的分子可以是生物大分子,例如蛋白质、dna等;也可以是小分子,例如阿司匹林药物小分子等。本公开对此不限定。
31.示例性地,本公开的实施例可以基于黎曼流形的分子表面来确定化学特征和几何特征。示例性地,可以基于拉普拉斯算符的本征函数和本征值来确定几何特征。下面将结合图3至图10较为详细地描述本公开的部分实施例。
32.本公开的一些示例性的实施例中,可以基于分子的电子密度场的等值面来确定分子的分子表面。
33.生物分子的尺度一般以10-10
米(埃)为单位,在此微观尺度下,生物分子普遍遵循量子力学和统计力学所描述的物理定律,而不是宏观尺度下的牛顿力学。从微观电子结构的角度来说,分子由带正电荷的原子核与带负电荷的电子云组成。直观上,可以把分子理解为电子密度场(electron density field)。不同的生物分子拥有不同的化学组成和3维几何结构,从而表现出不同的物理化学性质,例如特定的药物分子会与人体内的某种蛋白受体结合来达到效果。也就是说不同的分子有其独特的电子密度场,因此可以通过描述该密度场的形状和化学性质来表示不同的分子。具体而言,可以确定密度场的等值面,将其称之为该分子的分子表面。
34.作为一个示例,如图3示出了本公开的实施例的苯分子的电子密度场300,在图3中,曲线310表示等值面。
35.示例性地,分析的电子密度场可以被表示为分子的电子密度函数。可选地,可以通过量子化学模拟的方式来确定分子的电子密度函数,进一步地,可以基于该分子的电子密度函数的等值面来确定分子表面。例如,分子的电子密度函数可能存在多个等值面,那么在本公开的一些实施例中,可以通过选取其中的一个等值面来确定分子表面。
36.本公开的一些示例性的实施例中,也可以通过其他的分子表面计算方法来确定分子表面。举例而言,可以通过msms计算软件来确定分子的分子表面。
37.本公开的一些示例性的实施例中,也可以基于分子的溶剂可及表面或不可及表面的采样,来确定分子的分子表面。
38.可理解,在另一些示例中,本公开的实施例中也可以采用其他的方式来确定分子的分子表面,本公开对此不限定。
39.在一些示例中,分子表面可以被表示为离散的多个节点以及节点与节点之间的连接关系。示例性地,可以基于所确定的分子表面来进一步确定表面信息。举例而言,可以采用三角剖分等网格表示方法来存储表面信息。如图4a和图4b示出了以三角剖分所表示的分子表面的示意图。如图所示,表面上示出有三角剖分节点(简称为“节点”),且节点与节点可能存在连接关系。也就是说,分子表面包括多个表面节点,例如多个三角剖分节点。
40.示例性地,该表面包裹着分子,可以表达分子的形状。本公开的实施例中,被存储的表面信息可以包括:分子内部的原子信息、以及分子表面上每个节点的3维坐标和节点之间的连接关系。例如,分子内部的原子信息包括原子的三维坐标和原子种类等相关化学信息。可理解的是,分子表面是二维黎曼流形,该流形本身是连续光滑的。在本公开的实施例的后续处理过程中,可以将该连续光滑的黎曼流形离散化,例如三角剖分节点。
41.本公开的一些示例性的实施例中,针对多个表面节点中每个节点,通过将与节点关联的多个原子的原子信息映射到节点,得到节点的化学环境特征;基于多个表面节点中每个节点的化学环境特征,使用全连接神经网络,确定化学特征。示例性地,与节点关联的多个原子可以包括:与节点之间的距离低于距离阈值的范围内的多个原子。或者示例性地,与节点关联的多个原子包括:与节点距离最近的固定数量的邻近原子(例如,8个最近邻原子)。举例而言,可以按照与节点之间的距离将原子进行排序,并从经排序的原子中确定最邻近的固定数量的(如8个)原子。
42.具体而言,可以基于分子的表面信息来确定分子表面的化学势分布。可选地,化学势分布也可以被称为化学函数分布,例如静电势能分布。
43.示例性地,针对分析表面的任一节点,可以确定该节点周围特定距离范围内的所有原子与该节点之间的距离。例如,可以将在距离阈值范围内的原子称为临近原子。随后,可以确定每个临近原子与该节点所在的曲面切平面的法线夹角、以及对应的原子种类,并以此作为该节点的化学环境的初始表示。示例性地,可以通过全连接神经网络来提取分子表面的化学函数分布。也就是说,通过全连接神经网络能够学习到表面节点的周围化学环境的表示。
44.这样,通过将内部的原子的化学信息映射(也称投影)到表面的节点,能够通过分子表面的节点来表征整个分子的化学信息。图5a示出了将原子的化学信息投影到分子表面的节点的示意图。如图所示,针对节点510,可以确定特定距离范围520内的原子。随后可以将所确定的原子的化学信息投影到节点510上,以确定节点510的化学环境的初始表示,如节点的化学环境特征。
45.应注意的是,本公开的实施例中,可以利用原子的化学信息来更新分子表面的节点的化学表示,但是节点的信息不会反馈和改变原子的化学信息,也就是该投影属于是单向信息传递关系。不同于双向更新的分子的图神经网络。可理解,图神经网络虽然可以通过
图信息传递来实现远距离的信息交流,但是该交流机制在节点数量较大的情况下(例如分子的表面三角剖分表示通常有上万个节点)是低效的。相反,本公开的实施例中通过原子信息到节点的单向信息传递关系,能够提升信息交流的处理效率。
46.示例性地,通过全连接神经网络,可以基于多个表面节点中各个节点的化学环境特征,来确定分子表面的化学特征。可选地,作为一例,原子的化学信息例如可以被表示为多维(如5维)数组,表面化学特征例如可以被表示为多维(如16维)数组。
47.图5b示出了分子表面的静电势能函数530的一个示意图。举例而言,可以基于例如16维数组的化学特征中的第1维特征通过提取得到该静电势能函数。可理解的是,尽管图5b以静电势能函数为例进行阐述,但是本公开的实施例不限于此,例如用户可以自定义其他的化学信息,或者可以通过神经网络等方式来学习到其他的化学表示。
48.以此方式,通过分子表面的化学势分布可以同时包含几何信息以及化学信息。示例性地,诸如静电势能函数等化学势函数在分子表面的分布属于分子的表面黎曼流形空间表示,也就是说,化学信息可以以函数的形式存在于分子的表面黎曼流形空间中。换句话说,本公开的实施例中,将分子的表面看作连续光滑的黎曼流形空间,并在该二维的流形空间中定义与化学相关的函数。
49.本公开的一些示例性的实施例中,几何特征可以包括以下中的一项或多项:热核特征函数、波核特征函数、分子表面的高斯曲率、或分子表面的平均曲率。
50.示例性地,可以确定分子表面(黎曼流形)上的拉普拉斯算符的本征函数(或简称拉普拉斯本征函数)和本征值,并基于本征函数和本征值来确定热核特征函数和/或波核特征函数。
51.示例性地,可以确定每个分子表面黎曼流形上拉普拉斯算符(laplace-beltrami operator)的本征函数和本征值,表示为如下式(1):
52.δφi=λiφiꢀꢀꢀ
(1)
53.在式(1)中,δ表示拉普拉斯算符,其含义如下式(2):
[0054][0055]
在式(1)中,表示第i个本征函数,λi表示第i个本征值。在式(2)中,表示梯度算符,f表示分布在黎曼流形上的任意函数。示例性地,可以利用已知的(例如scipy数值计算软件)或者未来开发的算法等来确定本征函数,本公开对此不限定。
[0056]
在一些示例中,每个分子表面流形的拉普拉斯本征函数和其对应的本征值是独特的,并且只与该分子本身的形状有关,不受分子在三维空间中的位置与取向的影响。因此,黎曼流形的本征函数也被称为“形状基因(shape dna)”。对每个分子的表面流形,可以确定其所有的本征函数和本征值。示例性地,还可以进一步按本征值的大小进行排序,例如可以按照本征值从小到大的顺序进行排序,然后再取排序中的前k个(例如k=100或其他值)本征值,这样能够降低计算量。
[0057]
可理解的是,由于不同的生物分子具有不同的形状,进而也有不同的表面流形本征函数。图6示出了根据本公开的一些实施例的分子的前6个本征函数在分子表面的分布。示例性地,前6个本征函数在图6中示出为在一些示例中,本征函数在图6中表现出
了区域性的起伏,相应地,本征函数可以理解为在二维流形空间的傅里叶基函数(例如可以被理解为二维驻波),其在一维直线上对应为正弦函数和余弦函数。
[0058]
本公开的一些示例性的实施例中,几何特征可以被表示为几何特征函数的形式。可以基于分子表面流形上的拉普拉斯算符的本征函数和本征值,确定分子表面的几何特征函数。可选地,几何特征函数可以包括热核特征函数(heat kernel signature,hks)和/或波核特征函数(wave kernel signature,wks)。
[0059]
示例性地,可以基于前述确定的本征函数和本征值λi,构建hks和wks为:
[0060][0061][0062]
在式(3)和(4)中,t和∈分别表示时间和能量,例如可以由用户进行设置。
[0063]
可选地,分子表面的几何特征函数还可以包括分子表面(黎曼流形)上的高斯曲率和/或平均曲率。可理解,可以通过几何的方法来计算得到高斯曲率和平均曲率,这里不再赘述。
[0064]
本公开的一些示例性的实施例中,可以通过将几何特征与化学特征进行整合,确定分子的统一特征。例如几何特征被表示为几何特征函数,化学特征被表示为化学势分布,那么可以基于分子表面的化学势分布以及分子表面的几何特征函数,确定分子表面的统一特征。该统一特征(例如被表示为表面特征函数)可以表示对化学信息和几何信息的整合。
[0065]
示例性地,可以通过全连接神经网络来整合每个节点的化学特征和几何特征,从而得到每个节点上的表面特征函数。举例而言,假设化学特征被表示为16维的数组,几何特征被表示为32维的数组,那么通过全连接神经网络可以将化学特征和几何特征非线性地变换为64维的表面特征函数。可理解,表面特征函数的维度不限于64维,其可以是由用户自定义的,例如128维或其他维度,本公开对此不限定。
[0066]
示例性地,全连接神经网络可以基于分子数据集通过训练得到,具体而言,分子数据集与本公开的实施例的应用场景(例如下游的预测任务)有关。
[0067]
本公开的一些示例性的实施例中,可以基于含时演化神经网络模型,基于统一特征确定含时演化多尺度特征。示例性地,含时演化多尺度特征表示分子表面的多尺度特征。
[0068]
示例性地,含时演化神经网络模型包括演化算符,该演化算符至少基于拉普拉斯算符和/或基于表面势能项。
[0069]
举例而言,可以将含时演化算符作用于表面特征函数,以得到表征多尺度特征的函数。例如,含时演化算符可以被表示为或其中为哈密顿算符,例如δ表示拉普拉斯算符,v表示表面势能项。例如,表面势能项v可以是用户设定的流形上的函数分布。
[0070]
在一些实施例中,当含时演化算符被表示为时,针对初始函数u0,可以通过下式(5)确定t时刻的函数分布:
[0071][0072]
为了简化示例,可以假设v=0,从而式(5)可以被简化为如下的式(6):
[0073]ut
=e-iδt
u0ꢀꢀꢀ
(6)
[0074]
该式(6)描述了一个初始函数u0在流形空间(也就是分子表面)随时间的变化。通过控制不同的演化时间t,可以得到随不同的时间演化后的新函数分布u
t
。可理解的是,式(6)所得到的u
t
是复数,而输入u0是实数。在实际操作中,可以对u
t
取模,从而得到与u
t
对应的实数。
[0075]
由于不同的分子具有不同的几何结构,其黎曼流形空间也是独特的,函数u0在不同流形上的演化方式也由该流形空间决定。因此演化后的函数可以作为分子信息的新表示,并且这种表示包含了流形的整体和局部信息。
[0076]
在另一些实施例中,当含时演化算符被表示为且v=0时,针对初始函数v0,可以通过下式(7)确定t时刻的函数分布:
[0077]vt
=e-δt
v0ꢀꢀꢀ
(7)
[0078]
该式(7)可以理解是将上面式(6)中的虚数含时演化算符替换为实数含时演化算符(去掉i)。可以理解为,式(6)属于量子力学框架,而式(7)属于经典力学框架,在实际应用中这两种框架都可以用来实现分子的黎曼流形表示。
[0079]
在本公开的实施例中,初始函数u0或v0可以为前述的统一特征,即分子的表面特征函数。以此方式,本公开的实施例可以基于含时演化算符得到含时演化多尺度特征,即u
t
或v
t

[0080]
示例性地,如式(7)中的含时演化算符e-δt
可以被称为热算符(heat operator),其描述初始的热分布v0在t时间之后在流形空间的分布情况v
t

[0081]
作为一例,图7示出了在分子表面的热分布随着时间的变化的示意图。可理解,该变化可以通过如式(7)所示的含时演化过程来进行定量地描述。
[0082]
从图7可以看到,随着时间t越来越大,热传递的范围越来越远。因此通过控制不同的演化时间t,可以在分子表面的黎曼流形空间实现多尺度信息传递(短时间对应小尺度信息传递,长时间对应大尺度信息传递)。因此,可以利用基于含时演化的神经网络学习到分子在不同尺度下的几何与化学信息,从而提升对分子的表示能力。
[0083]
在本公开的实施例中,如上结合式(1)描述了拉普拉斯算符的本征函数和本征值,因而,含时演化算符可以基于黎曼流形上的拉普拉斯算符的本征函数和本征值。基于此,式(7)可以进一步被表示为如下的式(8):
[0084][0085]
类似地,式(6)可以进一步被表示为如下的式(9):
[0086][0087]
以此方式,本公开的实施例通过使用黎曼流形和其拉普拉斯算符的本征函数和本征值,从而能够在本征空间中进行含时演化,这比在实空间中的操作将更加高效。
[0088]
如上所述,统一特征例如可以被表示为64维的表面特征函数,也就是说,分子表面的每个节点可以由64维数组来表示该节点的统一特征。那么可以基于式(8)或式(9),对64个维度的函数分别进行含时掩护。可理解,每个函数可以具有其独特的演化时间,例如t可以作为用于含时演化的神经网络的参数或者可以由用户设定。经过含时演化之后,可以得到分子表面上的多尺度特征,包括一系列尺度的几何和化学特征。
[0089]
如上结合图3至图7较为详细地描述了如图2中的确定含时演化多尺度特征的过程200。作为示例,图8示出了根据本公开的实施例的确定含时演化多尺度特征的示意图。参照图8,针对生物分子,例如蛋白质分子801,可以提取分子表面810,并通过确定拉普拉斯算符的本征函数和本征值812,而得到几何特征814。通过从蛋白质分子801所获取的原子结构820以及分子表面810,可以通过将化学信息映射到表面,而得到化学特征824。进一步地,可以通过例如特征整合网络,基于几何特征814和化学特征824得到统一特征。另外,还可以基于含时演化神经网络,得到含时演化多尺度特征830。可理解的是,尽管图8中以蛋白质分子801为例,但是本公开不限于此,实际上本公开不限于分子的类型或大小。
[0090]
附加地或可选地,还可以基于含时演化多尺度特征,通过平均池化或最大池化来确定分子的整体特征。这样能够简化特征的表示方式。
[0091]
本公开的实施例中,通过含时演化多尺度特征,提供了一种不同于已有的分子表示方法的、基于黎曼流形的分子表示方法。该含时演化多尺度特征包括分子的几何特征和化学特征,增强了对分子特征的描述能力。并且可理解,尽管真实体系中(例如人体)的分子之间的相互作用是动态过程,分子的构型会不断发生变化。但是本公开实施例的分子表示方法能够有效地表达分子的不同构象。
[0092]
可理解,本公开的实施例中分子表示方法可以被应用于下游的生物制药。例如,可以提供给机器学习模型进行分子建模,由于本公开通过显式地更全面的特征提供给机器学习模型,能够提升机器学习模型的学习效果,可以使得机器学习模型更好地理解分子的量化结构-活性关系,提升机器学习的泛化能力。
[0093]
作为一个示例,本公开实施例的方案能够被用于确定镜像对称分子的手性。示例性地,可以基于含时演化多尺度特征在黎曼流形上的方向梯度,来确定镜像对称分子的手性。
[0094]
可理解,本公开实施例所得到的含时演化多尺度特征的表示仅包含标量特征,并不具有方向(即矢量)信息。但是,由于真实的分子表面是存在于三维空间中的二维黎曼流形,因此在分子制药的过程中需要考虑其对称性的问题。
[0095]
在一些实施例中,可以通过含时演化多尺度特征在黎曼流形上的方向梯度,来表征镜像对称的分子。也就是说,将含时演化多尺度特征在黎曼流形上的方向梯度作为镜像对称的分子的特征。
[0096]
具体而言,针对任一函数f,其在黎曼流形上的梯度可以表示为如下的式(10):
[0097][0098]
在式(10)中,vi和vj分别表示分子表面的不同的两个节点,f(vi)和f(vj)分别表示在这两个不同的节点上的函数值,为梯度算符,是函数f在流形上的梯度。
[0099]
基于式(10),如果定义ai=v
j-vi以及di=f(vj)-f(vi),那么可以通过如下的式(11)来得到函数的梯度:
[0100][0101]
针对一对镜像对称的手性分子,可以通过式(11)得到其各自的函数梯度矢量。如图9示出了一对镜像对称的手性分子和表面对应的一组函数梯度的空间关系的示意图。基于此,可以确定
[0102][0103]
可见,一对镜像对称的分子上,一组矢量对应的向量积方向相反(一个指向纸面内,另一个指向纸面外)。因此,本公开的实施例可以基于方向梯度来确定镜像对称分子的手性。可理解,区分不同的手性对于生物制药是至关重要的,例如某些特定手性的药物分子具有活性,但是与其具有镜像结构的不同手性的分子却可能有害健康,例如反应停(thalidomide)。因此,本公开实施例通过方向梯度来区分手性,能够便于在生物制药过程中筛选出具有活性的分子。
[0104]
附加地或可选地,可以将方向梯度的信息与前述的含时演化多尺度特征进行结合,来表征分子表面的特征函数。进一步可以通过神经网络学习到不同手性的分子相关信息,从而提升下游制药任务的成功率。
[0105]
作为另一个示例,本公开实施例的方案能够被用于确定蛋白质分子的结合位点。示例性地,可以基于含时演化多尺度特征,确定分子表面的多个表面节点中的至少一个节点,至少一个节点指示与病毒进行结合的位点。
[0106]
举例而言,可以获取分子表面的第一区域(例如分子表面部分区域或全部区域),针对该第一区域中的至少两个节点,分析每个节点是否能够与特定病毒进行结合,从而实现二元预测。作为示意,图8中的841示出了位点结合的示意图。例如,该分子可以为抗体蛋白质。通过该结合位点的分析,可以加速对于抵抗病毒的药物研发的进程。
[0107]
作为再一个示例,本公开实施例的方案能够被用于确定分子的生物活性。示例性地,可以获取分子表面的目标区域;基于含时演化多尺度特征,确定与分子表面的目标区域对应的区域含时演化多尺度特征;基于区域含时演化多尺度特征,从多种预定分子中确定与目标区域具有关联的至少一种预定分子。
[0108]
举例而言,可以获取分子表面的第二区域作为目标区域。针对多种预定分子,可以确定该目标区域中的分子与预定分子之间的结合特性。例如,可以定位出结合特性最优的预定分子,从而基于该定位出的预定分子来确定该分子的生物活性。作为示意,图8中的842示出了生物活性确定的示意图,其中多种预定分子包括:二磷酸腺苷(adp)、血红素(heme)、烟酰胺腺嘌呤二核苷酸(nad)和三磷酸腺苷(atp)。
[0109]
应注意的是,尽管上述以结合位点和活性分析作为示例描述了生物制药中的应
用,但是本公开的实施例不限于此,实际上,本公开的基于黎曼流形的分子表示方法能够被用于各种基于人工智能技术的多个应用中,此处不再一一罗列。
[0110]
应理解,在本公开的实施例中,“第一”,“第二”,“第三”等只是为了表示多个对象可能是不同的,但是同时不排除两个对象之间是相同的,不应当解释为对本公开实施例的任何限制。
[0111]
还应理解,本公开的实施例中的方式、情况、类别以及实施例的划分仅是为了描述的方便,不应构成特别的限定,各种方式、类别、情况以及实施例中的特征在符合逻辑的情况下,可以相互结合。
[0112]
还应理解,上述内容只是为了帮助本领域技术人员更好地理解本公开的实施例,而不是要限制本公开的实施例的范围。本领域技术人员根据上述内容,可以进行各种修改或变化或组合等。这样的修改、变化或组合后的方案也在本公开的实施例的范围内。
[0113]
还应理解,上述内容的描述着重于强调各个实施例之前的不同之处,相同或相似之处可以互相参考或借鉴,为了简洁,这里不再赘述。
[0114]
图10示出了根据本公开的一些实施例的示例装置1000的示意框图。装置1000可以通过软件、硬件或者两者结合的方式实现。如图10所示,装置1000包括分子表面确定模块1010、几何特征确定模块1020、化学特征确定模块1030、统一特征确定模块1040和多尺度特征确定模块1050。
[0115]
分子表面确定模块1010被配置为确定分子的分子表面,分子表面为连续的黎曼流形且分子表面包括离散的多个表面节点。几何特征确定模块1020被配置为基于分子表面,确定分子的几何特征。化学特征确定模块1030被配置为通过将分子内部的原子信息映射到多个表面节点,确定分子的化学特征。统一特征确定模块1040被配置为通过将几何特征与化学特征进行整合,确定分子的统一特征。多尺度特征确定模块1050被配置为通过使用含时演化神经网络模型,基于统一特征确定分子的含时演化多尺度特征。
[0116]
在一些实施例中,分子表面确定模块1010可以被配置为基于分子的电子密度场的等值面,确定分子表面。
[0117]
在一些实施例中,几何特征包括热核特征函数和/或波核特征函数,并且几何特征确定模块1020包括:本征函数和本征值确定子模块,被配置为确定分子表面的拉普拉斯算符的本征函数和本征值;热核特征函数确定子模块,被配置为基于本征函数和本征值,确定热核特征函数;和/或波核特征函数确定子模块,被配置为基于本征函数和本征值,确定波核特征函数。
[0118]
可选地,几何特征确定模块1020可以被配置为:确定分子表面的高斯曲率和/或平均曲率,并且几何特征包括高斯曲率和/或平均曲率。
[0119]
在一些实施例中,化学特征确定模块1030被配置为:针对多个表面节点中每个节点,通过将与节点关联的多个原子的原子信息映射到节点,得到节点的化学环境特征;基于多个表面节点中每个节点的化学环境特征,使用全连接神经网络,确定化学特征。
[0120]
可选地,与节点关联的多个原子包括:与节点之间的距离低于距离阈值的范围内的多个原子。
[0121]
示例性地,含时演化神经网络模型包括演化算符,演化算符基于以下至少一项被确定:黎曼流形上拉普拉斯算符的本征函数、或表面势能项。可选地,表面势能项为用户设
定的在黎曼流形上的函数分布。
[0122]
在一些示例中,分子为镜像对称分子,装置1000还可以包括手性确定模块,被配置为基于含时演化多尺度特征在黎曼流形上的方向梯度,确定镜像对称分子的手性。
[0123]
在一些示例中,分子包括蛋白质分子,装置1000还可以包括位点确定模块,被配置为基于含时演化多尺度特征,确定分子表面的多个表面节点中的至少一个节点,至少一个节点指示与病毒进行结合的位点。
[0124]
在一些示例中,装置1000还可以包括活性确定模块,被配置为:获取分子表面的目标区域;基于含时演化多尺度特征,确定与分子表面的目标区域对应的区域含时演化多尺度特征;基于区域含时演化多尺度特征,从多种预定分子中确定与目标区域具有关联的至少一种预定分子。
[0125]
在一些示例中,装置1000还可以包括整体特征确定模块,被配置为基于含时演化多尺度特征,通过平均池化确定分子的整体特征。
[0126]
图10的装置1000能够用于实现上述结合图2至图9所述的过程,为了简洁,这里不再赘述。
[0127]
本公开的实施例中对模块或单元的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时也可以有另外的划分方式,另外,在公开的实施例中的各功能单元可以集成在一个单元中,也可以是单独物理存在,也可以两个或两个以上单元集成为一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
[0128]
图11示出了可以用来实施本公开的实施例的示例设备1100的框图。应当理解,图11所示出的设备1100仅仅是示例性的,而不应当构成对本文所描述的实现方式的功能和范围的任何限制。例如,可以使用设备1100来执行上文描述的图2至图9所述的过程。例如,设备1100可以被实现为经典计算机和/或量子计算机。
[0129]
如图11所示,设备1100是通用计算设备的形式。计算设备1100的组件可以包括但不限于一个或多个处理器或处理单元1110、存储器1120、存储设备1130、一个或多个通信单元1140、一个或多个输入设备1150以及一个或多个输出设备1160。处理单元1110可以是实际或虚拟处理器并且能够根据存储器1120中存储的程序来执行各种处理。在多处理器系统中,多个处理单元并行执行计算机可执行指令,以提高计算设备1100的并行处理能力。
[0130]
计算设备1100通常包括多个计算机存储介质。这样的介质可以是计算设备1100可访问的任何可以获得的介质,包括但不限于易失性和非易失性介质、可拆卸和不可拆卸介质。存储器1120可以是易失性存储器(例如寄存器、高速缓存、随机访问存储器(random access memory,ram))、非易失性存储器(例如,只读存储器(read only memory,rom)、电可擦除可编程只读存储器(electrically erasable programmable read only memory,eeprom)、闪存)或它们的某种组合。存储设备1130可以是可拆卸或不可拆卸的介质,并且可以包括机器可读介质,诸如闪存驱动、磁盘或者任何其他介质,其可以能够用于存储信息和/或数据(例如用于训练的训练数据)并且可以在计算设备1100内被访问。
[0131]
计算设备1100可以进一步包括另外的可拆卸/不可拆卸、易失性/非易失性存储介质。尽管未在图11中示出,可以提供用于从可拆卸、非易失性磁盘(例如“软盘”)进行读取或写入的磁盘驱动和用于从可拆卸、非易失性光盘进行读取或写入的光盘驱动。在这些情况中,每个驱动可以由一个或多个数据介质接口被连接至总线(未示出)。存储器1120可以包
括计算机程序产品1125,其具有一个或多个程序模块,这些程序模块被配置为执行本公开的各种实现方式的各种方法或动作。
[0132]
通信单元1140实现通过通信介质与其他计算设备进行通信。附加地,计算设备1100的组件的功能可以以单个计算集或多个计算机器来实现,这些计算机器能够通过通信连接进行通信。因此,计算设备1100可以使用与一个或多个其他服务器、网络个人计算机(personal computer,pc)或者另一个网络节点的逻辑连接来在联网环境中进行操作。
[0133]
输入设备1150可以是一个或多个输入设备,例如鼠标、键盘、追踪球等。输出设备1160可以是一个或多个输出设备,例如显示器、扬声器、打印机等。计算设备1100还可以根据需要通过通信单元1140与一个或多个外部设备(未示出)进行通信,外部设备诸如存储设备、显示设备等,与一个或多个使得用户与计算设备1100交互的设备进行通信,或者与使得计算设备1100与一个或多个其他计算设备通信的任何设备(例如,网卡、调制解调器等)进行通信。这样的通信可以经由输入/输出(input/output,i/o)接口(未示出)来执行。
[0134]
根据本公开的示例性实现方式,提供了一种计算机可读存储介质,其上存储有计算机可执行指令,其中计算机可执行指令被处理器执行以实现上文描述的方法。根据本公开的示例性实现方式,还提供了一种计算机程序产品,计算机程序产品被有形地存储在非瞬态计算机可读介质上并且包括计算机可执行指令,而计算机可执行指令被处理器执行以实现上文描述的方法。根据本公开的示例性实现方式,提供了一种计算机程序产品,其上存储有计算机程序,所述程序被处理器执行时实现上文描述的方法。
[0135]
这里参照根据本公开实现的方法、装置、设备和计算机程序产品的流程图和/或框图描述了本公开的各个方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机可读程序指令实现。
[0136]
这些计算机可读程序指令可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理单元,从而生产出一种机器,使得这些指令在通过计算机或其他可编程数据处理装置的处理单元执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中,这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作,从而,存储有指令的计算机可读介质则包括一个制造品,其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。
[0137]
可以把计算机可读程序指令加载到计算机、其他可编程数据处理装置、或其他设备上,使得在计算机、其他可编程数据处理装置或其他设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机、其他可编程数据处理装置、或其他设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。
[0138]
附图中的流程图和框图显示了根据本公开的多个实现的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分,模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专
用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
[0139]
以上已经描述了本公开的各实现,上述说明是示例性的,并非穷尽性的,并且也不限于所公开的各实现。在不偏离所说明的各实现的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实现的原理、实际应用或对市场中的技术的改进,或者使本技术领域的其他普通技术人员能理解本文公开的各个实现方式。

技术特征:


1.一种分子表示方法,包括:确定分子的分子表面,所述分子表面为连续的黎曼流形且所述分子表面包括离散的多个表面节点;基于所述分子表面,确定所述分子的几何特征;通过将所述分子内部的原子信息映射到所述多个表面节点,确定所述分子的化学特征;通过将所述几何特征与所述化学特征进行整合,确定所述分子的统一特征;以及通过使用含时演化神经网络模型,基于所述统一特征确定所述分子的含时演化多尺度特征。2.根据权利要求1所述的方法,其中确定分子表面包括:基于所述分子的电子密度场的等值面,确定所述分子表面;或者基于所述分子的溶剂可及表面或不可及表面的采样,确定所述分子表面。3.根据权利要求1所述的方法,其中所述几何特征包括热核特征函数和/或波核特征函数,并且其中确定几何特征包括:确定所述分子表面的拉普拉斯算符的本征函数和本征值;基于所述本征函数和所述本征值,确定所述热核特征函数;和/或基于所述本征函数和所述本征值,确定所述波核特征函数。4.根据权利要求1所述的方法,其中确定几何特征包括:确定所述分子表面的高斯曲率和/或平均曲率,并且所述几何特征包括所述高斯曲率和/或所述平均曲率。5.根据权利要求1所述的方法,其中确定化学特征包括:针对所述多个表面节点中每个节点,通过将与所述节点关联的多个原子的原子信息映射到所述节点,得到所述节点的化学环境特征;基于所述多个表面节点中每个节点的化学环境特征,使用全连接神经网络,确定所述化学特征。6.根据权利要求5所述的方法,其中与所述节点关联的多个原子包括:与所述节点之间的距离低于距离阈值的范围内的多个原子;或者与所述节点最邻近的固定数量的多个原子。7.根据权利要求1所述的方法,其中所述含时演化神经网络模型包括演化算符,所述演化算符基于以下至少一项被确定:黎曼流形上拉普拉斯算符的本征函数、或表面势能项。8.根据权利要求7所述的方法,其中所述表面势能项为用户设定的在黎曼流形上的函数分布。9.根据权利要求1至8中任一项所述的方法,所述分子为镜像对称分子,所述方法还包括:基于所述含时演化多尺度特征在所述黎曼流形上的方向梯度,确定所述镜像对称分子的手性。10.根据权利要求1至8中任一项所述的方法,所述分子包括蛋白质分子,所述方法还包
括:基于所述含时演化多尺度特征,确定所述分子表面的所述多个表面节点中的至少一个节点,所述至少一个节点指示与病毒进行结合的位点。11.根据权利要求1至8中任一项所述的方法,还包括:获取所述分子表面的目标区域;基于所述含时演化多尺度特征,确定与所述分子表面的目标区域对应的区域含时演化多尺度特征;基于所述区域含时演化多尺度特征,从多种预定分子中确定与所述目标区域具有关联的至少一种预定分子。12.根据权利要求1至8中任一项所述的方法,还包括:基于所述含时演化多尺度特征,通过平均池化或最大池化确定所述分子的整体特征。13.一种电子设备,包括:至少一个处理单元;至少一个存储器,所述至少一个存储器被耦合到所述至少一个处理单元并且存储用于由所述至少一个处理单元执行的指令,所述指令当由所述至少一个处理单元执行时使得所述电子设备执行动作,所述动作包括:确定分子的分子表面,所述分子表面为连续的黎曼流形且所述分子表面包括离散的多个表面节点;基于所述分子表面,确定所述分子的几何特征;通过将所述分子内部的原子信息映射到所述多个表面节点,确定所述分子的化学特征;通过将所述几何特征与所述化学特征进行整合,确定所述分子的统一特征;以及通过使用含时演化神经网络模型,基于所述统一特征确定所述分子的含时演化多尺度特征。14.一种处理装置,包括:分子表面确定模块,被配置为确定分子的分子表面,所述分子表面为连续的黎曼流形且所述分子表面包括离散的多个表面节点;几何特征确定模块,被配置为基于所述分子表面,确定所述分子的几何特征;化学特征确定模块,被配置为通过将所述分子内部的原子信息映射到所述多个表面节点,确定所述分子的化学特征;统一特征确定模块,被配置为通过将所述几何特征与所述化学特征进行整合,确定所述分子的统一特征;以及多尺度特征确定模块,被配置为通过使用含时演化神经网络模型,基于所述统一特征确定所述分子的含时演化多尺度特征。15.一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现根据权利要求1至12中任一项所述的方法。

技术总结


本公开实施例涉及一种分子表示方法及电子设备。该分子表示方法,包括:确定分子的分子表面,分子表面为连续的黎曼流形且分子表面包括离散的多个表面节点;基于分子表面,确定分子的几何特征;通过将分子内部的原子信息映射到多个表面节点,确定分子的化学特征;通过将几何特征与化学特征进行整合,确定分子的统一特征;以及通过使用含时演化神经网络模型,基于统一特征确定分子的含时演化多尺度特征。以此方式,本公开的实施例中,通过含时演化多尺度特征,提供了一种不同于已有的分子表示方法的、基于黎曼流形的分子表示方法。该含时演化多尺度特征包括分子的几何特征和化学特征,从而能够全面地表征分子的整体信息。而能够全面地表征分子的整体信息。而能够全面地表征分子的整体信息。


技术研发人员:

王逸 沈宇宁 汪励颢 陈实

受保护的技术使用者:

脸萌有限公司

技术研发日:

2022.09.21

技术公布日:

2022/12/23

本文发布于:2024-09-22 09:45:24,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/4/47635.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:分子   特征   表面   所述
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议