一种分子筛选方法、装置、设备及存储介质与流程



1.本技术涉及小分子药物设计技术领域,尤其涉及一种分子筛选方法、装置、设备及存储介质。


背景技术:



2.在小分子药物设计的hit发现阶段,经常会需要对分子库进行虚拟筛选,其中一项重要的筛选环节是从分子库中筛选出能够与受体蛋白对接匹配的分子。
3.常规的分子筛选方案是,从分子库中选出分子与受体蛋白进行虚拟分子对接,然后根据对接结果筛选出与受体蛋白的对接得分较高的分子。
4.虚拟分子对接需要消耗计算资源,而通常情况下,药物设计企业只能在有限的计算资源消耗范围内进行分子对接。由于计算资源受限,当分子库规模较大时,上述常规的分子筛选方案实际所能筛选得到的符合要求的分子数量较少,难以满足设计需求。


技术实现要素:



5.基于上述技术现状,本技术提出一种分子筛选方法、装置、设备及存储介质,能够在有限的计算资源内显著提高分子筛选效率。
6.本技术提出的技术方案具体如下:
7.一种分子筛选方法,包括:
8.通过将第i次从预设分子库中选出的各个分子与目标受体蛋白进行分子对接,从所述各个分子中选出与目标受体蛋白对接取得设定分子对接效果的分子,加入过筛分子集;其中,i为正整数;
9.利用预设的分子预测模型,从所述预设分子库的剩余分子中,预测得到与所述目标受体蛋白对接能够取得所述设定分子对接效果的分子,作为第i+1次从所述预设分子库中选出的分子;其中,所述剩余分子为除前i次从所述预设分子库选出的所有分子之外的分子;
10.令i=i+1,重新执行上述处理;
11.循环执行上述处理,直至所消耗的分子对接计算资源达到设定的计算资源阈值,或所述过筛分子集中的分子数达到设定的分子数阈值。
12.可选的,所述与目标受体蛋白对接取得设定分子对接效果,包括:
13.与目标受体蛋白对接的对接得分达到设定的对接得分阈值,和/或,与目标受体蛋白对接形成设定的相互作用。
14.可选的,利用预设的分子预测模型,从所述预设分子库的剩余分子中,预测得到与所述目标受体蛋白对接能够取得所述设定分子对接效果的分子,包括:
15.至少根据第i次从所述预设分子库中选出的分子、所述目标受体蛋白,以及第i次从所述预设分子库中选出的分子与所述目标受体蛋白对接取得的对接效果,对预设的分子预测模型进行训练,得到更新后的分子预测模型;
16.利用更新后的分子预测模型,从所述预设分子库的剩余分子中,预测得到与所述目标受体蛋白对接能够取得所述设定分子对接效果的分子。
17.可选的,所述至少根据第i次从所述预设分子库中选出的分子、所述目标受体蛋白,以及第i次从所述预设分子库中选出的分子与所述目标受体蛋白对接取得的对接效果,对预设的分子预测模型进行训练,包括:
18.根据前i次从所述预设分子库中选出的所有分子、所述目标受体蛋白,以及前i次从所述预设分子库中选出的所有分子与所述目标受体蛋白对接取得的对接效果,对预设的分子预测模型进行训练。
19.可选的,利用分子预测模型从所述预设分子库的剩余分子中,预测得到与所述目标受体蛋白对接能够取得所述设定分子对接效果的分子,包括:
20.利用分子预测模型预测所述预设分子库的剩余分子中的各个分子与所述目标受体蛋白对接取得的对接效果的分值;
21.根据各个分子与所述目标受体蛋白对接取得的对接效果的分值,从所述预设分子库的剩余分子中选出目标分子;
22.其中,所述目标分子包括与所述目标受体蛋白对接取得的对接效果的分值最高的设定数量的分子中的至少一个。
23.可选的,所述目标分子还包括:
24.与所述目标受体蛋白对接取得的分子对接效果的分值位于第一分值和第二分值之间的分子;
25.其中,所述第一分值小于预设分值,所述第二分值大于预设分值,并且所述第一分值和所述第二分值与所述预设分值的差值均小于设定阈值;
26.其中,所述预设分值为对接效果满分分值的一半。
27.可选的,利用预设的分子预测模型,从所述预设分子库的剩余分子中预测得到与所述目标受体蛋白对接能够取得所述设定分子对接效果的分子,包括:
28.利用预设的分子预测模型,从所述预设分子库的各个分子类的剩余分子中,分别预测得到与所述目标受体蛋白对接能够取得所述设定分子对接效果的分子;其中,所述各个分子类通过对所述预设分子库中的分子进行同系物骨架聚类而确定。
29.可选的,当i=1时,所述第i次从预设分子库中选出的分子,通过从所述预设分子库中随机选取分子而得到,或者通过从所述预设分子库的每一个分子类中分别随机选取设定数量的分子而得到,或者通过从所述预设分子库中选取与目标受体蛋白对接取得的对接效果的分值大于设定得分阈值的分子而得到;
30.其中,所述各个分子类通过对所述预设分子库中的分子进行同系物骨架聚类而确定。
31.一种分子筛选装置,包括:
32.虚拟对接单元,用于通过将第i次从预设分子库中选出的各个分子与目标受体蛋白进行分子对接,从所述各个分子中选出与目标受体蛋白对接取得设定分子对接效果的分子,加入过筛分子集;其中,i为正整数;
33.分子预测单元,用于利用预设的分子预测模型,从所述预设分子库的剩余分子中,预测得到与所述目标受体蛋白对接能够取得所述设定分子对接效果的分子,作为第i+1次
从所述预设分子库中选出的分子;其中,所述剩余分子为除前i次从所述预设分子库选出的所有分子之外的分子;
34.循环控制单元,用于令i=i+1,并调用所述虚拟对接单元和所述分子预测单元重新执行上述处理;以及,循环执行上述处理,直至所消耗的分子对接计算资源达到设定的计算资源阈值,或所述过筛分子集中的分子数达到设定的分子数阈值。
35.可选的,所述与目标受体蛋白对接取得设定分子对接效果,包括:
36.与目标受体蛋白对接的对接得分达到设定的对接得分阈值,和/或,与目标受体蛋白对接形成设定的相互作用。
37.可选的,所述分子预测单元利用预设的分子预测模型,从所述预设分子库的剩余分子中,预测得到与所述目标受体蛋白对接能够取得所述设定分子对接效果的分子,具体包括:
38.至少根据第i次从所述预设分子库中选出的分子、所述目标受体蛋白,以及第i次从所述预设分子库中选出的分子与所述目标受体蛋白对接取得的对接效果,对预设的分子预测模型进行训练,得到更新后的分子预测模型;
39.利用更新后的分子预测模型,从所述预设分子库的剩余分子中,预测得到与所述目标受体蛋白对接能够取得所述设定分子对接效果的分子。
40.可选的,所述分子预测单元至少根据第i次从所述预设分子库中选出的分子、所述目标受体蛋白,以及第i次从所述预设分子库中选出的分子与所述目标受体蛋白对接取得的对接效果,对预设的分子预测模型进行训练,具体包括:
41.根据前i次从所述预设分子库中选出的所有分子、所述目标受体蛋白,以及前i次从所述预设分子库中选出的所有分子与所述目标受体蛋白对接取得的对接效果,对预设的分子预测模型进行训练。
42.可选的,所述分子预测单元利用分子预测模型从所述预设分子库的剩余分子中,预测得到与所述目标受体蛋白对接能够取得所述设定分子对接效果的分子,包括:
43.利用分子预测模型预测所述预设分子库的剩余分子中的各个分子与所述目标受体蛋白对接取得的对接效果的分值;
44.根据各个分子与所述目标受体蛋白对接取得的对接效果的分值,从所述预设分子库的剩余分子中选出目标分子;
45.其中,所述目标分子包括与所述目标受体蛋白对接取得的对接效果的分值最高的、设定数量的分子中的至少一个。
46.可选的,所述目标分子还包括:
47.与所述目标受体蛋白对接取得的分子对接效果的分值位于第一分值和第二分值之间的分子;
48.其中,所述第一分值小于预设分值,所述第二分值大于预设分值,并且所述第一分值和所述第二分值与所述预设分值的差值均小于设定阈值;
49.其中,所述预设分值为对接效果满分分值的一半。
50.可选的,所述分子预测单元利用预设的分子预测模型,从所述预设分子库的剩余分子中预测得到与所述目标受体蛋白对接能够取得所述设定分子对接效果的分子,包括:
51.利用预设的分子预测模型,从所述预设分子库的各个分子类的剩余分子中,分别
预测得到与所述目标受体蛋白对接能够取得所述设定分子对接效果的分子;其中,所述各个分子类通过对所述预设分子库中的分子进行同系物骨架聚类而确定。
52.可选的,当i=1时,所述第i次从预设分子库中选出的分子,通过从所述预设分子库中随机选取分子而得到,或者通过从所述预设分子库的每一个分子类中分别随机选取设定数量的分子而得到,或者通过从所述预设分子库中选取与目标受体蛋白对接取得的对接效果的分值大于设定得分阈值的分子而得到;
53.其中,所述各个分子类通过对所述预设分子库中的分子进行同系物骨架聚类而确定。
54.一种分子筛选设备,包括:
55.存储器和处理器;
56.所述存储器与所述处理器连接,用于存储程序;
57.所述处理器,用于通过运行所述存储器中的程序,实现上述的分子筛选方法。
58.一种存储介质,所述存储介质上存储有计算机程序,所述计算机程序被处理器运行时,实现上述的分子筛选方法。
59.本技术提出的分子筛选方法,不再是盲目地从分子库中随机选择分子进行虚拟分子对接以及进行分子筛选。该方案引入了分子预测模型,利用分子预测模型从分子库中预测与目标受体蛋白对接能够取得所述设定分子对接效果的分子,然后再将这些预测的与目标受体蛋白对接能够取得所述设定分子对接效果的分子,与目标受体蛋白进行虚拟分子对接,进而根据虚拟分子对接结果从这些分子中选出与目标受体蛋白对接取得设定分子对接效果的分子,加入过筛分子集。
60.可见,本技术上述技术方案所执行的虚拟分子对接操作,是对经过预测认为其与目标受体蛋白对接能够取得设定分子对接效果的分子,与目标受体蛋白进行分子对接,这样能够保证实际参与虚拟分子对接的分子,是大概率能够与目标受体蛋白对接形成设定分子对接效果的分子,从而提高通过虚拟分子对接得到与目标受体蛋白对接取得设定分子对接效果的分子的概率。这样,在有限的虚拟对接计算资源范围内,能够从分子库中筛选得到更多的符合设计需求的分子,从而提高了分子筛选效率。
附图说明
61.为了更清楚地说明本技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
62.图1为本技术实施例提供的一种分子筛选系统的示意图;
63.图2为本技术实施例提供的一种分子筛选方法的流程示意图;
64.图3为本技术实施例提供的另一种分子筛选方法的流程示意图;
65.图4为本技术实施例提供的分子筛选方法另一种处理过程示意图;
66.图5为本技术实施例提供的分子筛选方法的又一种处理过程示意图;
67.图6为本技术实施例提供的一种分子筛选装置的结构示意图;
68.图7为本技术实施例提供的一种分子筛选设备的结构示意图。
具体实施方式
69.本技术实施例适用于虚拟分子筛选的应用场景,采用本技术实施例技术方案,能够在有限的计算资源条件下,扩大分子筛选规模,筛选出更多的符合需求的分子,从而提高分子筛选效率。
70.首先对上述的虚拟分子筛选场景进行简要介绍。虚拟分子筛选是小分子药物设计领域的一种常规操作,其具体是通过将分子库中的分子与受体蛋白进行虚拟分子对接,然后根据分子对接结果,从分子库中选出能够与受体蛋白形成预期的分子对接结果的分子。
71.其中,上述的分子对接是通过受体的特征以及受体和药物分子之间的相互作用方式来进行药物设计的方法,其是研究分子间的相互作用,并预测其结合模式和亲和力的一种理论计算模拟方法。
72.常规的分子筛选方案是,从分子库中选出分子与受体蛋白进行虚拟分子对接,然后根据对接结果进行分子筛选,例如,筛选出与受体蛋白的对接得分较高的分子。
73.虚拟分子对接需要消耗计算资源,而通常情况下,药物设计企业只能在有限的计算资源消耗范围内进行虚拟分子对接。通常情况下,虚拟分子对接计算需要在云服务器上通过云计算执行,而云服务器则并不是向大众无限开放的,使用者只能通过购买云服务器的云计算核时,在购买的云计算核时范围内调用云服务器进行云计算。
74.用户购买的云计算核时,可以允许用户调用云服务器进行虚拟分子对接等处理。
75.由于计算资源受限,当分子库规模较大时,上述常规的分子筛选方案在有限的计算资源下实际所能筛选得到的符合要求的分子数量较少,难以满足设计需求。
76.例如,假设可用的计算资源只能支持1万次的虚拟分子对接,而分子库中可能有上百万甚至上千万或更多的分子。基于该计算资源限制,当从该分子库中选分子与受体蛋白进行分子对接时,最多只能从分子库中选出1万个分子与受体蛋白进行分子对接,而实际筛选得到的符合要求的分子,比如对接得分超过阈值的分子,可能只有1千个,可见,有大量的计算资源消耗没有得到实际有用的分子筛选结果,分子筛选效率较低。
77.基于上述技术现状,本技术实施例提出了一种新的分子筛选方法,该方法对参与分子对接的分子进行了优化选择,而并非完全随机地从分子库中选取分子进行分子对接,这样可以提高参与分子对接的分子被最终筛选出来的概率,从而可以最大程度避免参与分子对接的分子最终没有被筛选出来,造成分子对接计算资源浪费的情况,因此可以提高分子筛选效率,在有限的计算资源内筛选出更多符合需求的分子。
78.下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
79.示例性实施环境
80.图1示出了本技术实施例的一种示例性实施环境,该实施环境为一种分子筛选系统。参见图1所示,该系统主要包括一个或多个终端设备001、服务器002以及数据库003。
81.其中,终端设备001可以包括各种类型的计算机设备,例如可以是智能终端设备(如便携式手持设备等)、计算机(个人计算机或膝上型计算机等)、自助终端、智能机器人以及可穿戴设备等。其中,智能终端设备可以包括智能手机、平板电脑、个人数字助理(pda)
等;自助终端可以包括自助查询终端、自助服务终端等;智能机器人可以包括服务机器人等;可穿戴设备可以包括头戴式显示器、智能手表、智能手环和其他设备。
82.终端设备001能够安装和运行支持分子筛选的应用程序,例如系统应用、各种与internet相关的应用程序、通信应用程序(例如应用程序)、短消息服务(sms)应用程序,并且可以使用各种通信协议。示例性的,终端设备001能够获取用户输入的受体蛋白信息,然后,终端设备001通过与服务器002进行交互或者直接与数据库003交互,从数据库003的分子库中筛选出符合需求的分子,并可以将分子筛选结果输出。在整个过程中,终端设备001可以与用户进行任意形式的人机交互,例如通过图像、文本、语音等数据交互方式进行人机交互。
83.服务器002可以运行能够执行分子筛选的一个或多个服务或应用程序。作为可选的实施方式,服务器002具体可以是分布式系统服务器、云服务器、工作站,或者基于人工智能技术的智能云计算服务器或智能云主机等。服务器002的数量可以视需求设置为一个或多个。
84.该服务器002用于为支持分子筛选的应用程序提供后台服务。例如为终端设备001提供分子筛选服务,或者提供分子筛选支持、提供分子筛选算法支持等。
85.数据库003作为整个数据检索系统的数据中心,其主要用于存储数据,具体例如存储音频数据、文本数据、图像数据等各种类型的数据。在本技术实施例中,数据库003存储有分子库,该分子库可以是任意类型、任意规模的分子库。
86.数据库003可以驻留在各种位置。例如,由服务器002使用的数据库可以在服务器002本地,或者可以远离服务器002且可以经由基于网络或专用的连接与服务器002通信。数据库003可以是任意类型、任意数量的数据库。在某些实施例中,由服务器002使用的数据库可以为关系数据库。这些数据库中的一个或多个可以响应于服务器002的命令而存储、更新和检索到数据库以及来自数据库的数据。
87.上述的终端设备001、服务器002和数据库003之间,可以通过网络004相互连接,具体可以是任意两者相互连接,或者是三者依次串联。
88.网络004可以是任意类型的网络,其可以使用多种可用协议中的任何一种(包括但不限于tcp/ip、sna、ipx等)来支持数据通信。示例性的,网络004可以是一个网络,又可以细分为多个子网络,该网络004或网络004包含的多个子网络,具体可以是局域网(lan)、以太网、令牌环、广域网(wan)、因特网、虚拟网络、虚拟专用网络(vpn)、内部网、外部网、公共交换电话网(pstn)、红外网络、无线网络(例如蓝牙、wifi)、移动网络(例如4g、5g)、物联网和/或这些和/或其他网络的任意组合。
89.本技术实施例技术方案可应用于任意一种需要进行分子筛选的应用场景中,例如在小分子药物设计的业务场景中,需要从分子库中筛选能够与目标受体蛋白对接的分子,此时即需要执行分子筛选操作。可以理解,这些应用场景均可以在图1所示的实施环境,或者基于图1所示的实施环境而简化或扩展得到的实施环境中实现。
90.示例性方法
91.本技术实施例提出一种分子筛选方法,该方法可应用于图1所示的终端设备001或服务器002,参见图2所示,该方法包括:
92.s101、通过将第i次从预设分子库中选出的各个分子与目标受体蛋白进行分子对
接,从所述各个分子中选出与目标受体蛋白对接取得设定分子对接效果的分子,加入过筛分子集。
93.其中,i为正整数,优选的,i为从1开始的正整数。
94.具体的,本技术实施例提出一种循环分子筛选方式,每次从分子库中选出部分分子与目标受体蛋白进行虚拟分子对接,并从选出的分子中筛选出与目标受体蛋白对接取得设定分子对接结果的分子,加入过筛分子集。
95.上述的分子库,可以是任意类型、任意规模的分子库,例如可以是enamine、zinc等分子库。
96.其中,在第1次执行步骤s101时,从预设分子库中选出第一数量的分子,该第一数量,小于可用的分子对接计算资源所能够支持的分子对接次数(假设每一次分子对接只能将一个分子与受体蛋白对接),并且优选的实施方案是使该第一数量与可用的分子对接计算资源所能够支持的分子对接次数保持一定的数量差,该一定的数量差优选为较大差值(例如第一数量与可用的分子对接计算资源所能够支持的分子对接次数为1-3:5-20,例如1:3、1:4、1:5、2:7、3:8、3:11等等),以便于预留足够的计算资源能够支持后续迭代筛选分子的过程中进行分子对接计算。例如,假设可用的分子对接计算资源能够支持100万次分子对接,则第1次从预设分子库中选取分子时,从中选出30万个分子。
97.在第1次执行步骤s101之后,后续从预设分子库中筛选分子时,通过执行步骤s102筛选。
98.对于第i次从预设分子库中选出的各个分子,分别将其与目标受体蛋白进行分子对接。其中,该目标受体蛋白,为预先设置的以期从分子库中选出能够与之对接形成设定分子对接效果的受体蛋白。
99.上述的设定分子对接效果,可以是任意设定的分子对接效果,例如取得设定的分子对接得分,或者对接形成设定的非键相互作用等。
100.上述的将选出的各个分子分别与目标受体蛋白进行分子对接,具体可以采用任意的分子对接方式,本技术实施例不做限定。
101.作为一种示例性的实施方式,本技术实施例采用以smiles格式存储分子的分子库。其中,smiles(simplified molecular input line entry system,简化分子线性输入规范),是一种用ascii字符串明确描述分子结构的规范,使用smiles格式存储分子,可以减小分子所占用的存储空间,从而利于在分子库中存储更多分子。
102.对于第i次从上述分子库中选出的各个smiles格式的分子,首先获取其三维构象,例如为读取的分子生成三维构象,或者直接读取该分子已有的三维构象。然后将其与目标受体蛋白进行虚拟分子对接,具体可通过任意的分子对接工具和方法实现该虚拟分子对接,例如可以使用autodock,glide,gold等对接软件进行分子对接。
103.如上文所述,通过将第i次从预设分子库中选出的各个分子分别与目标受体蛋白进行分子对接并观察分子对接效果,即可从第i次从预设分子库中选出的各个分子中,选出与目标受体蛋白对接取得设定分子对接效果的分子,并可以将这些分子加入过筛分子集中。
104.此时即完成针对第i次从预设分子库中选出的各个分子的分子筛选。
105.s102、利用预设的分子预测模型,从所述预设分子库的剩余分子中,预测得到与所
述目标受体蛋白对接能够取得所述设定分子对接效果的分子,作为第i+1次从所述预设分子库中选出的分子。
106.其中,上述的预设的分子预测模型,是指通过分子预测训练得到的具有分子预测功能的神经网络模型,该分子预测功能,具体是指对分子库中的分子与目标受体蛋白的对接效果进行预测,从而确定分子库中的分子与目标受体蛋白进行对接是否能够取得设定分子对接效果。
107.该分子预测模型,具体可以是任意的能够用于分子预测的机器学习模型,例如xgboost,svm,mpnn等,作为优选的实施方式,本技术实施例对图神经网络进行训练得到上述的分子预测模型。
108.作为示例性的分子预测模型训练方式,可以在实施本技术实施例所提出的分子筛选方法之前,搜集分子作为训练样本,基于搜集的训练样本对该分子预测模型进行无监督或有监督的分子预测训练;或者,也可以在执行本技术实施例提出的分子筛选方法的过程中,迭代地对上述的分子预测模型进行训练,例如,当通过执行步骤s101确定第i次从预设分子库中选出的各个分子与目标受体蛋白进行分子对接的对接结果后,将第i次从预设分子库中选出的各个分子作为训练样本,将选出的各个分子与目标受体蛋白对接形成的对接结果作为样本标签,对该分子预测模型进行分子预测训练。
109.其中,当采用在执行本技术实施例提出的分子筛选方法的过程中迭代地对上述的分子预测模型进行训练的模型训练方案时,该分子预测模型可以是、也可以不是在实施本技术实施例所提出的分子筛选方法之前已经进行过训练的模型。
110.作为优选的实施方式,在上述的训练过程中,当对分子预测模型进行有监督的分子预测训练时,将分子样本与目标受体蛋白对接得到的设定分子对接效果作为正类标签,将分子样本与目标受体蛋白对接得到的非设定分子对接效果作为负类标签。经过上述的监督训练,该分子预测模型对于分子与目标受体蛋白对接能够得到设定分子对接效果的分子,能够给出较高的分子对接效果分值,而对于分子与目标受体蛋白对接不能得到设定分子对接效果的分子,则给出较低的分子对接效果分值。
111.对于上述的分子预测模型而言,其预测输出结果是输入该模型的分子与目标受体蛋白进行对接取得的对接效果的分值。该对接效果的分值,能够体现分子与目标受体蛋白对接的对接效果的优劣。对接效果的分值越高,则说明分子与目标受体蛋白对接的对接效果越好;相反,对接效果的分值越低,则说明分子与目标受体蛋白对接的对接效果越差。在本技术实施例中,分子与目标受体蛋白对接取得的对接效果与设定分子对接效果越接近,则分子与目标受体蛋白进行对接取得的对接效果的分值越高,反之越低。
112.基于该模型输出的与各个输入分子对应的分值,可以从输入该模型的各个分子中确定出与目标受体蛋白对接能够取得设定分子对接效果的分子。例如,基于该模型的输出,当输入该模型的某个分子对应的对接效果的分值大于设定得分阈值时,即可认为该分子与目标受体蛋白对接能够取得设定分子对接效果。
113.基于上述的分子预测模型,当第i次从上述预设分子库中选出分子与目标受体蛋白进行分子对接后,利用上述的分子预测模型,对上述预设分子库中的剩余分子进行预测,从中得到与目标受体蛋白对接能够取得设定分子对接效果的分子,作为第i+1次从上述分子库中选出的分子。
114.其中,上述的预设分子库中的剩余分子为除前i次从所述预设分子库选出的所有分子之后,该分子库中所剩余的分子。例如假设分子库中共有1000万个分子,第1次从该分子库中选出10万个分子,通过执行上述步骤s101,将选出的10万个分子与目标受体蛋白进行分子对接操作,然后,执行步骤s102,利用上述的分子预测模型,从该分子库剩余的990万个分子中预测得到与目标受体蛋白对接能够取得设定分子对接效果的分子。
115.s103、判断消耗的分子对接计算资源是否达到设定的计算资源阈值,以及,判断所述过筛分子集中的分子数是否达到设定的分子数阈值。
116.若消耗的分子对接计算资源达到设定的计算资源阈值,或者所述过筛分子集中的分子数达到设定的分子数阈值,则执行步骤s105、退出分子筛选过程。
117.若消耗的分子对接计算资源未达到设定的计算资源阈值,并且,所述过筛分子集中的分子数未达到设定的分子数阈值,则执行步骤s104、令i=i+1。
118.返回步骤s101执行。
119.具体的,通过循环执行步骤s101和s102,迭代地从分子库中选出分子并与目标受体蛋白进行虚拟分子对接,从而从筛选出的分子中进一步筛选出与目标受体蛋白对接取得设定分子对接效果的分子,加入过筛分子集。通过多次的循环迭代处理,即可不断地从分子库中筛选出与目标受体蛋白对接能够取得设定分子对接效果的分子。
120.在上述的循环过程中,每轮次执行s101和s102结束后,均执行步骤s103,判断消耗的分子对接计算资源是否达到设定的计算资源阈值,以及判断所述过筛分子集中的分子数是否达到设定的分子数阈值。若消耗的分子对接计算资源达到设定的计算资源阈值,或者所述过筛分子集中的分子数达到设定的分子数阈值,则退出分子筛选过程,否则继续上述的循环迭代,直至消耗的分子对接计算资源达到设定的计算资源阈值,或者所述过筛分子集中的分子数达到设定的分子数阈值时,结束分子筛选过程。
121.通过上述介绍可见,本技术实施例提出的分子筛选方法,不再是盲目地从分子库中随机选择分子进行虚拟分子对接以及进行分子筛选。该方案引入了分子预测模型,利用分子预测模型从分子库中预测与目标受体蛋白对接能够取得所述设定分子对接效果的分子,然后再将这些预测的与目标受体蛋白对接能够取得所述设定分子对接效果的分子,与目标受体蛋白进行虚拟分子对接,进而根据虚拟分子对接结果从这些分子中选出与目标受体蛋白对接取得设定分子对接效果的分子,加入过筛分子集。
122.可见,本技术上述技术方案所执行的虚拟分子对接操作,是对经过预测认为其与目标受体蛋白对接能够取得设定分子对接效果的分子,与目标受体蛋白进行分子对接,这样能够保证实际参与虚拟分子对接的分子,是大概率能够与目标受体蛋白对接形成设定分子对接效果的分子,从而提高通过虚拟分子对接得到与目标受体蛋白对接取得设定分子对接效果的分子的概率。这样,在有限的虚拟对接计算资源范围内,能够从分子库中筛选得到更多的符合设计需求的分子,从而提高了分子筛选效率。
123.在本技术上述实施例中,通过将从分子库中选出的各个分子与目标受体蛋白进行分子对接,从各个分子中选出与目标受体蛋白对接取得设定分子对接效果的分子时,具体是从各个分子中选出与目标受体蛋白对接的对接得分达到设定的对接得分阈值的分子,和/或,从各个分子中选出与目标受体蛋白对接形成设定的相互作用的分子。
124.上述的相互作用,是指受体与配体(分子)之间形成的非键相互作用,包括但不限
于氢键、盐桥、卤键、阳离子-π、π-π堆积、离子相互作用、疏水相互作用、金属结合等。
125.分子与受体蛋白的对接得分,是根据分子与受体蛋白能否对接成功,以及对接成功时的结合模式、亲和力等综合评定的得分。通常而言,多分子与受体蛋白对接的对接得分越高,则表示分子与受体蛋白对接的结合模式越稳定,亲和力越强。因此,分子对接得分通常用来衡量分子与受体蛋白对接效果好坏的标准。
126.但是,在实际的分子药物设计业务中,药物设计企业更关心的是分子与受体蛋白能否形成特定的非键相互作用,也就是分子与受体蛋白对接是否具有理想的结合模式。在现有的分子筛选方案中,通常是通过虚拟分子对接,从分子库中筛选出分子对接得分较高的分子,然后再从这些分子中通过其他手段选出能够与受体蛋白对接形成特定的非键相互作用的分子。这在一定程度上降低了对分子筛选结果的利用率,也可能间接造成对分子对接计算资源的浪费。
127.针对上述情况,在本技术提出的分子筛选方法的一种优选的实施方式中,通过将从上述预设分子库中选出的各个分子与目标受体蛋白进行分子对接,从各个分子中选出与目标受体蛋白对接形成设定相互作用的分子,加入过筛分子集。则,在该过筛分子集中的分子,均为能够与目标受体蛋白对接形成设定相互作用的分子。
128.上述的设定相互作用,则为药物设计企业在药物设计时希望分子与受体蛋白对接所能够形成的非键相互作用。该设定相互作用可以通过对目标靶点的受体-配体复合物进行构效关系分析而确定。
129.可以理解,本技术实施例所提出的分子筛选方法,直接以分子与目标受体蛋白对接能否形成设定的相互作用作为分子筛选条件,能够直接从分子库中筛选出能够与目标受体蛋白对接形成设定的相互作用的分子,从而从分子库中筛选得到真正对药物设计有用的分子,进一步提高了分子筛选的效率。
130.作为一种优选的实施方式,在利用预设的分子预测模型,从所述预设分子库的剩余分子中,预测得到与所述目标受体蛋白对接能够取得所述设定分子对接效果的分子时,参见图3所示,先执行步骤s1021、至少根据第i次从所述预设分子库中选出的分子、所述目标受体蛋白,以及第i次从所述预设分子库中选出的分子与所述目标受体蛋白对接取得的对接效果,对预设的分子预测模型进行训练,得到更新后的分子预测模型。
131.具体的,本技术实施例在进行分子筛选的过程中,伴随着通过虚拟分子对接筛选分子的过程,还对上述的分子预测模型进行训练。
132.在每次从预设分子库中选出分子,并且将选出的分子与目标受体蛋白进行虚拟分子对接,确定选出的各个分子与目标受体蛋白进行对接的对接效果后,本技术实施例利用从分子库中选出的各个分子、上述的目标受体蛋白,以及从分子库中选出的各个分子与目标受体蛋白对接取得的对接效果,对上述的分子预测模型进行训练。
133.具体而言,以从分子库中选出的各个分子为训练样本,以各个分子与上述目标受体蛋白对接取得的对接效果为标签,训练该分子预测模型预测各个分子与目标受体蛋白对接的对接效果的能力。
134.示例性的,上述的以各个分子与上述目标受体蛋白对接取得的对接效果为标签,具体可以是按照各个分子与上述目标受体蛋白进行虚拟分子对接的对接效果是否为上述的设定分子对接效果而设置的标签,若分子与上述目标受体蛋白进行虚拟分子对接的对接
效果是上述的设定分子对接效果,则与该分子对应的标签为第一标签,例如为“1”,否则,与该分子对应的标签为第二标签,例如为“0”。
135.在训练过程中,对模型训练损失函数进行设计,该损失函数使得当分子预测模型预测的某一分子与目标受体蛋白的对接效果分值较高,但是该分子对应的标签为第二标签时,损失函数的值较大,此时根据该损失函数对模型参数进行反向梯度校正时,可以使模型对该分子与目标受体蛋白的对接效果得分降低,以便降低损失函数;相反,若分子预测模型预测的某一分子与目标受体蛋白的对接效果分值较低,但是该分子对应的标签为第一标签时,使上述损失函数取得较大值,此时根据该损失函数对模型参数进行反向梯度校正时,可以使模型对该分子与目标受体蛋白的对接效果得分升高;当分子预测模型预测的某一分子与目标受体蛋白的对接效果分值较高且该分子对应的标签为第一标签,或者,分子预测模型预测的某一分子与目标受体蛋白的对接效果分值较低且该分子对应的标签为第二标签时,使上述损失函数取得较小损失,此时根据该损失函数对模型参数进行反向梯度校正时,对模型参数的修正较小,可以使模型保持原本合理的预测能力。
136.通过上述训练,该分子预测模型具备了预测输入该模型的分子与上述的目标受体蛋白对接能否形成上述的设定分子对接效果的能力。若分子与上述的目标受体蛋白对接的对接效果与上述的设定分子对接效果越接近,则模型输出的对接效果分值越高,反之则分值越低。在具备这项能力之后,将分子输入该分子预测模型,该分子预测模型即可输出输入的分子与目标受体蛋白对接形成的对接效果的分值,该分值也可以视为该分子与目标受体蛋白对接形成上述设定分子对接效果的分值。
137.然后,再执行步骤s1022、利用更新后的分子预测模型,从所述预设分子库的剩余分子中,预测得到与所述目标受体蛋白对接能够取得所述设定分子对接效果的分子。
138.可以理解,在每次利用分子预测模型对分子库中的剩余分子进行预测之前,利用已经进行过虚拟分子对接的分子对该模型进行训练,使得该模型的预测能力进一步提升,这样,可以提高该分子预测模型从分子库的剩余分子中预测得到与目标受体蛋白对接能够取得设定分子对接效果的分子的准确度,进而可以提高整个分子筛选过程的分子筛选效率。
139.作为一种更加优选的实施方式,本技术实施例设置训练样本集,在每次从分子库中选出分子并将选出的各个分子与目标受体蛋白进行虚拟分子对接确定各个分子与目标受体蛋白的对接效果后,参照上述介绍,根据各个分子与目标受体蛋白对接的分子对接效果,为选出的各个分子设置标签,并将选出的各个分子及其标签存入训练样本集,然后利用训练样本集中的训练样本对上述的分子筛选模型进行训练。
140.基于上述处理,在第i+1次对分子预测模型进行训练时,实际是利用前i次从预设分子库中选出的所有分子,以及基于前i次从预设分子库中选出的所有分子与目标受体蛋白对接取得的对接效果而确定的分子标签,对该分子预测模型进行训练。通过该迭代训练过程,可以逐步优化分子预测模型的预测性能,从而使该分子预测模型能够更准确地从分子库的剩余分子中预测得到与目标受体蛋白对接能够取得设定分子对接效果的分子,进而有利于提升整个分子筛选过程的筛选效率。
141.本实施例中的图3所示的其他处理步骤,均可参见图2所示的方法实施例中的相应步骤的处理内容,此处不再重复介绍。
142.基于上述的分子筛选模型,在利用该分子筛选模型从预设分子库的剩余分子中预测与目标受体蛋白对接能够取得设定分子对接效果的分子时,先利用上述的分子预测模型预测该预设分子库中的剩余分子中的各个分子与目标受体蛋白对接取得的对接效果的分值。
143.然后,再根据分子库的剩余分子中的各个分子与目标受体蛋白对接取得的对接效果的分值,从分子库的剩余分子中选出目标分子。
144.其中,该目标分子,包括经上述的分子预测模型预测所确定的、与目标受体蛋白对接取得的对接效果的分值最高的设定数量的分子中的至少一个。即,最终选出的目标分子,是经上述的分子预测模型预测所确定的、与目标受体蛋白对接取得的对接效果的分值排在topn的分子中的部分或全部,比如是topn的前k个,或者topn的后k个,或者从topn中随机选出的k个,n为正整数,k为小于n的正整数。
145.例如,假设通过上述分子预测模型对分子库的剩余分子进行预测确定各个分子与目标受体蛋白对接取得的对接效果的分值后,从各个分子中,选择与目标受体蛋白对接取得的对接效果的分值最高的前10万个分子,然后将该10万个分子中的部分分子或全部分子,作为上述的目标分子。
146.选出的目标分子,即为利用分子预测模型从分子库的剩余分子中预测得到的与目标受体蛋白对接能够取得设定分子对接效果的分子。
147.作为选出上述的目标分子的另一种优选的实施方式,当根据分子库的剩余分子中的各个分子与受体蛋白对接取得的对接效果的分值,从分子库的剩余分子中选择目标分子时,除了选择与目标受体蛋白对接取得的对接效果的分值最高的分子之外,还可以是从分子库的剩余分子中选择与目标受体蛋白对接取得的对接效果的分值超过设定得分阈值的分子,例如选择分值超过80分(满分100分)的分子。
148.或者,还可以从分子库的剩余的各个分子中,选择与目标受体蛋白对接取得的对接效果的分值位于第一分值和第二分值之间的分子,作为选出的目标分子。其中,第一分值小于预设分值,第二分值大于预设分值,并且第一分值和第二分值与预设分值的差值均小于设定阈值。
149.其中,该预设分值,为对接效果满分分值的一半。例如假设分值区间为0-100,满分分值为100,则该预设分值为50;假设分值区间为0-1,满分分值为1,则该预设分值为0.5。
150.可以理解,按照上述约定,选择与目标受体蛋白对接取得的对接效果的分值位于第一分值值和第二分值值之间的分子,其实是选择与目标受体蛋白对接取得的对接效果的分值接近中间分值的分子。而模型预测分子与目标受体蛋白对接取得的对接效果的分值接近中间分值,其实对于模型来说,它是拿不准该分子与目标受体蛋白对接到底能不能取得设定分子对接效果的,此时模型认为该分子与目标受体蛋白对接能取得设定分子对接效果与不能取得设定分子对接效果的可能性差不多,所以才会输出该分子与目标受体蛋白对接取得的对接效果的分值接近中间分值的预测结果。
151.本技术实施例将这些分子作为目标分子参与虚拟分子对接,可以通过虚拟分子对接来确定这些分子到底能不能与目标受体蛋白对接取得设定分子对接效果,也就是帮助模型确定这些分子到底能不能与目标受体蛋白对接取得设定分子对接效果。在进行虚拟分子对接后,按照本技术上述实施例介绍,这些分子还会连同这些分子的分子对接效果标签,一
起作为训练数据对上述的分子筛选模型进行训练,则经过训练后,模型就能够准确地预测这些分子与目标受体蛋白对接取得的对接效果的分值。
152.因此,本技术实施例从分子库的剩余分子中选择与目标受体蛋白对接取得的对接效果的分值位于第一分值和第二分值之间的分子作为目标分子参与下一次的虚拟分子对接,一方面能够从分子库的剩余分子中选出更多的能够与目标受体蛋白对接取得设定分子对接效果的分子,另一方面能够提升对分子预测模型的训练效果,从而利于促进整个分子筛选过程的分子筛选效率。
153.作为一种优选的实施方式,本技术实施例还对上述预设分子库的分子进行分类,基于该分类操作,当从分子库中选择分子时,可以从分子库的各个分子类中分别选择分子。
154.示例性,上述的对预设分子库的分子进行分类,可以是对分子库的分子进行同系物骨架聚类,通过将具有相同母核骨架结构的分子归为一类,实现对整个分子库的分子聚类,从而得到该分子库的各个分子类。
155.基于对上述预设分子库的分类,当利用上述的分子预测模型从上述分子库的剩余分子中预测与目标受体蛋白对接能够取得设定分子对接效果的分子时,具体是利用上述的分子预测模型,从上述分子库的各个分子类的剩余分子中,分别预测与目标受体蛋白对接能够取得设定分子对接效果的分子,然后,将从各个分子类中预测得到的与目标受体蛋白对接能够取得设定分子对接效果的分子进行汇总,即得到该模型预测从分子库的剩余分子中预测得到的与目标受体蛋白对接能够取得设定分子对接效果的分子。
156.基于上述的分子预测模型,除第1次从预设分子库中选取分子的情况之外,其余每次从预设分子库中选取分子,均是由该分子预测模型自动完成的。并且,该分子预测模型可以自动地从分子库的剩余分子的各个分子类中选取分子。
157.而对于第1次从预设分子库中选取分子,可以从该预设分子库中随机选取分子;或者在对预设分子库进行分类的基础上,从分子库的各个分子类中分别选取设定数量的分子,例如从分子库的每个分子类中分别选取100个分子;或者,通过其他的具备与上述的分子预测模型相同功能的机器学习模型,预测分子库中的分子与目标受体蛋白对接取得的分子对接效果的分值,然后根据预测分值,从分子库中选择与目标受体蛋白对接能够取得设定的分子对接效果的分子。例如,从分子库中选择与目标受体蛋白对接取得的分子对接效果的分值大于设定得分阈值的分子。在实际应用本技术实施例技术方案时,可以灵活确定第1次从预设分子库中选取分子时采用哪种方式选取。作为优选的实施方式,本技术实施例第1次从预设分子库中选取分子时,从分子库的各个分子类中分别选取设定数量的分子。
158.为了更连贯地说明本技术实施例提出的分子筛选方法的处理流程,下面结合图4所示,以对接形成指定的关键相互作用为上述的“设定分子对接效果”,对本技术实施例提出的分子筛选方法在实际应用中的完整处理过程进行介绍:
159.①
对目标靶点的受体-配体复合物进行构效关系分析,确定指定的相互作用。
160.②
准备以smiles格式保存的分子库,对分子库进行同系物骨架聚类,具有相同母核骨架结构的分子会被归为一类。
161.③
从每类中选出一定数量的分子(smiles格式)。
162.④
为分子生成三维构象,与受体蛋白执行分子对接(如分子已有确定的对应的三维构象,可直接获取)。
163.⑤
根据指定的相互作用,对所有对接构象进行过滤,保留能形成指定相互作用的分子,加入到过筛分子集中。
164.⑥
为所有对接分子的smiles打上标签,如果有任一对接构象能形成指定的相互作用,则标签值为1,反之为0。将分子的smiles和标签加入训练集,然后利用训练集对图神经网络模型进行训练。
165.⑦
使用经过训练的图神经网络模型预测剩余的分子库,然后选出一定数量的,模型预测分值最高的分子。与上述实施例介绍的分子预测模型相对应的,该图神经网络模型具备分子预测功能,具体是对于分子与目标受体蛋白的对接效果与设定分子对接效果越接近,则分值越高,反之分值越低。因此,选择模型预测分值高的分子,即可实现选择与目标受体蛋白对接形成设定分子对接效果的分子的目的。另外,图神经网络模型在输出预测分值的同时,还会输出预测概率值,该预测概率值,表示模型输出的预测分值正确的概率。基于上述概率值的输出,在选择分子时,可以选择分值高,并且预测概率值高的分子。
166.⑧
基于步骤

选出的分子,返回步骤

执行,如此重复步骤



,直到计算资源达到预期的上限,或过筛分子集的分子数量满足要求时,完成分子筛选。
167.⑨
收集过筛分子集中的分子,进行进一步的虚拟筛选。
168.下面,以一个具体示例,结合图5所示的处理流程,对本技术实施例提出的分子筛选方法的具体处理过程进行举例说明,同时对比说明本技术实施例的分子筛选效率提升效果:
169.1)对目标靶点进行相互作用分析,确定关键相互作用为:至少与6个指定氨基酸中的4个形成氢键相互作用,并且至少与4个指定疏水氨基酸中的1个形成疏水相互作用,并将该关键相互作用确定为指定的关键相互作用。
170.2)将以csv保存的陶素商业分子库(包含7751683个分子结构)进行同系物骨架聚类,共得到270738个类别。
171.3)从每类分子中取出1个分子,再加上29262个随机取出的分子,组成30万分子的子集。
172.4)为这些分子生成三维构象,与受体蛋白执行分子对接,每个分子输出对接得分最高的3个对接构象。
173.其中,每个分子可能生成不同的三维构象,然后将每个分子的各个不同的三维构象分别与受体蛋白进行分子对接,可以得到多种不同的对接构象。然后,再对每种对接构象进行得分比对,从中选出3个得分最高的对接构象。
174.5)以步骤1)所确定的指定的关键相互作用为筛选条件,对所有对接构象进行筛选,每个分子最多保留一个得分最高的对接构象,得到2068个分子,加入过筛分子集。
175.6)为步骤4)中所有对接分子的smiles打上标签,过筛分子标签值为1,其余分子为0。将分子的smiles和标签加入训练集,利用训练集训练图神经网络模型。
176.7)使用图神经网络模型预测剩余的分子库,然后选出模型预测分值最高的10万个分子。
177.8)重复步骤4到7,总共重复6轮(重复6轮后所消耗的计算资源达到计算资源上限):每一轮都为从分子库中选出的10万个分子生成构象,并对接10万个分子,再进行关键相互作用过滤,之后将10万个分子打上标签,加入到模型的训练集中(训练集规模分别为40
万/50万/60万/70万/80万/90万);最终,累计获得37216个能通过关键相互作用条件筛选的分子。即,最终从分子库中筛选出37216个能够与受体蛋白对接时至少与6个指定氨基酸中的4个形成氢键相互作用,并且至少与4个指定疏水氨基酸中的1个形成疏水相互作用的分子。
178.在上述的处理过程中,对总计100万个分子进行了分子对接和相互作用过滤,得到了37216个目标分子。作为对照,如果从商业分子库中挑选100万个分子直接进行对接和相互作用过滤,只能得到6125个目标分子。可见,在近乎同等的计算资源消耗下,本技术提出的分子筛选方法可显著富集具有关键相互作用的分子,显著提升分子筛选效率。
179.示例性装置
180.相应的,本技术实施例还提供了一种分子筛选装置,参见图6所示,该装置包括:
181.虚拟对接单元100,用于通过将第i次从预设分子库中选出的各个分子与目标受体蛋白进行分子对接,从所述各个分子中选出与目标受体蛋白对接取得设定分子对接效果的分子,加入过筛分子集;其中,i为正整数;
182.分子预测单元110,用于利用预设的分子预测模型,从所述预设分子库的剩余分子中,预测得到与所述目标受体蛋白对接能够取得所述设定分子对接效果的分子,作为第i+1次从所述预设分子库中选出的分子;其中,所述剩余分子为除前i次从所述预设分子库选出的所有分子之外的分子;
183.循环控制单元120,用于令i=i+1,并调用所述虚拟对接单元和所述分子预测单元重新执行上述处理;以及,循环执行上述处理,直至所消耗的分子对接计算资源达到设定的计算资源阈值,或所述过筛分子集中的分子数达到设定的分子数阈值。
184.作为一种可选的实施方式,所述与目标受体蛋白对接取得设定分子对接效果,包括:
185.与目标受体蛋白对接的对接得分达到设定的对接得分阈值,和/或,与目标受体蛋白对接形成设定的相互作用。
186.作为一种可选的实施方式,所述分子预测单元利用预设的分子预测模型,从所述预设分子库的剩余分子中,预测得到与所述目标受体蛋白对接能够取得所述设定分子对接效果的分子,具体包括:
187.至少根据第i次从所述预设分子库中选出的分子、所述目标受体蛋白,以及第i次从所述预设分子库中选出的分子与所述目标受体蛋白对接取得的对接效果,对预设的分子预测模型进行训练,得到更新后的分子预测模型;
188.利用更新后的分子预测模型,从所述预设分子库的剩余分子中,预测得到与所述目标受体蛋白对接能够取得所述设定分子对接效果的分子。
189.作为一种可选的实施方式,所述分子预测单元至少根据第i次从所述预设分子库中选出的分子、所述目标受体蛋白,以及第i次从所述预设分子库中选出的分子与所述目标受体蛋白对接取得的对接效果,对预设的分子预测模型进行训练,具体包括:
190.根据前i次从所述预设分子库中选出的所有分子、所述目标受体蛋白,以及前i次从所述预设分子库中选出的所有分子与所述目标受体蛋白对接取得的对接效果,对预设的分子预测模型进行训练。
191.作为一种可选的实施方式,所述分子预测单元利用分子预测模型从所述预设分子
库的剩余分子中,预测得到与所述目标受体蛋白对接能够取得所述设定分子对接效果的分子,包括:
192.利用分子预测模型预测所述预设分子库的剩余分子中的各个分子与所述目标受体蛋白对接取得的对接效果的分值;
193.根据各个分子与所述目标受体蛋白对接取得的对接效果的分值,从所述预设分子库的剩余分子中选出目标分子;
194.其中,所述目标分子包括与所述目标受体蛋白对接取得的对接效果的分值最高的设定数量的分子中的至少一个。
195.作为一种可选的实施方式,所述目标分子还包括:
196.与所述目标受体蛋白对接取得的分子对接效果的分值位于第一分值和第二分值之间的分子;
197.其中,所述第一分值小于预设分值,所述第二分值大于预设分值,并且所述第一分值和所述第二分值与所述预设分值的差值均小于设定阈值;
198.其中,所述预设分值为对接效果满分分值的一半。
199.作为一种可选的实施方式,所述分子预测单元利用预设的分子预测模型,从所述预设分子库的剩余分子中预测得到与所述目标受体蛋白对接能够取得所述设定分子对接效果的分子,包括:
200.利用预设的分子预测模型,从所述预设分子库的各个分子类的剩余分子中,分别预测得到与所述目标受体蛋白对接能够取得所述设定分子对接效果的分子;其中,所述各个分子类通过对所述预设分子库中的分子进行同系物骨架聚类而确定。
201.作为一种可选的实施方式,当i=1时,所述第i次从预设分子库中选出的分子,通过从所述预设分子库中随机选取分子而得到,或者通过从所述预设分子库的每一个分子类中分别随机选取设定数量的分子而得到,或者通过从所述预设分子库中选取与目标受体蛋白对接取得的对接效果的分值大于设定得分阈值的分子而得到;
202.其中,所述各个分子类通过对所述预设分子库中的分子进行同系物骨架聚类而确定。
203.本实施例提供的分子筛选装置,与本技术上述实施例所提供的分子筛选方法属于同一申请构思,可执行本技术上述任意实施例所提供的分子筛选方法,具备执行上述分子筛选方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本技术上述实施例提供的分子筛选方法的具体处理内容,此处不再加以赘述。
204.示例性电子设备
205.本技术另一实施例还提出一种分子筛选设备,参见图7所示,该设备包括:
206.存储器200和处理器210;
207.其中,所述存储器200与所述处理器210连接,用于存储程序;
208.所述处理器210,用于通过运行所述存储器200中存储的程序,实现上述任一实施例公开的分子筛选方法。
209.具体的,上述分子筛选设备还可以包括:总线、通信接口220、输入设备230和输出设备240。
210.处理器210、存储器200、通信接口220、输入设备230和输出设备240通过总线相互
连接。其中:
211.总线可包括一通路,在计算机系统各个部件之间传送信息。
212.处理器210可以是通用处理器,例如通用中央处理器(cpu)、微处理器等,也可以是特定应用集成电路(application-specific integrated circuit,asic),或一个或多个用于控制本发明方案程序执行的集成电路。还可以是数字信号处理器(dsp)、专用集成电路(asic)、现成可编程门阵列(fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
213.处理器210可包括主处理器,还可包括基带芯片、调制解调器等。
214.存储器200中保存有执行本发明技术方案的程序,还可以保存有操作系统和其他关键业务。具体地,程序可以包括程序代码,程序代码包括计算机操作指令。更具体的,存储器200可以包括只读存储器(read-only memory,rom)、可存储静态信息和指令的其他类型的静态存储设备、随机存取存储器(random access memory,ram)、可存储信息和指令的其他类型的动态存储设备、磁盘存储器、flash等等。
215.输入设备230可包括接收用户输入的数据和信息的装置,例如键盘、鼠标、摄像头、扫描仪、光笔、语音输入装置、触摸屏、计步器或重力感应器等。
216.输出设备240可包括允许输出信息给用户的装置,例如显示屏、打印机、扬声器等。
217.通信接口220可包括使用任何收发器一类的装置,以便与其他设备或通信网络通信,如以太网,无线接入网(ran),无线局域网(wlan)等。
218.处理器210执行存储器200中所存放的程序,以及调用其他设备,可用于实现本技术上述实施例所提供的任意一种分子筛选方法的各个步骤。
219.示例性计算机程序产品和存储介质
220.除了上述方法和设备以外,本技术的实施例还可以是计算机程序产品,其包括计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的分子筛选方法中的步骤。
221.所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本技术实施例操作的程序代码,所述程序设计语言包括面向对象的程序设计语言,诸如java、c++等,还包括常规的过程式程序设计语言,诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。
222.此外,本技术的实施例还可以是存储介质,其上存储有计算机程序,计算机程序被处理器执行本说明书上述“示例性方法”部分中描述的分子筛选方法中的步骤。
223.对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本技术并不受所描述的动作顺序的限制,因为依据本技术,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本技术所必须的。
224.需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参
见方法实施例的部分说明即可。
225.本技术各实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减,各实施例中记载的技术特征可以进行替换或者组合。
226.本技术各实施例种装置及终端中的模块和子模块可以根据实际需要进行合并、划分和删减。
227.本技术所提供的几个实施例中,应该理解到,所揭露的终端,装置和方法,可以通过其它的方式实现。例如,以上所描述的终端实施例仅仅是示意性的,例如,模块或子模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个子模块或模块可以结合或者可以集成到另一个模块,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
228.作为分离部件说明的模块或子模块可以是或者也可以不是物理上分开的,作为模块或子模块的部件可以是或者也可以不是物理模块或子模块,即可以位于一个地方,或者也可以分布到多个网络模块或子模块上。可以根据实际的需要选择其中的部分或者全部模块或子模块来实现本实施例方案的目的。
229.另外,在本技术各个实施例中的各功能模块或子模块可以集成在一个处理模块中,也可以是各个模块或子模块单独物理存在,也可以两个或两个以上模块或子模块集成在一个模块中。上述集成的模块或子模块既可以采用硬件的形式实现,也可以采用软件功能模块或子模块的形式实现。
230.专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本技术的范围。
231.结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件单元,或者二者的结合来实施。软件单元可以置于随机存储器(ram)、内存、只读存储器(rom)、电可编程rom、电可擦除可编程rom、寄存器、硬盘、可移动磁盘、cd-rom、或技术领域内所公知的任意其它形式的存储介质中。
232.最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
233.对所公开的实施例的上述说明,使本领域技术人员能够实现或使用本技术。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本技术的精神或范围的情况下,在其它实施例中实现。因此,本技术将不会被
限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

技术特征:


1.一种分子筛选方法,其特征在于,包括:通过将第i次从预设分子库中选出的各个分子与目标受体蛋白进行分子对接,从所述各个分子中选出与目标受体蛋白对接取得设定分子对接效果的分子,加入过筛分子集;其中,i为正整数;利用预设的分子预测模型,从所述预设分子库的剩余分子中,预测得到与所述目标受体蛋白对接能够取得所述设定分子对接效果的分子,作为第i+1次从所述预设分子库中选出的分子;其中,所述剩余分子为除前i次从所述预设分子库选出的所有分子之外的分子;令i=i+1,重新执行上述处理;循环执行上述处理,直至所消耗的分子对接计算资源达到设定的计算资源阈值,或所述过筛分子集中的分子数达到设定的分子数阈值。2.根据权利要求1所述的方法,其特征在于,所述与目标受体蛋白对接取得设定分子对接效果,包括:与目标受体蛋白对接的对接得分达到设定的对接得分阈值,和/或,与目标受体蛋白对接形成设定的相互作用。3.根据权利要求1所述的方法,其特征在于,利用预设的分子预测模型,从所述预设分子库的剩余分子中,预测得到与所述目标受体蛋白对接能够取得所述设定分子对接效果的分子,包括:至少根据第i次从所述预设分子库中选出的分子、所述目标受体蛋白,以及第i次从所述预设分子库中选出的分子与所述目标受体蛋白对接取得的对接效果,对预设的分子预测模型进行训练,得到更新后的分子预测模型;利用更新后的分子预测模型,从所述预设分子库的剩余分子中,预测得到与所述目标受体蛋白对接能够取得所述设定分子对接效果的分子。4.根据权利要求3所述的方法,其特征在于,所述至少根据第i次从所述预设分子库中选出的分子、所述目标受体蛋白,以及第i次从所述预设分子库中选出的分子与所述目标受体蛋白对接取得的对接效果,对预设的分子预测模型进行训练,包括:根据前i次从所述预设分子库中选出的所有分子、所述目标受体蛋白,以及前i次从所述预设分子库中选出的所有分子与所述目标受体蛋白对接取得的对接效果,对预设的分子预测模型进行训练。5.根据权利要求1至4中任意一项所述的方法,其特征在于,利用分子预测模型从所述预设分子库的剩余分子中,预测得到与所述目标受体蛋白对接能够取得所述设定分子对接效果的分子,包括:利用分子预测模型预测所述预设分子库的剩余分子中的各个分子与所述目标受体蛋白对接取得的对接效果的分值;根据各个分子与所述目标受体蛋白对接取得的对接效果的分值,从所述预设分子库的剩余分子中选出目标分子;其中,所述目标分子包括与所述目标受体蛋白对接取得的对接效果的分值最高的设定数量的分子中的至少一个。6.根据权利要求5所述的方法,其特征在于,所述目标分子还包括:与所述目标受体蛋白对接取得的分子对接效果的分值位于第一分值和第二分值之间
的分子;其中,所述第一分值小于预设分值,所述第二分值大于预设分值,并且所述第一分值和所述第二分值与所述预设分值的差值均小于设定阈值;其中,所述预设分值为对接效果满分分值的一半。7.根据权利要求1所述的方法,其特征在于,利用预设的分子预测模型,从所述预设分子库的剩余分子中预测得到与所述目标受体蛋白对接能够取得所述设定分子对接效果的分子,包括:利用预设的分子预测模型,从所述预设分子库的各个分子类的剩余分子中,分别预测得到与所述目标受体蛋白对接能够取得所述设定分子对接效果的分子;其中,所述各个分子类通过对所述预设分子库中的分子进行同系物骨架聚类而确定。8.根据权利要求1所述的方法,其特征在于,当i=1时,所述第i次从预设分子库中选出的分子,通过从所述预设分子库中随机选取分子而得到,或者通过从所述预设分子库的每一个分子类中分别随机选取设定数量的分子而得到,或者通过从所述预设分子库中选取与目标受体蛋白对接取得的对接效果的分值大于设定得分阈值的分子而得到;其中,所述各个分子类通过对所述预设分子库中的分子进行同系物骨架聚类而确定。9.一种分子筛选装置,其特征在于,包括:虚拟对接单元,用于通过将第i次从预设分子库中选出的各个分子与目标受体蛋白进行分子对接,从所述各个分子中选出与目标受体蛋白对接取得设定分子对接效果的分子,加入过筛分子集;其中,i为正整数;分子预测单元,用于利用预设的分子预测模型,从所述预设分子库的剩余分子中,预测得到与所述目标受体蛋白对接能够取得所述设定分子对接效果的分子,作为第i+1次从所述预设分子库中选出的分子;其中,所述剩余分子为除前i次从所述预设分子库选出的所有分子之外的分子;循环控制单元,用于令i=i+1,并调用所述虚拟对接单元和所述分子预测单元重新执行上述处理;以及,循环执行上述处理,直至所消耗的分子对接计算资源达到设定的计算资源阈值,或所述过筛分子集中的分子数达到设定的分子数阈值。10.根据权利要求9所述的装置,其特征在于,所述与目标受体蛋白对接取得设定分子对接效果,包括:与目标受体蛋白对接的对接得分达到设定的对接得分阈值,和/或,与目标受体蛋白对接形成设定的相互作用。11.根据权利要求9所述的装置,其特征在于,所述分子预测单元利用预设的分子预测模型,从所述预设分子库的剩余分子中,预测得到与所述目标受体蛋白对接能够取得所述设定分子对接效果的分子,具体包括:至少根据第i次从所述预设分子库中选出的分子、所述目标受体蛋白,以及第i次从所述预设分子库中选出的分子与所述目标受体蛋白对接取得的对接效果,对预设的分子预测模型进行训练,得到更新后的分子预测模型;利用更新后的分子预测模型,从所述预设分子库的剩余分子中,预测得到与所述目标受体蛋白对接能够取得所述设定分子对接效果的分子。12.根据权利要求11所述的装置,其特征在于,所述分子预测单元至少根据第i次从所
述预设分子库中选出的分子、所述目标受体蛋白,以及第i次从所述预设分子库中选出的分子与所述目标受体蛋白对接取得的对接效果,对预设的分子预测模型进行训练,具体包括:根据前i次从所述预设分子库中选出的所有分子、所述目标受体蛋白,以及前i次从所述预设分子库中选出的所有分子与所述目标受体蛋白对接取得的对接效果,对预设的分子预测模型进行训练。13.根据权利要求9至12中任意一项所述的装置,其特征在于,所述分子预测单元利用分子预测模型从所述预设分子库的剩余分子中,预测得到与所述目标受体蛋白对接能够取得所述设定分子对接效果的分子,包括:利用分子预测模型预测所述预设分子库的剩余分子中的各个分子与所述目标受体蛋白对接取得的对接效果的分值;根据各个分子与所述目标受体蛋白对接取得的对接效果的分值,从所述预设分子库的剩余分子中选出目标分子;其中,所述目标分子包括与所述目标受体蛋白对接取得的对接效果的分值最高的设定数量的分子中的至少一个。14.根据权利要求13所述的装置,其特征在于,所述目标分子还包括:与所述目标受体蛋白对接取得的分子对接效果的分值位于第一分值和第二分值之间的分子;其中,所述第一分值小于预设分值,所述第二分值大于预设分值,并且所述第一分值和所述第二分值与所述预设分值的差值均小于设定阈值;其中,所述预设分值为对接效果满分分值的一半。15.根据权利要求9所述的装置,其特征在于,所述分子预测单元利用预设的分子预测模型,从所述预设分子库的剩余分子中预测得到与所述目标受体蛋白对接能够取得所述设定分子对接效果的分子,包括:利用预设的分子预测模型,从所述预设分子库的各个分子类的剩余分子中,分别预测得到与所述目标受体蛋白对接能够取得所述设定分子对接效果的分子;其中,所述各个分子类通过对所述预设分子库中的分子进行同系物骨架聚类而确定。16.根据权利要求9所述的装置,其特征在于,当i=1时,所述第i次从预设分子库中选出的分子,通过从所述预设分子库中随机选取分子而得到,或者通过从所述预设分子库的每一个分子类中分别随机选取设定数量的分子而得到,或者通过从所述预设分子库中选取与目标受体蛋白对接取得的对接效果的分值大于设定得分阈值的分子而得到;其中,所述各个分子类通过对所述预设分子库中的分子进行同系物骨架聚类而确定。17.一种分子筛选设备,其特征在于,包括:存储器和处理器;所述存储器与所述处理器连接,用于存储程序;所述处理器,用于通过运行所述存储器中的程序,实现如权利要求1至8中任意一项所述的分子筛选方法。18.一种存储介质,其特征在于,所述存储介质上存储有计算机程序,所述计算机程序被处理器运行时,实现如权利要求1至8中任意一项所述的分子筛选方法。

技术总结


本申请提出一种分子筛选方法、装置、设备及存储介质,该方法包括:通过将第i次从预设分子库中选出的各个分子与目标受体蛋白进行分子对接,从所述各个分子中选出与目标受体蛋白对接取得设定分子对接效果的分子,加入过筛分子集;利用预设的分子预测模型,从所述预设分子库的剩余分子中,预测得到与所述目标受体蛋白对接能够取得所述设定分子对接效果的分子,作为第i+1次从所述预设分子库中选出的分子;令i=i+1,重新执行上述处理;循环执行上述处理,直至所消耗的分子对接计算资源达到设定的计算资源阈值,或所述过筛分子集中的分子数达到设定的分子数阈值。采用上述方案能够提高分子筛选的效率。子筛选的效率。子筛选的效率。


技术研发人员:

马文志 张博文 郑莲君 马松龄

受保护的技术使用者:

北京晶泰科技有限公司

技术研发日:

2022.07.13

技术公布日:

2022/11/25

本文发布于:2024-09-20 17:21:21,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/3/8427.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:分子   所述   受体   蛋白
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议