过滤人工智能设计的分子以进行实验室测试的制作方法



1.本技术涉及人工智能(ai)设计的分子,更具体而言,涉及用于过滤ai设计的分子以进行实验室测试的技术。


技术实现要素:



2.以下呈现了概述以提供对本公开的一个或多个实施例的基本理解。本概述不旨在标识关键或重要元素,也不旨在描绘特定实施例的任何范围或权利要求的任何范围。其唯一目的是以简化形式呈现概念,作为稍后呈现的更详细描述的序言。在本文所述的一个或多个实施例中,描述了用于过滤ai设计的分子以进行实验室测试的装置、系统、计算机实现的方法和/或计算机程序产品。
3.根据实施例,计算机实施的方法可以包括通过与处理器有效连接的系统,基于使用一种或多种分类器对人工智能(ai)设计的分子进行分类,从ai设计的分子的组中选择ai设计的分子的第一亚组作为候选药剂。所述方法还包括通过所述系统,基于使用一种或多种计算机模拟对所述候选药剂与一种或多种生物靶标(biological target)之间的分子相互作用的评估,选择所述候选药剂的第二亚组用于湿式实验室测试。
4.在一些实施例中,所述一种或多种分类器包括一个或多个神经网络或机器学习模型,所述模型基于人工智能(ai)设计的分子序列将所述ai设计的分子分类为具有或不具有靶标药剂(a target pharmaceutical agent)的一个或多个限定特征。利用这些实现,可以基于具有一个或多个限定特征的第一亚组来选择第一亚组。第二亚组还可以基于在一种或多种计算机模拟中显示一个或多个靶分子(target molecula)相互作用特征的第二亚组来选择。
5.在一个或多个实施例中,候选药剂可以包括候选抗微生物剂。在这些实施方案中,所述分类包括通过所述系统确定人工智能(ai)设计的分子是否为以下中的至少一种:抗微生物肽(amp),广谱抗微生物、无毒、有效的或结构化的。所述方法可进一步包括通过所述系统使用所述一个或多个计算机模拟来评估所述候选抗微生物剂与包含一种或多种脂质的模型脂质双层或病原体的另一种细胞组分以及力场之间的相互作用倾向,其中选择所述第二亚组包括基于所述第二亚组表现出限定水平的所述相互作用倾向来选择所述第二亚组。
6.在这些实施例的一些实施例中,所述方法可进一步包括通过所述系统使用初始计算机模拟以使具有有效和无活性序列的测试蛋白质与包含一个或多个脂质的模型脂质双层或病原体的另一种细胞组分以及场力相互作用,并基于所述初始计算机模拟,通过所述系统选择源自所述模型细菌双层的与抗微生物活性相关的一个或多个特征。该方法进一步包括通过系统基于候选抗微生物剂是否表现出使用一个或多个计算机模拟所确定的一个或多个特征来评估候选抗微生物剂以包括在第二亚组中。
7.在ai设计的分子旨在作为抗微生物剂的多种实施例中,湿式实验室测试可包括以下至少一种:测试第二亚组抗一个或多个革兰氏阳性细菌或另一种类型的病原体,测试第二亚组抗一种或多种革兰氏阴性细菌或另一种类型的病原体,测试第二亚组的体外毒性,
或测试第二亚组的体内毒性。
8.在一些实施例中,结合所公开的系统描述的元件可以以不同的形式体现,诸如计算机系统、计算机程序产品或另一形式。
附图说明
9.图1示出了根据一个或多个实施例的用于过滤人工智能(ai)设计的分子候选的示例性流水线的高级流程图。
10.图2示出了根据一个或多个实施例的便于过滤ai设计的分子以进行湿式实验室测试的示例性非限制性系统200的框图。
11.图3a和3b示出了根据一个或多个实施例的示例性基于试探法的筛选组件的框图。
12.图4提供了根据一个或多个实施例的表示候选抗微生物肽(amp)的示例试探分类结果的表。
13.图5a和5b示出了根据一个或多个实施例的示例性基于模拟的筛选组件的框图。
14.图6提供了根据一个或多个实施例的amp的粗粒度分子动力学模拟的快照。
15.图7提供了根据一个或多个实施例的表示候选amp的示例仿真结果的表。
16.图8呈现了根据一个或多个实施例的示例混淆矩阵。
17.图9示出了根据一个或多个实施例的用于过滤ai设计的分子以进行实验室测试的示例性、非限制性的计算机实现的方法的高级流程图。
18.图10示出了根据一个或多个实施方式的过滤候选ai设计的抗微生物分子以进行实验室测试的示例性、非限制性的计算机实施的方法的高级流程图。
19.图11提供了一个表,该表显示了使用所公开的过滤技术从一组约100,000个ai设计的候选肽中鉴定的前20个候选amp的实际模拟结果。
20.图12示出了其中可便于此处所描述的一个或多个实施例的示例、非限制性操作环境的框图。
具体实施方式
21.以下详细描述仅是说明性的,并且不旨在限制实施例和/或实施例的应用或使用。此外,并不意图被前面的技术领域或发明内容部分或具体实施方式部分中呈现的任何明示或暗示的信息所限制。
22.机器学习(ml)和人工智能(ai)已经越来越多地用于新的分子设计,特别是关于设计新的药物。然而,当使用ml/ai用于新药物发现时存在许多问题。例如,由于不平衡的类别和噪声和/或稀疏的标记,许多ml/ai分子设计技术产生太多的候选者,以至于不能使用湿式实验室实验进行合理评估。例如,一些ml/ai分子设计方法可产生数千至数十万个候选者。目前,在湿式实验室环境中合成和测试单个候选物的最小成本在三到五千美元之间。此外,在湿式实验室中合成和测试甚至仅20个候选物的平均时间为约一个月。因此,使用ml和ai的新药和其它新分子的开发受到这种非常昂贵和耗时的流水线的显著阻碍。
23.所公开的主题涉及用于有效地过滤ai设计的分子以进行湿式实验室测试的系统、计算机实施的方法和/或计算机程序产品。ai设计的分子可包括具有针对各种靶标类型(target class)的特定性质的各种类型的药物以及设计用于非药理学用途的新分子。所公
开的技术可用于显著减少用于湿式实验室测试的可行候选物的数量(例如,从约10万个候选者至约20个候选者),同时还确保湿式实验室测试中的相对高的成功率(例如,至少10%的成功率)。在一个或多个实施例中,过滤过程涉及基于启发式的筛选过程,随后是计算机相似性筛选过程。
24.在一个或多个实施例中,基于启发式的筛选过程涉及开发和/或应用一种或多种分类模型/算法(本文也称为“分类器”)以基于对其各自的分子序列(例如,蛋白质序列、遗传/核苷酸序列、聚合物序列等)和/或其化学结构的分析来确定或推断初始候选物中的每一个(或在些实现中,一个或多个)是否具有一个或多个限定的靶标特征(即,感兴趣的特征)。基于相应候选的预期用途和/或目的来选择一个或多个限定的靶标特征,并且因此可以变化。例如,对于作为新药的ai设计的分子,可基于分子的所需生物活性选择一个或多个限定的靶标特征。在这点上,在一些实施方案中,候选物可包括用作抗微生物剂的ai设计肽。在这些实施例中,所述一种或多种限定特征可包括(但不限于)抗微生物肽(amp)、广谱抗微生物、低毒或无毒、高效力或没有效力、以及限定的结构(例如二级结构,如螺旋结构、褶片结构、线圈结构等)。在这点上,一种或多种分类器可用于过滤候选ai设计的分子的较大的初始集合,以基于其各自的分子序列鉴定具有确定或推断的一个或多个限定特征的候选物的较小亚组。基于试探的筛选过程选择的候选亚组在本文中通常称为“第一亚组”并且可以包括一个或多个候选。可通过调适过滤标准(例如,相对于所需的经界定特征的数目、所需特征的组合、指示特征的展示水平的值、指示分类推断的置信度的值等)来适当地定制包含于第一亚组中的候选者的数目。
25.计算机模拟筛选过程使用计算机模拟来评估包括在第一亚组中的候选物的分子物理学,以将第一亚组进一步细化为推荐用于湿式实验室测试的一个或多个前导候选物的甚至更小的亚组。候选物的这个较小亚组在本文中一般被称为候选物的“第二亚组”。在各种实施例中,包括在第二亚组中的候选物可进一步被合成并使用湿式实验室测试进行评估。
26.在一个或多个实施例中,计算机模拟过程涉及使用高通量计算机模拟来模拟包括在第一亚组中的相应候选物与一种或多种分子和/或生物靶标(例如,病原体的一种或多种细胞组分)之间的分子相互作用。模拟的分子相互作用可以用于鉴定表现出一种或多种感兴趣的行为特征(即,靶标性状)的候选物中的一种或多种。例如,在一些候选物是amp的实施例中,高通量计算机模拟可用于评估第一亚组中包含的候选肽,以鉴定和选择与病原体的一种或多种细胞组分(例如脂质双层和其它细胞组分)具有一致相互作用倾向的这些候选物中的一个或多个。
27.在一些实施例中,可以对测试分子进行高通量计算机模拟的训练,以鉴定与实现靶标活性的有效性相关的一个或多个行为特征,所述测试分子包括已知在实现ai设计的分子的靶标活性(例如,在其中ai设计的分子是药物的实现中的期望生物活性)方面有效的测试分子和任选地已知无效的分子。这些一个或多个行为特性可以用作一个或多个靶标性状(target characteristics)。然后可以对未知序列(即包括在第一亚组中的候选分子的序列)进行计算机模拟,以确定这些候选分子是否(以及在一些实施方式中在何种程度上)表现出一个或多个靶标性状。然后,可以测试和/或推荐表现出一个或多个靶标性状的高倾向性的那些候选分子中的一种或多种,用于使用湿式实验室试验进行测试。
28.当用于筛选约100,000个ai设计的amp作为可行候选物时,实验验证了所公开的筛选技术。在这方面,使用公开的基于试探的筛选方法,将初始组的100,000个候选肽减少到163个候选肽。然后模拟163个候选肽,以根据计算机模拟筛选方法测试膜结合趋势,这导致鉴定20个前导候选肽,其在计算机模拟中显示较高且一致的膜结合活性。然后合成20种前导候选肽,并使用湿式实验室实验测试抗微生物活性和毒性。在这20种前导肽中,鉴定了两种最终前导ai肽设计的肽。其中这两种最终前导ai设计的肽经实验证实具有较强的广谱抗微生物活性和较低的体外和体内毒性。这两种新amp都不存在于设计初始候选肽所用的监督训练数据中。这些实验证明,所公开的ai生成的amp序列的三阶段筛选流水线(例如,启发式筛选、模拟筛选和湿式实验室筛选)在最终阶段产生十分之一的成功率。
29.如本文所用,术语“ai设计的分子”用于指使用一个或多个机器学习(ml)和/或人工智能(ai)技术设计、产生或开发的分子。所公开的ai设计的分子可包括生物分子(例如,天然和重组肽、蛋白质、生物聚合物、核酸、多糖、抗体、激素等)、合成分子、生物药品(或“生物制品”)及其组合。所公开的ai设计的分子可包括有机化合物、无机化合物、有机金属化合物或其组合。
30.本文所用的术语“肽”是指长度通常为2至约50个残基的氨基酸残基的聚合物。在某些实施例中,本文公开的ai设计肽的长度范围为约2至25个残基。在一些实施例中,构成肽的氨基酸残基是“l-型”氨基酸残基,然而,应认识到在各种实施例中,“d”氨基酸可掺入到肽中。肽还包括氨基酸聚合物,其中一个或多个氨基酸残基是相应天然存在的氨基酸的人工化学类似物,以及天然存在的氨基酸聚合物。
31.如本文所用,术语“合成”肽或合成amp用于指化学合成的肽,而不是宿主衍生的肽。如本文所用的术语“残基”是指天然的、合成的或修饰的氨基酸。各种氨基酸类似物包括但不限于2-氨基己二酸、3-氨基己二酸、β-丙氨酸(β-氨基丙酸)、2-氨基丁酸、4-氨基丁酸、酸、6-氨基己酸、2-氨基庚酸、2-氨基异丁酸、3-氨基异丁酸、2-氨基庚二酸、2,4二氨基丁酸、去甲基肌苷、2,2'-二氨基庚二酸、2,3-二氨基丙酸、n-乙基甘氨酸、n-乙基天冬酰胺、羟赖氨酸、别构羟赖氨酸、3-羟脯氨酸、4-羟脯氨酸、异去甲基肌苷、别异亮氨酸、n-甲基甘氨酸、肌氨酸、n-甲基异亮氨酸、6-n-甲基赖氨酸、n-甲基缬氨酸、正缬氨酸、正亮氨酸、鸟氨酸等。这些修饰的氨基酸是说明性的,而不是限制性的。
32.如本文中应用于肽的术语“常规”和“天然”是指仅由天然存在的氨基酸构建的肽:ala、cys、asp、glu、phe、gly、his、ile、lys、leu、met、asn、pro、gln、arg、ser、thr、val、trp和tyr。在各种实施例中,所公开的ai设计的肽仅包含天然氨基酸残基。在一些实施例中,所公开的ai设计的分子可用一个或多个合成的或修饰的氨基酸取代相应的天然氨基酸。如果本发明的化合物引发与天然存在的肽的生物活性和/或特异性相关的生物活性(例如抗微生物活性),则其“对应于”天然肽。引发的活性可以与天然肽的活性相同、大于或小于天然肽的活性。通常,如果n-取代的甘氨酸衍生物在亲水性、疏水性、极性等方面与原始氨基酸相似,则这种肽将具有基本上相应的单体序列,其中天然氨基酸被n-取代的甘氨酸衍生物替代。
33.在某些实施例中,也考虑了与本文所述任何序列具有至少80%,优选至少85%或90%,更优选至少95%或98%序列同一性的amp。术语“相同的”或“同一性”百分比是指当为了最大对应性进行比较和比对时,两个或更多个序列相同或具有指定百分比的相同氨基酸
残基,如使用以下序列比较算法之一或通过目视检查所测量。对于本文公开的肽,在肽的全长上测定序列同一性。对于序列比较,通常一个序列作为参考序列,测试序列与其比较。当使用序列比较算法时,将测试和参考序列输入计算机,如果需要,指定子序列坐标,并指定序列算法程序参数。然后,序列比较算法基于指定的程序参数计算测试序列相对于参考序列的序列同一性百分比。比较序列的最佳比对可以使用基本局部比对搜索工具(blast)等进行。
34.术语“特异性”当用于肽的抗微生物活性时,表示与其它相关物种相比,肽优先抑制特定微生物物种的生长和/或增殖和/或杀死特定微生物物种。在某些实施例中,对靶标物种,优先抑制或消除至少大于10%(例如ld
50
低10%),优选至少大于20%、30%、40%或50%,更优选大于至少2倍、至少5倍或至少10倍。
35..如本文所用,病症的“”或“”可指预防病症、减缓病症的发作或发展速率、降低发展病症的风险、预防或延迟与病症相关的症状的发展、减少或结束与病症相关的症状、产生病症的完全或部分消退或其某种组合。
36.本文所用的关于抗微生物活性和/或效力的术语“高”是指抗微生物剂(例如amp等)的抗微生物活性水平高于特定细菌生物体的抗微生物活性或效力的规定最低阈值。在各种实施例中,最小阈值可基于其mic、其ld
50
浓度/或其hc
50
浓度,其中浓度越低,抗微生物活性和/或效力越高。例如,在一些实施例中,如果抗微生物剂的mic小于250微克/毫升(μg/ml),更优选小于150μg/ml,更优选小于100μg/ml,更优选小于50μg/ml,甚至更优选小于30μg/ml,则认为该抗微生物剂具有高抗微生物活性和/或效力。
37.本文所用术语“低毒性”是指药理学试剂(例如包括一种或多种amp或另一种活性试剂)的毒性低于限定的可接受的毒性阈值的任何水平。在各种实施方案中,所限定的阈值可基于药理学试剂相对于其ld
50
和/或hc
50
浓度的mic。在一些实现中,如果其mic小于其ld
50
和/或hc
50
浓度,则可认为药理学试剂(例如amp或包含一种或多种amp的组合物)具有低毒性。在其它实现中,如果其mic为60%或小于其ld
50
和/或hc
50
浓度,则可认为药物具有低毒性。在其它实施方案中,如果其mic为50%或小于其ld
50
和/或hc
50
浓度,则可认为药物具有低毒性。在其它实现中,如果其mic为30%或小于其ld
50
和/或hc
50
浓度,则可认为药理学试剂具有低毒性。在其它实现中,如果其mic为25%或小于其ld
50
和/或hc
50
浓度,则可认为药理学试剂具有低毒性。
38.关于评估ai设计的分子,更具体而言是ai设计的amp,举例说明了所公开主题的各种实施例,所述ai设计的分子是(或意欲是)新药物。然而,应当理解,所公开的ai设计的分子过滤技术可用于评价针对各种靶标类型(例如,抗病毒剂、抗肿瘤剂、剂、抗肿瘤剂等)以及设计用于非药理学用途的新分子的具有特定性质的各种药物。术语“药物”、“药剂”、“药品”、“药物”和“生物活性分子”在本文中可互换使用,是指用于(或设计用于)诊断、治愈、或预防疾病的物质,除非上下文保证术语之间的特定区别。
39.现在参考附图描述一个或多个实施例,其中相同的参考标号始终用于指代相同的元素。在以下描述中,出于解释的目的,阐述了许多具体细节以便提供对一个或多个实施例的更透彻理解。然而,在各种情况下,显然可在没有这些特定细节的情况下实践所述一个或一个以上实施例。注意,本技术的附图仅用于说明性目的,因此附图不是按比例绘制的。
40.图1示出了根据一个或多个实施例的用于过滤ai设计的分子候选物的示例性流水
线100的高级流程图。流水线100采用三阶段筛选方案将候选ai设计的分子(本文也称为“候选分子”或简称为“候选物”)的初始组102过滤成一个或多个可行候选物114。这三个阶段包括基于试探法的筛选阶段104、计算机模拟筛选阶段108和湿式实验室筛选阶段112。根据流水线100,基于试探法的筛选阶段104被用来使用一种或多种分类器基于一个或多个预定义的靶标特征从初始组102中选择候选物的第一亚组106。然后,使用计算机模拟筛选阶段108,使用物理驱动的计算机模拟从第一亚组106选择前导候选ai设计的分子的第二亚组110,以评价第一亚组中所包括的各候选物的相关分子动力学。例如,计算机模拟可模拟各候选物(包括在第一亚组106中)与候选ai设计的分子的一种或多种分子/生物靶标(例如,病原体的一种或多种细胞组分)之间的分子相互作用。然后基于候选物是否在计算机模拟中展现一个或多个靶标行为特性和/或在计算机模拟中展现一个或多个靶标行为特性到什么程度来选择第二亚组110。
41.然后,湿式实验室筛选阶段112可用于筛选包括在第二亚组110中的相应候选物(在本文中也称为前导候选物)以鉴定任何可行候选物114。在各种实施方案中,湿式实验室筛选阶段112包括合成前导候选物并进行适当的体外和/或体内测试以验证前导候选物是否对一种或多种病原体或另一个分子靶标是存活的,如基于试探法的筛选阶段104和计算机模拟筛选阶段108所示。例如,在一个或多个实施例中,其中ai设计的分子包括设计用作抗微生物剂(例如amp)的分子,湿式实验室筛选阶段112可包括(但不限于)测试前导候选物针对一种或多种类型的革兰氏阳性细菌和/或革兰氏阴性细菌或另一种类型的病原体,并在体外和/或体内测试前导候选物的毒性。关于ai设计的分子过滤流水线(例如,流水线100)的其他细节将参考图2-图11进一步描述。
42.图2示出了根据一个或多个实施例的便于过滤ai设计的分子以进行湿式实验室测试的示例性非限制性系统200的框图。本文描述的系统的实施例可以包括在一个或多个机器内包含的一个或多个机器可执行组件(例如,在与一个或多个机器相关联的一个或多个计算机可读存储介质中体现)。当由一个或多个机器(例如,处理器、计算机、计算设备、虚拟机等)执行时,这样的组件可以使一个或多个机器执行所描述的操作。
43.例如,在所示的实施例中,系统200包括基于试探法的筛选组件202和基于模拟的筛选组件204,它们可以分别是或对应于机器或计算机可执行组件。系统200还可以包括或可操作地耦合到至少一个存储器210和至少一个处理器208。在各种实施例中,至少一个存储器210可以存储可执行指令(例如,基于试探法的筛选组件202、基于模拟的筛选组件204和本文描述的附加组件),当由至少一个处理器208执行时,这些可执行指令促进由可执行指令定义的操作执行。系统200还可以包括通信地耦合系统200的各种组件的设备总线206。所述处理器208和存储器210以及其他合适的基于计算机或计算的元件的示例可参考图12关于处理单元1216和系统存储器1214到,并且可结合实现结合图1或本文所公开的其他附图示出和描述的系统或组件中的一个或多个来使用。
44.在一些实施例中,系统200可以使用包括处理器和/或可以能够与有线和/或无线网络进行有效和/或可操作的通信的任何类型的组件、机器、设备、设施、装置和/或仪器来部署。所有这些实施例都是可以预见的。例如,系统200可以由服务器设备、计算设备、通用计算机、专用计算机、平板计算设备、手持设备、服务器类计算机器和/或数据库、膝上型计算机、笔记本计算机、台式计算机、蜂窝电话、智能电话、消费电器和/或仪器、工业和/或商
业设备、数字助理、支持多媒体因特网的电话、多媒体播放器和/或另一类型的设备来部署、运行和/或以其他方式执行。
45.应当理解,在本文公开的各图中描绘的本公开的实施例仅用于说明,并且因此,这些实施例的架构不限于本文描绘的系统、设备和/或组件。在一些实施例中,系统200的一个或多个组件可以根据分布式计算系统架构由不同的计算设备(例如,包括虚拟机)单独地或并行地执行。系统200还可包括此处参考操作环境1200和图12描述的各种附加的计算机和/或基于计算的元件,在若干实施例中,这样的计算机和/或基于计算的元件可结合实现结合图1或此处公开的其他附图示出和描述的系统、设备、组件和/或计算机实现的操作中的一个或多个来使用。
46.在一些实施例中,系统200可以经由数据电缆(例如,同轴电缆、高清晰度多媒体接口(hdmi)、推荐标准(rs)232、以太网电缆等)耦合(例如,通信地、电气地、可操作地等)到一个或多个外部系统、数据源和/或设备。在其他实施例中,系统200可以经由网络耦合(例如,通信地、电气地、操作地等)到一个或多个外部系统、源和/或设备。
47.根据多个实施例,这样的网络可以包括有线和无线网络,包括但不限于蜂窝网络、广域网(wan)(例如,因特网)或局域网(lan)。例如,基于试探法的筛选组件202和/或基于模拟的筛选组件204可以使用实际上任何期望的有线或无线技术与一个或多个外部系统、源和/或设备(例如计算设备)通信(反之亦然),所述技术包括但不限于:无线保真(wi-fi)、全球移动通信系统(gsm)、通用移动电信系统(umts)、全球微波接入互操作性(wimax)、增强型通用分组无线业务(增强型gprs)、第三代合作伙伴计划(3gpp)长期演进(lte)、第三代合作伙伴计划2(3gpp2)、超移动宽带(umb)、高速分组接入(hspa)、和其它802.xx无线技术和/或传统电信技术、,会话发起协议(sip)、zigbee、rf4ce协议、wirelesshart协议、6lowpan(低功率无线局域网上的ipv6)、z-wave、ant、超宽带(uwb)标准协议和/或其它专有和非专有通信协议。在这样的示例中,系统200因此可以包括硬件(例如,中央处理单元(cpu)、收发器、解码器)、软件(例如,线程集合、进程集合、执行中的软件)或硬件和软件的组合,其便于在系统200和外部系统、源和/或设备之间传送信息。
48.系统200便于将ai设计的分子的大数集过滤成更具靶向和有希望的候选物的显著更小的数据集(即,候选ai设计的分子的第二亚组),所述候选物可能为更全面的验证实验(例如,湿式实验室实验、新药物的临床试验等)提供靶活性/功能。为了促进这个目的,系统200可以包括基于试探法的筛选组件202和基于模拟的筛选组件204。
49.再次参考图1并结合图2,基于试探法的筛选组件202可被配置成执行流水线100的基于试探法的筛选阶段104以生成候选ai设计的分子的第一亚组106,并且基于模拟的筛选组件204可被配置成执行流水线100的计算机模拟筛选阶段108以生成候选ai设计的分子的第二亚组110。如图1所示,系统200的输出包括候选ai设计的分子的第二亚组110,其对应于推荐用于额外测试(例如,湿式实验室测试)的减少的可行候选物的集合。
50.在这点上,系统200可接收(或以其它方式访问)候选ai设计的分子的初始组102以筛选/过滤。候选ai设计的分子的初始组102可包括任何数量的候选分子(例如,包括数百至数千至数十万或更多)。包括在初始组中的ai设计的分子的类型和/或它们的靶生物学和/或化学活性可以变化。在一些实施例中,候选ai设计的分子的初始组102可包括设计用于提供与诊断、、治愈和/或特定疾病相关的特异性生物反应的药物。例如,候选物的初始组
102可包括被设计为用作抗微生物剂、抗病毒剂、抗癌剂等的ai设计的分子。在另一个更具体的实施例中,系统200可特别设计用于筛选ai设计的肽,所述肽被设计用作广谱抗微生物肽。根据该实施例,候选ai设计的分子的初始组102可包括这些肽的集合。
51.在一些实施例中,候选物的初始组102可以在其分子序列和/或化学结构方面变化,但仍共有共同的设计因素或另一共同的属性。例如,在一些实现中,候选物的初始组102可包括使用相同ml/ai设计模型中的一个或多个生成/设计的分子。在另一个实例中,候选物的初始组可以包括被设计为提供相同或相似的靶生物/化学活性或功能,和/或靶向相同或相似的生物/分子靶标的分子。另外,或可选地,候选物的初始组102可包括相对于这些共同因素中的一个或多个而变化的ai设计的分子、随机取样的ai设计的分子等的集合。
52.不管初始组102中所包括的ai设计的分子的分布如何,基于试探法的筛选组件202和基于模拟的筛选组件204可被配置成基于靶生物活性/功能和/或靶化学活性/功能来筛选候选物。例如,在靶生物活性/功能提供广谱抗微生物活性(例如,抗革兰氏阳性和革兰氏阴性菌株的活性)的实现中,基于试探法的筛选组件202和基于模拟的筛选组件204可被配置为筛选候选物以选择预期提供广谱抗微生物活性的最可行候选物的较小亚组(例如,候选ai设计的分子的第二亚组110)。基于试探法的筛选组件202的其它细节将参考图3a和3b以及图4进行描述,基于模拟的筛选组件204的其它细节将参考图5a-9进行描述。
53.图3a和3b示出了根据一个或多个实施例的示例性的基于试探法的筛选组件的框图。为了简洁,省略了在各个实施例中采用的相同元件的重复描述。
54.根据图3a中所示的实施例,基于试探法的筛选组件202可以包括分类器应用组件302、第一亚组选择组件304和一种或多种分类器306。在各种实施例中,分类器应用组件302可被配置成将一种或多种分类器应用于候选ai设计的分子的初始组102,以基于对其各自的分子序列(例如,蛋白质序列、遗传/核苷酸序列、聚合物序列等)和/或其化学结构的分析来确定或推断初始候选分子中的每一个(或在一些实施例中,一个或多个)是否具有一个或多个限定的靶标特征(即,感兴趣的特征)。在这方面,基于启发式的筛选阶段基于在序列水平和/或化学结构水平上对候选物分子的分析和分类。
55.可以预先选择一个或多个限定的靶标特征,并反映所公开的过滤技术用于鉴定的靶标ai设计的分子的一个或多个所需特征。所述一个或多个特征可以包括明确特征(例如,表现出抗微生物活性,表现出广谱敏感性),以及与明确特征具有已知相关性的隐含特征(例如,具有与抗微生物活性相关的二级肽结构)。因此,一个或多个靶标特征可以基于流水线100和/或系统200的具体应用而变化。
56.例如,在一些实施例中,流水线100和/或系统200可被应用于筛选候选ai设计的肽,以鉴定和选择候选ai设计的肽的一小部分,其最可能有效提供广谱抗微生物剂。对于这些实施例,一个或多个限定特征可以包括(但不限于)抗微生物功能性、广谱效力、低毒性或无毒性、效力、以及限定的结构(例如,二级结构,如螺旋结构、褶皱状片结构、线圈结构等)的存在。因此,一种或多种分类器306可以被配置成预测初始候选肽中的每一个是否具有抗微生物功能性(或不具有)、具有广谱效力(或不具有)、具有低毒性或无毒性(或不具有)、具有限定的二级结构(或不具有)和/或具有高效力或不具有。
57.在一些实施例中,一种或多种分类器306可以包括一个或多个二元分类模型,所述二元分类模型已经预先被训练以基于学习的在限定的靶标特征和反映在具有靶标特征的
已知分子的分子序列(例如,蛋白质序列)和/或化学结构中的模式之间的相关性将相应的候选物分类为具有或不具有一个或多个限定的靶标特征。在其它实施方式中,一种或多种分类器306可以被配置成预测候选分子具有各自的靶标特征的概率(例如,具有靶标特征1的概率、具有靶标特征2的概率、具有靶标特征3的概率等)。例如,对于上述amp实施方式,一种或多种分类器306可以包括多达四种单独的分类器,一种分类器针对四个靶标特征(例如,抗微生物功能性、广谱功效、低或无毒性,以及存在限定的结构)中的每一个。
58.各种类型的分类模型/算法可用于一种或多种分类器306。在一些实施例中,一种或多种分类器306可以包括一种或多种基于深度神经网络的分类器,诸如基于长期短期记忆(lstm)神经网络的分类器。基于试探法的筛选组件202也可以使用自动分类系统和/或自动分类过程以促进对初始候选物分子的一个或多个靶标特征进行分类。例如,基于试探法的筛选组件可采用基于概率和/或统计的分析(例如,将分析效用和成本纳入因子)来学习和/或生成关于候选ai设计的分子的初始组102的推断。基于试探法的筛选组件202可采用例如支持向量机(svm)分类器来学习和/或生成对候选物的初始组102的推断。
59.另外或另选地,一种或多种分类器306可以采用与贝叶斯网络、决策树和/或概率分类模型相关联的分类技术。一种或多种分类器306还可包括显式训练(例如,经由通用训练数据)以及隐式训练(例如,经由接收外来信息)的分类器。例如,对于svm,svm可通过分类器构造器和特征选择模块内的学习或训练阶段来配置。在一些实施方案中,一或多个分类器306还可包含非二进制分类器,其将输入属性向量x=(x1,x2,x3,x4,xn)映射到输入属于类别的置信度,即,f(x)=confidence(class)。利用这些实现,分类器应用组件302可以确定候选物具有或不具有每个所评估的靶标特征的预测中的置信度的度量。
60.第一亚组选择组件304可被配置成基于分类结果和所限定的选择准则来从初始组102中选择候选ai设计的分子的第一亚组106。选择标准可以是预定义的、由系统管理员调整的等等。例如,在一些实现中,选择准则可要求第一亚组选择组件304仅选择被确定为具有(或被分类为具有)所有限定的靶标特征的那些候选物。在另一示例中,选择准则可要求第一亚组选择组件304选择被确定为具有(或被分类为具有)所限定的靶标特征中的一个或多个的那些候选物。在另一示例中,选择准则可要求第一亚组选择组件304选择被确定为具有(或被分类为具有)靶标特征的特定组合的那些候选物具有一个或多个所限定的靶标特征。在另一个实例中,在一种或多种分类器306确定代表候选分子具有各自概率的值的实施方式中,选择标准可以包括限定的概率的阈值和/或代表所有特征的集合概率的评分。
61.应了解,可针对特定应用适当地定制选择标准(例如,关于所需的限定的特征数目、所需的特征组合、指示特征的展现水平的值、指示分类推断中的置信度的值等)。
62.图3b示出了基于试探法的筛选组件202的另一个实施例。在图3b所示的实施例中,基于试探法的筛选组件202还包括分类器训练组件308以便于训练和开发一种或多种分类器306。对于这些实施例,分类器训练组件308可采用一个或多个无监督、监督和/或半监督机器学习技术来基于所接收的或以其他方式可用的训练数据310训练和开发一种或多种分类器306。例如,训练数据310可以包括多个分子序列(例如,蛋白质序列),其关于一个或多个靶标特征的分类是已知的,包括具有阳性分类(例如,具有一个或多个特定靶标特征)和阴性分类(例如,不具有一个或多个特定靶标特征)的序列。使用每个靶标特征的阳性和阴性序列,分类器训练组件308可为每个靶标特征训练单独的分类器。
63.图4提供了根据一个或多个实施例的表400,其给出了候选抗微生物肽(amp)的示例试探分类结果。特别地,表400给出了启发式分类数据的例子,该数据可以由分类器应用组件302基于五种不同的分类器对多个候选amp序列的应用而生成和/或确定,该应用基于它们各自的肽序列,如第一列所示。五种不同的分类器分别用符号“clfx_feature”标识,其中“clf”是首字母缩写,并且“x”指示用于训练分类器的特定训练数据集。
64.第一分类器,clfx._amp(其中“amp”代表“抗微生物肽”)确定了肽序列具有抗微生物活性(或另外为amp)的概率(从0.0至1.0)。第二分类器,clfx._tox(其中“tox”表示“毒性”)确定了肽序列是有毒的概率(从0.0至1.0)。第三分类器,clfx._potency确定了肽序列有效的概率(从0.0至1.0)。第四分类器,clfx._broad(其中“broad”表示“广谱(broad spectrum)”)确定了肽序列是广谱抗微生物剂的概率(从0.0至1.0)。第五分类器,clfx._structur(其中“structure”代表“结构”,确定了肽序列具有二级结构的概率(从0.0到1.0)。
65.图5a和5b示出了根据一个或多个实施例的示例性的基于模拟的筛选组件的框图。为了简洁,省略了在各个实施例中采用的相同元件的重复描述。
66.基于模拟的筛选组件204提供了进一步将ai设计的分子的第一亚组106细化为候选ai设计的分子的甚至更小的第二亚组110,以使用高吞吐量、计算效率和物理启发的过滤过程推荐用于湿式实验室测试,所述过滤过程使用基于物理的分子计算机模拟。这些计算机模拟模拟了包括在第一亚组106中的各个候选物与一种或多种已知或潜在的分子和/或生物靶标(例如,病原体的一种或多种细胞组分)之间的分子相互作用,以确定模拟的候选物是否表现出一个或多个所需的相互作用特征和/或表现出何种程度的一个或多个所需的相互作用特征。在这方面,一个或多个期望的相互作用(或期望的行为特征)可以包括与实现靶生物/分子活性、功能或响应(例如,抗微生物活性、抗病毒活性、特定活性等)相关的一个或多个预定义的和/或学习的相互作用行为/特征。例如,在靶生物/分子活性/响应包括有效的抗微生物剂的实施方式中,一个或多个期望的相互作用/行为特性可以包括与消灭细菌和/或抑制细菌生长相关的一个或多个分子相互作用行为特性。
67.参考图5a,为了促进这个目的,基于模拟的筛选组件204可以包括模拟执行组件502、模拟评估组件504、一个或多个模拟程序506、以及第二亚组选择组件508。
68.一个或多个模拟程序506可以包括可以模拟基于物理的分子相互作用的一个或多个高吞吐量计算机模拟程序。特别地,一个或多个模拟程序506可以提供能够基于其建模的分子和/或生物结构模拟ai设计的分子与一个或多个生物/分子靶标之间的分子相互作用的分子模拟工具。例如,这些模拟工具可以包括粗糙颗粒分子动力学(cgmd)模拟工具等。例如,在一些实现中,一个或多个模拟程序506可以包括接收和/或生成用于包括在第一亚组106中的相应候选分子的分子模型。在一些实施方式中,分子模型可以包括全原子模型。一个或多个模拟程序506可以进一步接收和/或生成被建模为力场(例如,粗糙粒力场等)的生物/分子靶(例如,病原体的一种或多种细胞组分)的分子模型。一个或多个模拟程序506还可产生分子候选物和生物/分子靶标(例如,病原体的一种或多种细胞组分)的组合的粗粒度系统表示,并采用粗粒度系统表示模拟各个候选物和生物/分子靶标之间的相互作用的分子动力学。
69.仿真执行组件502可以被配置为对包括在第一亚组106中的相应候选执行/运行一
个或多个仿真。在这点上,模拟执行组件502可为第一亚组106中包含的每个(或在一些实施方式中,一个或多个)候选ai设计的分子运行cgmd,其中每个模拟基于它们各自的建模的分子结构模拟每个候选分子与一个或多个定义的生物/分子靶标之间的分子相互作用,所述建模的分子结构是使用一个或多个力场模型建模的。
70.模拟评估组件504可被配置成评估相应的模拟以确定所模拟的每个候选ai设计的分子(即,第一亚组106中包含的每个候选分子)是否表现出一个或多个靶分子相互作用/行为特性和/或表现出何种程度。例如,在一些实施方式中,所使用的分子模拟程序可以被配置为在每次模拟的过程中鉴定和跟踪一个或多个靶分子相互作用/行为特性的发生。对于这些实施例,模拟程序可产生每次模拟的结果数据,其指示是否发生一个或多个靶分子相互作用/行为特征、发生频率等。模拟评估组件504可进一步采用为每次模拟产生的结果数据来确定模拟的每个候选ai设计的分子(即,第一亚组106中包括的每个候选分子)是否表现出一个或多个靶分子相互作用/行为特征和/或表现出何种程度。在其他实施例中,可以手动观察和评估模拟以确定模拟的每种候选ai设计的分子是否和/或在何种程度上显示一个或多个靶分子相互作用/行为特征。利用这些实施例,可以接收这样的结果数据作为用户生成的反馈。
71.第二亚组选择组件508还可以基于一个或多个模拟候选分子是否表现出一个或多个靶分子交互/行为特性和/或表现出何种程度的一个或多个靶分子交互/行为特性来选择一个或多个模拟候选分子以包括在第二亚组110中。例如,在一些实施方式中,第二亚组选择组件508可以被配置为选择被确定为表现出一个或多个靶分子交互/行为特性的任何模拟候选物。在其他实施方式中,第二亚组选择组件508可以被配置为选择被确定为表现出具有一致和/或足够倾向的一个或多个靶分子交互/行为特性(例如,相对于用于测量一致和/或足够倾向的定义的阈值评价)的一个或多个模拟候选物。在另一示例实现中,第二亚组选择组件508可以被配置成选择被确定为“最佳”展现如使用定义的评价方案测量的一个或多个靶分子交互/行为特性的模拟候选物中的一个或多个。在这点上,评价方案和选择标准可以基于所评价的分子相互作用/行为的类型和它们可以被测量的方式而变化。
72.在一个或多个示例性实施例中,候选ai设计的分子是候选amp,为了筛选候选肽是否是有希望的抗微生物药物,模拟执行组件502可运行第一亚组106中包含的每种候选肽与模型脂质双层或病原体的另一细胞组分之间相互作用的计算机模拟(例如,cgmd模拟等)。脂质双层可以由脂质的混合物组成。例如,候选肽可以用肽的合适的全原子表示(给定其蛋白质序列)来建模(例如,制备为α螺旋或s无规线团)。模型脂质双层可以进一步使用力场模型(例如粗粒度力场模型等)建模。建模的肽结构可以进一步被转换成粗糙纹理表示,并且与膜模型组合以创建粗糙纹理肽膜系统用于模拟。
73.例如,图6提供了根据一个或多个实施例的amp的粗粒度分子动力学模拟的快照。在该模拟中,模拟的肽与模拟的脂质双层结合,在该实施例中模拟的脂质双层是磷脂酰胆碱(popc)和棕榈酰油酰pg(popg)的3:1混合物。图6描述了使用模型化肽和模型化膜的cgmd模拟。根据这些模拟,使相应的候选肽与膜相互作用1.0微秒(μ)。然后评估相互作用的物理动力学以确定相互作用是否指示肽提供抗微生物活性。
74.在一个或多个实施例中,用于基于上述计算机模拟来评价抗微生物倾向的靶相互作用/行为可基于肽和膜之间的接触/接触点的数量和这些接触的稳定性。在这方面,如参
考图5b更详细地描述的,发现抗微生物倾向与接触次数和接触稳定性强烈相关,其中接触次数越多和那些接触的稳定性越高,抗微生物倾向的可能性越大。接触可以包括肽的阳性残基和膜之间的接触。在一个或多个实施方案中,将阳性残基与脂质膜之间的接触数目定义为属于距肽的阳性残基小于的距离的脂质的原子数。接触稳定性可以作为接触次数的变化的函数来测量,其中变化越低,稳定性越高,因此强抗微生物活性的指示越高。
75.图7提供了表示根据一个或多个实施例的候选amp的示例模拟结果的表700。表700提供了分别在第一列中鉴定的多个示例性候选肽序列的示例性计算机模拟结果。肽长度、它们各自的二级结构和每个序列的阳性残基的数目分别包括在第二、第三和第四列中。第五列提供了接触数目的标准偏差(std),其对应于接触数目的变化。第六列提供了接触数目的平均值。第七列提供了以纳秒(ns)为单位的约束时间。约束时间表示在模拟开始后肽形成接触所花费的持续时间。在所示的实施例中,所有示例肽在小于500(ns)内形成它们的接触,(这是优选的并且也可用作过滤标准)。
76.再次参考图5a并结合图7,在amp候选物筛选实施方案的促进中,模拟评估组件504可以确定和/或接收模拟结果(例如表700中提供的那些),其鉴定了每个候选肽的脂质与阳性残基之间的接触数目和接触数目的方差。在一些实现中,模拟结果还可以包括约束时间,如上所述,该约束时间可以进一步用作过滤标准。第二亚组选择组件508可进一步选择一个或多个表现出一致的膜相互作用倾向的候选肽,如基于接触数目、方差值和/或约束时间所确定的。例如,在一个或多个实施例中,第二亚组选择组件508可以采用定义的方差可接受性标准,并且仅选择其方差值、接触数目和/或约束合时间满足定义的可接受性标准的那些候选肽。在一些实现中,定义的可接受性标准可以要求方差值(即,标准偏差)为2.0个珠子或更少,接触数目为5.0个或更多(在模拟的持续时间上平均),并且其在1.0μs长的模拟时间期间的约束时间小于500ns(例如,使得接触方差在总模拟时间的至少一半上计算)。
77.现在参考图5b,示出了根据一个或多个附加实施例的基于模拟的筛选组件204的另一个示例。为了简洁,省略了在各个实施例中采用的相同元件的重复描述。
78.在上述涉及候选amp的基于模拟的筛选的实施例中,例如,我们评估并用于选择候选ai设计的分子的第二亚组的靶分子相互作用特征/行为包括肽和膜之间的接触/接触点的数目以及这些接触的稳定性(以接触数目的变化来测量)。这些靶标特征是通过使用与应用于已知具有抗微生物活性的已知肽序列和已知缺乏抗微生物活性的已知肽序列相同的上述分子模拟进行测试模拟而发现的,因为不存在使用分子模拟筛选抗微生物候选物的标准化方案。
79.基于对阳性和阴性抗微生物肽的测试运行结果的分析,首次鉴定了上述特定的靶标特征。在这方面,测试模拟运行证明,阳性残基和膜脂质之间的接触数目的变化预示着抗微生物活性。
80.特别地,图8示出了基于模拟的分类器的混淆矩阵600的例子,其使用肽-膜接触方差作为检测存活amp序列的特征。混淆矩阵600证明我们可以通过使用单独从上述模拟得到的特征接触差异特征以88%的准确度预测抗微生物剂。具体地,接触差异以88%的灵敏度和63%的特异性区分高效和非抗微生物序列。物理上,这一特征可以解释为测量序列与模型膜的强结合趋势。
81.在各种实施例中,该测试模拟过程可以由基于模拟的筛选组件204使用模拟执行
组件502和特征选择组件512来执行和/或促进。该测试模拟过程也可应用于确定模拟筛选过程的靶标特征,如应用于各种不同靶生物活性的其它类型的ai设计的分子。
82.在这点上,在一些实施例中,可以对测试分子进行高通量计算机模拟的训练,以鉴定与实现靶活性的有效性相关的一个或多个行为特征,所述测试分子包括已知在实现ai设计的分子的靶活性(例如,在其中ai设计的分子是药物的实施方案中期望的生物活性)有效的测试分子和任选地已知无效的分子。这些一个或多个行为特性可以用作一个或多个靶标特性(target characteristics),当计算机模拟在未知的候选物序列上运行时,所述一个或多个靶标特性用于评估(例如,通过模拟评估组件504)和选择(例如,通过第二亚组选择组件508)候选物的第二亚组110。
83.对于这些实施例,模拟执行组件502可以接收(或以其他方式访问)对应于候选ai分子的初始组的测试分子510,或更具体地,对应于其靶生物活性状态(例如,抗微生物活性/不活动状态)已知的候选ai设计的分子的第一亚组的测试分子。在这点上,测试分子510可以包括已知提供靶生物活性的分子和已知不提供靶生物活性的分子。模拟执行组件502还可以被配置为将在第一亚组106上使用的相同的计算机模拟(例如,由模拟程序506提供)应用于测试分子510。对测试分子的模拟可进一步被评估以鉴定与被评估的ai设计的分子期望提供的靶生物活性(例如,抗微生物活性、抗病毒活性等)相关的一个或多个靶特征/或特性。例如,对于上述amr仿真实施例,所选择的特征包括接触数目的变化。一旦被鉴定,这些特征就可以用于基于靶特征(例如,脂质和肽的阳性残基之间的接触数目)对它们进行分类,并选择候选物的第二亚组110用于实验室测试。
84.在图5b的实施例中,基于模拟的筛选组件204还可以包括特征选择组件512,以便于基于对阳性测试分子和阴性测试分子的测试模拟的分析来鉴定这些靶标特征(target features)。在这点上,特征选择组件512可以采用一个或多个机器学习技术来基于测试模拟数据中的相关性和模式来鉴定与期望由被评估的ai设计的分子提供的靶生物活性(例如,抗微生物活性、抗病毒活性等)相关的靶特征/或特性。机器学习技术可以包括监督机器学习技术、半监督机器学习技术、无监督机器学习技术或其组合。例如,机器学习技术可包括使用此处所描述的各种分类技术,以及专家系统、模糊逻辑、svm、隐马尔可夫模型(hmm)、贪婪搜索算法、基于规则的系统、贝叶斯模型(例如,贝叶斯网络)、神经网络、其它非线性训练技术、数据融合、基于效用的分析系统、采用贝叶斯模型的系统等。
85.图9示出了根据一个或多个实施例的用于过滤ai设计的分子以进行实验室测试的示例性、非限制性计算机实现的方法900的高级流程图。为了简洁,省略了在各个实施例中采用的相同元件的重复描述。
86.在902,操作性地耦合到处理器的系统(例如,系统200等)基于使用一种或多种分类器对人工智能(ai)设计的分子进行分类(例如,使用基于试探法的筛选组件202)从ai设计的分子的组中选择ai设计的分子的第一亚组作为候选药剂。在904,系统基于使用一个或多个计算机模拟(例如,使用基于模拟的筛选组件204)对候选药剂与一种或多种生物靶标(例如,病原体的一种或多种细胞组分)之间的分子相互作用的评估来选择候选药剂的第二亚组用于湿式实验室测试,
87.图10描述了根据一个或多个实施例的过滤候选ai设计的抗微生物分子以进行实验室测试的示例性、非限制性的计算机实施的方法1000的高级流程图。为了简洁,省略了在
各个实施例中采用的相同元件的重复描述。
88.在1002,操作地耦合到处理器的系统(例如,系统200等)可基于第一ai设计的分子是以下各项中的一项或多项的第一确定从一组ai设计的分子中选择第一人工智能(ai)设计的分子的第一亚组:amp、广谱抗微生物剂、无毒或结构化的(例如,使用基于试探法的筛选组件202)。例如,在一个或多个实施例中,基于试探法的筛选组件202可以采用一种或多种训练的分类器来确定初始组中所包括的候选ai设计的分子中的每一个(或在一些实现中,一个或多个)是否是amp、广谱或非amp、毒性或非毒性和/或结构化或非结构化,如上文参照图3a、图3b和图4所述,在1004,系统可以基于第二ai设计的分子具有针对病原体的细胞组分的定义水平的相互作用倾向的第二确定从第一亚组选择第二ai设计的分子的第二亚组用于湿式实验室测试(例如,使用基于模拟的筛选组件204)。例如,在一个或多个实施例中,如上参考图5a-图8所述,基于模拟的筛选组件204可以采用相对于病原体的模拟细胞组分(例如,脂质双层或另一种细胞组分)的第一亚组中包括的每种候选肽的分子动力学的一个或多个计算机模拟,以确定它们的相互作用倾向(interaction propensity)作为接触方差的函数。
89.当应用于筛选数千个ai设计的amp以鉴定可行候选物时,本文所述的筛选技术已被证明是成功的。特别地,所公开的筛选技术应用于使用称为条件潜在(属性)空间取样或class的基于ai的肽设计方法产生的约100,000个候选肽的初始组。class设计方法采用来自使用神经生成模型学习的信息潜在空间的属性条件/受控采样来生成候选amp。
90.使用基于试探的筛选方法将初始组的100,000个候选肽减少到163个候选肽。为了筛选最初100,000class产生的amp序列用于实验验证,根据上述基于启发式的筛选方法,使用四种二元(是/否)序列水平深层神经网络分类器的独立组来预测抗微生物功能、广谱效力(例如,对革兰氏阳性和革兰氏阴性菌株的活性)、二级结构的存在以及毒性。在隐藏层大小为100且丢失0.3的已知肽序列的标记训练数据集上,针对四个属性中的每一个训练双向lstm分类器。基于评分的分布(分类概率/对数),通过考虑评分的第50百分位(中值)来确定阈值。因此,用于从初始的100,000个可行候选物中选择候选物的第一亚组的筛选标准考虑了所有四个属性。163个候选物通过了这种筛选。
91.然后对163个候选肽进行肽-膜相互作用的粗粒度分子动力学(cgmd)模拟,以根据上述基于模拟的筛选方法测试膜结合趋势。基于模拟的筛选导致鉴定了20个前导候选肽,其在计算机模拟中显示高且一致的膜结合活性。这些前20个肽具有以下序列(以3字母代码显示,在括号中具有单字母代码):tyr leu arg leu ile arg tyr met ala lys met ile(ylrlirymakmi)(seq id no:1),phe pro leu thr trp leu lys trp trp lys trp lys lys(fpltwlkwwkwkk)(seq id no:2),his ile leu arg met arg ile arg gln met met thr(hilrmrirqmmt)(seq id no:3),ile leu leu his ala ile leu gly val arg lys lys leu(illhailgvrkkl)(seq id no:4),tyr arg ala ala met leu arg arg gln tyr met met thr(yraamlrrqymmt)
(seq id no:5),his ile arg leu met arg ile arg gln met met thr(hirlmrirqmmt)(seq id no:6),his ile arg ala met arg ile arg ala gln met met thr(hiramriraqmmt)(seq id no:7),lys thr leu ala gln leu ser ala gly val lys arg trp his(ktlaqlsagvkrwh)(seq idno:8),his ile leu arg met arg ile arg gln gly met met thr(hilrmrirqgmmt)(seq id no:9),his arg ala ile met leu arg ile arg gln met met thr(hraimlrirqmmt)(seq id no:10),glu tyr leu ile glu val arg glu ser ala lys met thr gln(eylievresakmtq)(seq idno:11),gly leu ile thr met leu lys val gly leu ala lys val gln(glitmlkvglakvq)(seq idno:12),tyr gln leu leu arg ile met arg ile asn ile ala(yqllrimrinia)(seq id no:13),val arg trp ile glu tyr trp arg glu lys trp arg thr(vrwieywrekwrt)(seq id no:14),leu ile gln val ala pro leu gly arg leu leu lys arg arg(liqvaplgrllkrr)(seq idno:15),tyr gln leu arg leu ile met lys tyr ala ile(yqlrlimkyai)(seq id no:16),tyr gln leu arg leu ile met lys tyr ala ile(hralmrirqcmt)(seq id no:17),gly trp leu pro thr glu lys trp arg lys leu cys(gwlptekwrklc)(seq id no:18),tyr gln leu arg leu met arg ile met ser arg ile(yqlrlmrimsri)(seq id no:19),和leu arg pro ala phe lys val ser lys(lrpafkvsk)(seq id no:20),及其保守修饰的变体。
92.图11提供了表1100,其显示了从基于试探法的筛选过程后选择的163个候选肽中选择的前20个class产生的amp的模拟结果。表1100呈现了基于模拟的筛选的物理衍生特征,例如阳性氨基酸和膜珠(发现其与抗微生物功能相关)之间接触数目的平均值和方差,如从肽膜相互作用的cgmd模拟中提取的。用于进一步过滤163个候选物的标准要求方差值(即标准偏差)为2.0个珠粒或更少,接触数目为5.0个或更多(在模拟的持续时间内平均),并且在1.0μs长的模拟时间内约束时间小于500ns。基于class产生方法、ml启发式筛选方法和分子模拟结果的组合,这些前20种肽表现出强的抗微生物活性或行为,因此是有希望的广谱抗微生物剂。这些前20种肽进一步表征为具有低毒性。
93.然后合成20种前导候选肽,并使用湿式实验室实验测试抗微生物活性和毒性。在这20种前导肽中,鉴定出了两种具有最高抗微生物活性的新amp。这两种新型amp经实验验证具有强的广谱抗微生物活性和低的体外和体内毒性。这两种新的amp在用于设计初始候选class肽的监督训练数据中都不存在。这些实验证明,所公开的ai生成的amp序列的三阶段筛选流水线(例如,ml启发式筛选、模拟筛选和湿式实验室筛选)在最终阶段产生1/10的成功率。
94.应当注意,为了解释的简单,在一些情况下,计算机实现的方法在此被描绘和描述为一系列动作。可以理解和明白,本发明不受所示动作和/或动作次序的限制,例如,动作可以按各种次序和/或并发地发生,并且可以与本文未呈现和描述的其它动作一起发生。此外,并非所有示出的动作都是实现根据所公开的主题的计算机实现的方法所必需的。另外,本领域技术人员将理解和明白,计算机实现的方法可以替换地经由状态图或事件被表示为一系列相互关联的状态。另外,还应当理解,下文中以及贯穿本说明书所公开的计算机实现的方法能够被存储在制品上,以便于将这些计算机实现的方法传输和转移到计算机。如本文所使用的术语制品旨在涵盖可从任何计算机可读设备或存储介质访问的计算机程序。
95.图12可提供所公开主题的各种方面的非限制性上下文,其希望提供对其中可实施所哦公开的主题的各种方面的合适环境的一般描述。图12示出了其中可便于此处所描述的一个或多个实施例的示例、非限制性操作环境的框图。为了简洁,省略了在这里描述的其它实施例中采用的类似元件的重复描述。
96.参考图12,用于实现本公开的各方面的合适的操作环境1200还可包括计算机1212。计算机1212还可包括处理单元1216、系统存储器1214和系统总线1218。系统总线1218将包括但不限于系统存储器1214的系统组件耦合到处理单元1216。处理单元1216可以是各种可用处理器中的任何一种。双微处理器和其它多处理器体系结构也可用作处理单元1216。系统总线1218可以是若干类型的总线结构中的任何一种,包括存储器总线或存储器控制器、外围总线或外部总线、和/或使用任何各种可用总线体系结构的局部总线,这些总线体系结构包括但不限于工业标准体系结构(isa)、微通道体系结构(mca)、扩展isa(eisa)、智能驱动电子设备(ide)、vesa局部总线(vlb)、外围部件互连(pci)、卡总线、通用串行总线(usb)、高级图形端口(agp)、火线(ieee 1294)、以及小型计算机系统接口(scsi)。
97.系统存储器1214还可以包括易失性存储器1220和非易失性存储器1222。基本输入/输出系统(bios)包含诸如在启动时在计算机1212内的元件之间传输信息的基本例程,它被存储在非易失性存储器1222中。计算机1212还可包括可移动/不可移动、易失性/非易失性计算机存储介质。例如,图12示出了盘存储1224。盘存储1224还可包括但不限于,诸如磁盘驱动器、软盘驱动器、磁带驱动器、jaz驱动器、zip驱动器、ls-100驱动器、闪存卡、或记忆棒等设备。盘存储1224还可包括单独的或与其它存储介质组合的存储介质。为了便于将盘存储1224连接到系统总线1218,通常使用可移动或不可移动的接口,诸如接口1226。图12还描绘了充当用户和在合适的操作环境1200中描述的基本计算机资源之间的中介的软件。这样的软件还可以包括例如操作系统1228。可存储在盘存储1224上的操作系统1228用于控制和分配计算机1212的资源。
98.系统应用1230通过例如存储在系统存储器1214或盘存储1224中的程序模块1232和程序数据1234来利用操作系统1228对资源的管理。应当理解,本公开可以用各种操作系
统或操作系统的组合来实现。用户通过输入设备1236向计算机1212输入命令或信息。输入设备1236包括但不限于,诸如鼠标、跟踪球、指示笔、触摸垫等定点设备、键盘、话筒、操纵杆、游戏垫、圆盘式卫星天线、扫描仪、tv调谐卡、数码相机、数码摄像机、web相机等等。这些和其它输入设备通过系统总线1218经由接口端口1238连接到处理单元1216。接口端口1238包括,例如,串行端口、并行端口、游戏端口和通用串行总线(usb)。(诸)输出设备1240使用与(诸)输入设备1236相同类型的端口中的一些端口。因此,例如,usb端口可以用于向计算机1212提供输入,以及从计算机1212向输出设备1240输出信息。提供输出适配器1242以说明在其它输出设备1240中存在某些输出设备1240,如监视器、扬声器和打印机,它们需要特殊的适配器。作为示例而非限制,输出适配器1242包括提供输出设备1240和系统总线1218之间的连接手段的显卡和声卡。应当注意,其它设备和/或设备的系统提供输入和输出能力,诸如远程计算机1244。
99.计算机1212可以使用到诸如远程计算机1244等一个或多个远程计算机的逻辑连接在网络化环境中操作。远程计算机1244可以是计算机、服务器、路由器、网络pc、工作站、基于微处理器的电器、对等设备或其它常见的网络节点等,并且通常还可包括相对于计算机1212描述的许多或所有元件。为了简洁起见,仅存储器存储设备1246与远程计算机1244一起示出。远程计算机1244通过网络接口1248逻辑上连接到计算机1212,然后通过通信连接1250物理地连接。网络接口1248包括有线和/或无线通信网络,诸如局域网(lan)、广域网(wan)、蜂窝网络等。lan技术包括光纤分布式数据接口(fddi)、铜线分布式数据接口(cddi)、以太网、令牌环等。wan技术包括,但不限于,点对点链路、像综合业务数字网(isdn)及其变体那样的电路交换网络、分组交换网络、以及数字用户线(dsl)。通信连接1250指的是用于将网络接口1248连接到系统总线1218的硬件/软件。虽然为了清楚说明,通信连接1250被示为在计算机1212内部,但是它也可以在计算机1212外部。仅出于示例性目的,用于连接到网络接口1248的硬件/软件还可包括内部和外部技术,诸如包括常规电话级调制解调器、电缆调制解调器和dsl调制解调器的调制解调器、isdn适配器和以太网卡。
100.本文描述的一个或多个实施例可以是处于任何可能的技术细节集成水平的系统、方法、装置和/或计算机程序产品。计算机程序产品可以包括其上具有计算机可读程序指令的计算机可读存储介质(或多个介质),所述计算机可读程序指令用于使处理器执行一个或多个实施例的各方面。计算机可读存储介质可以是能够保留和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质可以是例如但不限于电子存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或前述的任何合适的组合。计算机可读存储介质的更具体示例的非穷举列表还可以包括以下:便携式计算机磁盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom或闪存)、静态随机存取存储器(sram)、便携式光盘只读存储器(cd-rom)、数字多功能盘(dvd)、记忆棒、软盘、诸如上面记录有指令的打孔卡或凹槽中的凸起结构的机械编码装置,以及上述的任何适当组合。如本文所使用的计算机可读存储介质不应被解释为瞬时性信号本身,诸如无线电波或其他自由传播的电磁波、通过波导或其他传输介质传播的电磁波(例如,通过光纤线缆的光脉冲)、或通过导线传输的电信号。就这一点而言,在各种实施例中,如本文所使用的计算机可读存储介质可以包括非瞬时性和有形计算机可读存储介质。
101.本文中所描述的计算机可读程序指令可以经由网络(例如,互联网、局域网、广域
网和/或无线网络)从计算机可读存储介质下载到相应的计算/处理设备,或者下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光传输纤维、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配器卡或网络接口接收来自网络的计算机可读程序指令,并转发计算机可读程序指令以存储在相应计算/处理设备内的计算机可读存储媒质中。用于执行一个或多个实施例的操作的计算机可读程序指令可以是汇编指令、指令集架构(isa)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、集成电路的配置数据、或以一种或多种程序设计语言的任何组合编写的源代码或目标代码,这些程序设计语言包括面向对象的程序设计语言(诸如smalltalk、c++等)和过程程序设计语言(诸如“c”程序设计语言或类似程序设计语言)。计算机可读程序指令可以完全地在用户计算机上执行、部分在用户计算机上执行、作为独立软件包执行、部分在用户计算机上部分在远程计算机上执行或者完全在远程计算机或服务器上执行。在后一种情况下,远程计算机可通过任何类型的网络(包括局域网(lan)或广域网(wan))连接至用户计算机,或者可连接至外部计算机(例如,使用互联网服务提供商通过互联网)。在一些实施例中,包括例如可编程逻辑电路、现场可编程门阵列(fpga)或可编程逻辑阵列(pla)的电子电路可以通过利用计算机可读程序指令的状态信息来使电子电路个性化来执行计算机可读程序指令,以便执行一个或多个实施例的各方面。
102.本文参照根据实施例的方法、装置(系统)和计算机程序产品的流程图图示和/或框图描述一个或多个实施例的方面。将理解,流程图和/或框图的每个框以及流程图和/或框图中的框的组合可以由计算机可读程序指令来实现。这些计算机可读程序指令可以被提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器以产生机器,使得经由计算机或其他可编程数据处理装置的处理器执行的指令创建用于实现流程图和/或框图的一个或多个框中指定的功能/动作的装置。这些计算机可读程序指令还可以存储在计算机可读存储介质中,其可以引导计算机、可编程数据处理装置和其他设备以特定方式工作,使得其中存储有指令的计算机可读存储介质包括制品,该制品包括实现流程图和一个或多个框图方框中指定的功能/动作的方面的指令。计算机可读程序指令还可以被加载到计算机、其他可编程数据处理装置或其他设备上,以使得在计算机、其他可编程装置或其他设备上执行一系列操作动作,以产生计算机实现的过程,使得在计算机、其他可编程装置或其他设备上执行的指令实现流程图和一个或多个框图框中指定的功能/动作。
103.附图中的流程图和框图示出了根据本文所述的各种实施例的系统、方法和计算机程序产品的可能实现的架构、功能和操作。在这点上,流程图或框图中的每个框可以表示指令的模块、段或部分,其包括用于实现指定的逻辑功能的一个或多个可执行指令。在一些替代实施方案中,框中所注明的功能可不按图中所注明的次序发生。例如,连续示出的两个框实际上可以基本上同时执行,或者这些框有时可以以相反的顺序执行,这取决于所涉及的功能。还将注意,框图和流程图图示的每个框以及框图和流程图图示中的框的组合可以由执行指定功能或动作或执行专用硬件和计算机指令的组合的专用的基于硬件的系统来实现。
104.尽管以上在运行于一个或多个计算机上的计算机程序产品的计算机可执行指令的一般上下文中描述了本主题,但本领域的技术人员将认识到,本公开也可结合其它程序模块来实现或能够结合其它程序模块来实现。通常,程序模块包括执行特定任务或实现特
定抽象数据类型的例程、程序、组件、数据结构等。此外,本领域的技术人员可以理解,本发明的计算机实现的方法可以用其它计算机系统配置来实施,包括单处理器或多处理器计算机系统、小型计算设备、大型计算机、以及计算机、手持式计算设备(例如,pda、电话)、基于微处理器的或可编程的消费或工业电子产品等。所示的各方面也可以在其中任务由通过通信网络链接的远程处理设备执行的分布式计算环境中实践。然而,本公开的一些方面,如果不是所有方面,可以在独立计算机上实践。在分布式计算环境中,程序模块可以位于本地和远程存储器存储设备中。例如,在一个或多个实施例中,计算机可执行组件可以从存储器执行,该存储器可以包括一个或多个分布式存储器单元或由一个或多个分布式存储器单元组成。如本文所用,术语“存储器”和“存储器单元”可互换。此外,本文描述的一个或多个实施例可以以分布式方式执行计算机可执行组件的代码,例如,多个处理器组合或协同工作以执行来自一个或多个分布式存储器单元的代码。如本文所使用的,术语“存储器”可以包含在一个位置处的单个存储器或存储器单元或者在一个或多个位置处的多个存储器或存储器单元。
105.如本技术中所使用的,术语“组件”、“系统”、“平台”、“接口”等可以指代并且可以包括计算机相关实体或者与具有一个或多个特定功能的操作机器相关的实体。这里公开的实体可以是硬件、硬件和软件的组合、软件、或执行中的软件。例如,组件可以是,但不限于,在处理器上运行的进程、处理器、对象、可执行文件、执行线程、程序和计算机。作为说明,在服务器上运行的应用程序和服务器都可以是组件。一个或多个组件可以驻留在进程或执行线程内,并且组件可以位于一个计算机上和/或分布在两个或更多计算机之间。在另一示例中,相应组件可从其上存储有各种数据结构的各种计算机可读介质执行。这些组件可以经由本地和/或远程进程进行通信,例如根据具有一个或多个数据分组的信号(例如,来自一个组件的数据,该组件经由该信号与本地系统、分布式系统中的另一个组件进行交互和/或通过诸如因特网之类的网络与其它系统进行交互)。作为另一个示例,组件可以是具有由电气或电子电路操作的机械部件提供的特定功能的装置,该电气或电子电路由处理器执行的软件或固件应用程序操作。在这种情况下,处理器可以在装置的内部或外部,并且可以执行软件或固件应用的至少一部分。作为又一示例,组件可以是能够通过电子组件提供特定功能而无需机械部件的装置,其中电子组件可以包括处理器或其他装置以执行至少部分地赋予电子组件的功能的软件或固件。在一方面,组件可经由虚拟机来仿真电子组件,例如在云计算系统内。
106.关于其中多个组件和/或多个设备可涉及一些计算操作的复杂计算环境的性质,本文所使用的术语“促进”是在“促进”一个或多个动作或操作的系统、设备或组件的上下文中。可以涉及或可以不涉及多个组件和/或多个设备的动作的非限制性示例包括发送或接收数据、在设备之间建立连接、确定中间结果以获得结果(例如,包括采用机器学习和人工智能来确定中间结果)等。在这点上,计算设备或组件可以通过在完成操作中扮演任何部分来促进操作。当本文描述组件的操作时,因此要理解,在操作被描述为由组件促进的情况下,操作可以可选地在一个或多个其它计算设备或组件的协作下完成,诸如但不限于:传感器、天线、音频和/或视频输出设备、其它设备等。
107.此外,术语“或”旨在表示包含性的“或”而不是排他性的“或”。也就是说,除非另外指定,或者从上下文中清楚,否则“x采用a或b”旨在表示任何自然的包含性排列。也就是说,
如果x使用a;x采用b;或者x采用a和b两者,则在任何前述实例下都满足“x采用a或b”。此外,除非另外指定或从上下文中清楚是指单数形式,否则如在本说明书和附图中使用的冠词“一个(a)”和“一个(an)”一般应被解释为表示“一个或多个”。如本文所使用的,术语“示例”和/或“示例性的”用于表示用作示例、实例或说明。为了避免疑惑,本文公开的主题不受这些示例限制。此外,本文中描述为“示例”和/或“示例性”的任何方面或设计不一定被解释为比其它方面或设计优选或有利,也不意味着排除本领域普通技术人员已知的等效示例性结构和技术。
108.如在本说明书中所采用的,术语“处理器”可以指基本上任何计算处理单元或设备,包括但不限于单核处理器;具有软件多线程执行能力的单处理器;多核处理器;具有软件多线程执行能力的多核处理器;具有硬件多线程技术的多核处理器;平行平台;以及具有分布式共享存储器的并行平台。另外,处理器可以指被设计为执行本文描述的功能的集成电路、专用集成电路(asic)、数字信号处理器(dsp)、现场可编程门阵列(fpga)、可编程逻辑控制器(plc)、复杂可编程逻辑器件(cpld)、分立门或晶体管逻辑、分立硬件组件或其任意组合。此外,处理器可以采用纳米级架构,例如但不限于基于分子和量子点的晶体管、开关和门,以便优化空间使用或增强用户设备的性能。处理器也可以实现为计算处理单元的组合。在本公开中,诸如“存储”、“数据库”以及与组件的操作和功能相关的基本上任何其他信息存储组件之类的术语被用来指代“存储器组件”、在“存储器”中包含的实体,或包括存储器的组件。应了解,本文所描述的存储器和/或存储器组件可为易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。作为说明而非限制,非易失性存储器可包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦除rom(eeprom)、闪存或非易失性随机存取存储器(ram)(例如,铁电ram(feram),易失性存储器可包括ram,ram可用作外部高速缓存存储器,例如作为说明而非限制,ram可以许多形式获得,诸如同步ram(sram)、动态ram(dram)、同步dram(sdram)、双倍数据率(ddr sdram)、增强型sdram(esdram)、同步链路dram(sldram)、直接rambus ram(drram)、直接rambus动态ram(drdram)和rambus动态ram(rdram)。
109.以上描述的内容仅包括系统和计算机实现的方法的示例。当然,不可能为了描述本公开而描述组件或计算机实现的方法的每个可想到的组合,但是本领域的普通技术人员可以认识到,本公开的许多进一步的组合和置换是可能的。此外,就在具体实施例、权利要求书、附录和附图中使用术语“包括(includes)”、“具有(has)”、“拥有(possesses)”等来说,这些术语旨在以与术语“包含(comprising)”在权利要求书中用作过渡词时所解释的类似的方式为包含性的。
110.已经出于说明的目的呈现了对各种实施例的描述,但是不旨在是穷举的或限于所公开的实施例。在不背离所描述的实施例的范围的情况下,许多修改和变化对于本领域的普通技术人员将是显而易见的。选择本文所使用的术语以最好地解释实施例的原理、实际应用或对市场上存在的技术改进,或使本领域的其他普通技术人员能够理解本文所公开的实施例。

技术特征:


1.一种系统,包括:存储器,其存储计算机可执行组件;处理器,其执行存储在所述存储器中的所述计算机可执行组件,其中所述计算机可执行组件包括:基于试探法的筛选组件,其使用一种或多种分类器评估人工智能(ai)设计分子的组以选择所述ai设计的分子的第一亚组作为候选药剂;以及基于模拟的筛选组件,其使用所述候选药剂与一种或多种生物靶标之间的分子相互作用的一个或多个计算机模拟来评估所述候选药剂,以选择所述候选药剂的第二亚组用于湿式实验室测试。2.如权利要求1所述的系统,其中所述一种或多种分类器包括一个或多个机器学习模型,所述机器学习模型基于所述ai设计的分子的分子序列将所述ai设计的分子分类为具有或不具有靶标药剂的一个或多个限定特征。3.如权利要求2所述的系统,其中基于试探法的筛选组件基于具有所述一个或多个限定特征的所述第一亚组选择所述第一亚组。4.如权利要求1所述的系统,其中所述一个或多个计算机模拟针对所述候选药剂和所述一种或多种生物靶标采用一个或多个力场模型。5.如权利要求1所述的系统,其中所述基于模拟的筛选组件基于所述第二亚组在所述一个或多个计算机模拟中显示一个或多个靶分子相互作用特征来选择所述第二亚组。6.如权利要求1所述的系统,其中所述候选药剂包括候选抗微生物剂,并且其中所述一种或多种分类器确定所述ai设计的分子是否是以下中的至少一个:抗微生物肽、广谱抗微生物、无毒或结构化的。7.如权利要求6所述的系统,其中所述基于模拟的筛选组件采用所述一个或多个计算机模拟来评估所述候选抗微生物剂与模型脂质双层或病原体的另一种细胞组分以及力场之间的相互作用倾向。8.如权利要求7所述的系统,其中所述基于模拟的筛选组件基于表现出限定水平的相互作用倾向的所述第二亚组来选择所述候选抗微生物剂的所述第二亚组用于实验室测试。9.如权利要求6所述的系统,其中所述基于模拟的筛选组件采用初始计算机模拟来模拟具有有效和无活性序列的测试分子与模型脂质双层或病原体的另一种细胞组分之间的相互作用,并基于所述相互作用选择与抗微生物活性相关的一个或多个特征。10.如权利要求9所述的系统,其中所述基于模拟的筛选组件基于所述候选抗微生物剂是否表现出使用所述一个或多个计算机模拟所确定的所述一个或多个特征来评估候选抗微生物剂以包括在所述第二亚组中。11.如权利要求6所述的系统,其中所述湿式实验室测试包括以下中的至少一个:测试所述第二亚组对抗一种或多种病原体,所述多个病原体包括革兰氏阳性细菌和革兰氏阴性细菌;或测试所述第二亚组的毒性。12.一种方法,包括:由可操作地耦合到处理器的系统基于使用一种或多种分类器对人工智能(ai)设计分子进行分类,从所述ai设计的分子的组中选择所述ai设计的分子的第一亚组作为候选药
剂;以及通过所述系统,基于使用一个或多个计算机模拟对所述候选药剂与一种或多种生物靶标之间的分子相互作用的评估,选择所述候选药剂的第二亚组用于湿式实验室测试。13.如权利要求12所述的方法,其中所述一种或多种分类器包括一个或多个机器学习模型,所述机器学习模型基于所述ai设计的分子的分子序列将所述ai设计的分子分类为具有或不具有靶标药剂的一个或多个限定特征。14.根据权利要求13所述的方法,其中所述选择所述第一亚组包括基于具有所述一或多个限定特征的所述第一亚组来选择所述第一亚组。15.如权利要求12所述的方法,其中所述选择所述第二亚组包括基于所述第二亚组在所述一个或多个计算机模拟中显示一个或多个靶分子相互作用特征来选择所述第二亚组。16.根据权利要求12所述的方法,其中所述候选药剂包括候选抗微生物剂,并且其中所述分类包括通过所述系统确定所述ai设计的分子是否包含选自由以下组成的组的一个或多个特征:抗微生物功能性、广谱功效、无毒性,并且存在限定的二级结构。17.根据权利要求16所述的方法,其中所述方法进一步包括:通过所述系统,采用所述一个或多个计算机模拟来评估所述候选抗微生物剂与模型脂质双层或病原体的另一种细胞组分以及力场之间的相互作用倾向,其中选择所述第二亚组包括基于表现出限定水平的所述相互作用倾向的所述第二亚组来选择所述第二亚组。18.根据权利要求16所述的方法,还包括:通过所述系统采用初始计算机模拟来评估具有有效和非活性序列的测试蛋白质与模型脂质双层或病原体的另一种细胞组分以及力场之间的相互作用;通过所述系统选择源自所述相互作用的与抗微生物活性相关的一个或多个特征;以及由所述系统基于所述候选抗微生物剂是否表现出如使用所述一个或多个计算机模拟所确定的所述一个或多个特征来评估包括在所述第二亚组中的所述候选抗微生物剂。19.根据权利要求16所述的方法,其中所述湿式实验室测试包括以下中的至少一个:测试所述第二亚组对抗一种或多种病原体,所述多个病原体包括革兰氏阳性细菌和革兰氏阴性细菌;或测试所述第二亚组的毒性。20.一种用于过滤和验证人工智能(ai)设计分子的计算机程序产品,所述计算机程序产品包括计算机可读存储介质,所述计算机可读存储介质具有其上包括的程序指令,所述程序指令可由处理组件执行以使所述处理组件:基于使用一种或多种分类器对所述ai设计的分子进行分类,从候选药剂中选择所述ai设计的分子的第一亚组;以及基于使用一个或多个计算机模拟对所述候选药剂与一种或多种生物靶标之间的分子相互作用的评估,选择所述候选药剂的第二亚组用于湿式实验室测试。

技术总结


提供了用于过滤人工智能(AI)设计的分子以进行实验室测试的技术。计算机实现的方法可以包括通过可操作地耦合到处理器的系统,基于使用一种或多种分类器对AI设计的分子进行分类,从AI设计的分子的组中选择AI设计的分子的第一亚组作为候选药剂。所述方法还包括通过所述系统,基于使用一个或多个计算机模拟对所述候选药剂与一种或多种生物靶标之间的分子相互作用的评估,选择所述候选药剂的第二亚组用于湿式实验室测试。于湿式实验室测试。于湿式实验室测试。


技术研发人员:

P

受保护的技术使用者:

国际商业机器公司

技术研发日:

2021.05.14

技术公布日:

2022/12/29

本文发布于:2024-09-21 22:50:03,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/1/50463.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:多个   分子   所述   计算机
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议