首页 > 专利技术

用于预测表达水平的系统和方法与流程

用于预测表达水平的系统和方法
相关申请的交叉引用
1.本技术要求于2020年3月18日提交的美国临时专利申请第62/991,412号和于2020年6月5日提交的欧洲专利申请第20315297.0号的优先权和利益，以上申请的内容和公开通过引用整体并入本文。
技术领域
2.本公开大体上涉及预测比如生物标志物等的生物指示物的表达水平。

背景技术：

3.生物标志物(biological marker或biomarker)是一些生物状态或状况的可测量的指示物。通常对生物标志物进行测量和评估以检验正常生物学过程、致病过程或对干预的药理学反应。生物标志物可以用于许多科学领域。当生物标志物合格时，可以依赖其在分析上有效的测量结果，从而在药物开发和监管决策中具有特定和可解释的含义(例如，生理学、毒理学、药理学或临床)。
4.苏木精(hematoxylin)和伊红染，或苏木精(haematoxylin)和伊红染(h&e染)，可以是组织学中使用的主要组织染之一。其可以用于医学诊断(例如，当病理学家查看疑似癌症的活检时，组织切片可能会用h&e染)。
5.自20世纪90年代以来，药物开发的成本一直在上升，平均而言，2013年将新药推向市场的成本约为26亿美元。在肿瘤精准医疗时代，对于许多临床试验，只有当免疫组织化学(ihc)染的肿瘤活检样本根据预先指定的阈值(例如，生物标志物阳性)在目标生物标志物的表达方面为阳性时才会将患者纳入。ihc筛查患者的过程可能耗时几天。

技术实现要素：

6.在一个方面，提供了一种系统。所述系统包括计算机可读存储器，所述计算机可读存储器包括计算机可执行指令。所述系统包括至少一个处理器，所述处理器被配置为执行所述计算机可执行指令。当所述至少一个处理器正在执行所述计算机可执行指令时，所述至少一个处理器被配置为执行一个或多个操作。所述一个或多个操作包括对代表患者的至少一个生物图像的图像数据进行预处理以生成代表患者的至少一个经预处理的生物图像的经预处理的图像数据。所述一个或多个操作包括将经训练的机器学习模型应用于所述经预处理的图像数据以至少部分基于所述至少一个经预处理的生物图像预测生物指示物的表达水平。
7.所述一个或多个操作可以进一步包括确定所述生物指示物的预测表达水平是否超过阈值表达水平。所述一个或多个操作可以进一步包括，响应于确定所述预测表达水平超过阈值表达水平，确定推荐对所述患者实施免疫组织化学(ihc)筛查测试。所述一个或多个操作可以进一步包括，响应于确定所述预测表达水平不超过阈值表达水平，确定不推荐对所述患者实施ihc筛查测试。所述一个或多个操作可以进一步包括对所述患者实施ihc筛
查测试以确定ihc得分。所述一个或多个操作可以进一步包括，至少部分基于所确定的ihc得分，确定将所述患者纳入临床试验。
8.对图像数据进行预处理可以包括实施自动图像阈值化处理以分割所述生物图像的一个或多个组织区域。对图像数据进行预处理可以包括将第二个经训练的机器学习模型应用于所述图像数据以对所述至少一个生物图像进行虚拟染，所述第二个经训练的机器学习模型被训练为使用所述患者的ihc图像对所述至少一个生物图像进行虚拟染。对图像数据进行预处理可以包括将所述至少一个生物图像分成多个图像块。对图像数据进行预处理可以包括将所述多个图像块中的每一个分成多个子块。
9.所述至少一个生物图像可以包括所述患者的至少一个苏木精和伊红(h&e)染的图像。所述生物指示物可包括生物标志物。
10.本公开文本的实现方式可以提供一个或多个以下优点。与传统技术相比：可以减少临床试验招募的成本和时间；图像数据的预处理(例如，图像分块、图像阈值化、虚拟染等)可以增加使用机器学习模型做出预测的计算效率和准确性；并且可以基于h&e染载玻片的弱标记全扫描来预测连续生物标志物表达水平。
11.这些和其他方面、特征和实现方式可以被表达为用于实施功能的方法、设备、系统、部件、程序产品、手段或步骤，以及其他方式。
12.从包括权利要求在内的以下描述中，这些和其他方面、特征和实现方式将变得显而易见。
附图说明
13.图1是说明用于预测表达水平的示例系统的框图。
14.图2是说明用于预测表达水平的示例架构的流程图。
15.图3是说明用于使用虚拟染机器学习模型预测表达水平的示例架构的流程图。
16.图4是说明用于预测表达水平的示例方法的流程图。
17.图5是说明根据本公开一些实现方式的用于提供与本公开中描述的所述算法、方法、功能、过程、流程和程序相关的计算功能的示例计算机系统的框图。
具体实施方式
18.药物开发的一个瓶颈可以是可能符合临床试验纳入标准的患者的识别，取决于满足标准的患者体的患病率和规模，该过程可能耗时数月或者数年。例如，如果患病率仅为50％，则可能需要平均筛查100名患者以识别50名符合标准的患者。特别是，在肿瘤精准医疗时代，许多临床试验可能需要仅在ihc染肿瘤活检样本根据预先指定的阈值(例如，生物标志物阳性)在目标生物标志物的表达方面为阳性时才会将患者纳入。ihc筛查的过程可能耗时数日,这可能会减慢临床实验招募，尤其是考虑到大百分比的筛查患者可能不是生物标志物阳性的。
19.本说明书中描述的系统和方法的实现可以用于减轻上述传统临床招募技术的缺点中的一个或多个。在一些实现方式中，本说明书中描述的系统和方法可以使用比如来自活检的肿瘤样本的h&e全扫描图像等常用医学成像数据来预测患者的生物标志物表达水平(例如，非小细胞肺癌的pd-l1表达水平)。在一些实现方式中，与可以使用像素级(强)标记
图像来预测生物标志物表达状态(分类)的传统机器学习方法不同，本说明书中描述的系统和方法可以使用机器学习技术，使得可以基于弱标记全图像来预测连续生物标志物表达水平(例如，通过回归)。在一些实现方式中，可以对使用的图像进行预处理以增加机器学习模型在做出生物标志物表达水平预测时的准确性和计算效率。
20.在附图中，为了便于描述，示出了示意性元素的具体布置或排序，比如表示装置、模块、指令块和数据元素的那些。然而，本领域的技术人员应该理解，附图中示意性元素的特定排序或布置并不意味着需要特定顺序或序列的处理或过程分离。此外，在附图中包括示意性元素并不意味着暗示这种元素在所有实现方式中都是必需的，或由这种元素表示的特征在一些实现方式中可能不包括在其他元素中或不与其他元素组合。
21.另外，在附图中，在连接元素比如实线或虚线或箭头用于展示两个或更多个其他示意性元素之间的连接、关系或关联时，缺少任何此类连接元素并不意味着暗示不存在连接、关系或关联。换句话说，元素之间的一些连接、关系或关联没有在附图中示出，以免模糊本公开文本。此外，为了便于图示，单个连接元素用于表示元素之间的多个连接、关系或关联。例如，在连接元素代表信号、数据或指令的通信的情况下，本领域技术人员应该理解，这种元素代表一个或多个信号路径(例如，总线)，如可能需要的，以影响通信。
22.现在将详细参考实现方式，在附图中示出了其实施例。在以下详细描述中，阐述了许多具体细节以便提供对各种描述的实现方式的透彻理解。然而，对于本领域普通技术人员来说清楚的是，可在没有这些具体细节的情况下实践各种描述的实现方式。在其他情形下，没有详细描述熟知的方法、过程、组件、电路和网络，以免不必要地模糊实现方式的各个方面。
23.下文描述了几个特征，每个特征可以彼此独立使用或者与其他特征的任意组合一起使用。然而，任何单个的特征可能不能解决上文讨论的任何问题，或者可能只解决上文讨论的问题之一。上文讨论的一些问题可能无法通过本文描述的任何特征完全解决。尽管可能提供了标题，与特定标题相关但未在具有该标题的部分中到的数据也可以在本说明书的其他地方到。
24.图1是说明用于预测表达水平的示例系统100的框图。系统100包括计算机处理器110。计算机处理器110包括计算机可读存储器111和计算机可读指令112。系统100还包括机器学习系统150。机器学习系统150包括机器学习模型120。机器学习系统150可以与计算机处理器110分离或集成。
25.计算机可读存储器111(或计算机可读介质)可以包括适用于本地技术环境的任何数据存储技术类型，包括但不限于基于半导体的存储器装置、磁存储器装置和系统、光存储器装置和系统、固定存储器、可移动存储器、盘存储器、闪速存储器、动态随机存取存储器(dram)、静态随机存取存储器(sram)、电可擦编程只读存储器(eeprom)等。在一个实现方式中，计算机可读存储器111包括具有可执行指令的代码段。
26.在一些实现方式中，计算机处理器110包括通用处理器。在一些实现方式中，计算机处理器110包括中央处理单元(cpu)。在一些实现方式中，计算机处理器110包括至少一个专用集成电路(asic)。计算机处理器110还可以包括通用可编程微处理器、专用可编程微处理器、数字信号处理器(dsp)、可编程逻辑阵列(pla)、现场可编程门阵列(fpga)、专用电子电路等、或它们的组合。计算机处理器110被配置为执行程序代码装置，比如计算机可执行
指令112等。在一些实现方式中，计算机处理器110被配置为执行机器学习模型120。
27.当执行计算机可读指令112时，计算机处理器110被配置为接收图像数据160并且基于该图像数据160生成代表目标生物指示物(例如，生物标志物)预测表达水平163的数据。图像数据160可以包括代表患者的至少一个生物图像的数据。在一些实现方式中，至少一个生物图像为h&e染的生物样本(例如，肿瘤活检样本)的图像。h&e载玻片图像文件可以包括若干分辨率的h&e载玻片(例如，从5倍放大的细胞到20倍放大的细胞)。在一些实现方式中，计算机处理器110接收的图像数据160代表20倍放大的细胞图像。使用较高分辨率的图像可以增加机器学习模型(例如，机器学习模型120)的预测准确性。当执行计算机可读指令112时，计算机处理器110被配置为对图像数据160进行预处理。在一些实现方式中，对图像数据160进行预处理包括通过使用自动图像阈值化将图像的某些组织区域与图像的其他区域分割(例如，将肿瘤组织区域与包含正常组织和人工制品的区域分割)来减少图像的大小。在一些实现方式中，使用otsu法来分割图像的组织区域，这可以包括应用otsu阈值化算法，该算法返回将像素分为两类(前景和背景)的单一强度阈值。该算法可以穷举地搜索使类内方差最小化的阈值，根据以下公式，其定义为两类的方差的加权和：其中权重ω0和ω1是通过阈值t分开的两类的概率，且σ02和σ12是这两类的方差。
28.在一些实现方式中，对图像数据进行预处理包括将每个组织区域分割为多个块。每个块可以对应于原始图像的离散部分。在一些实现方式中，原始图像包括高达40,000x50,000像素的大小，其被分割为1,024x 1,024的块大小。在一些实现方式中，块可以进一步被分割为大小为例如27x 27的子块(碎片)。可以使用分割方法(比如先前讨论的otsu阈值化算法)使这些子块以在块中识别的核为中心。在一些实现方式中，对图像数据进行预处理包括接收患者的ihc图像，并且应用虚拟染机器学习模型以使用该ihc图像对h&e图像进行虚拟染，如下面参考图3讨论的。虽然h&e染和ihc染二者都是指组织病理学中使用的染，但ihc图像可以指“特殊”ihc染的图像，其更常用于识别特定蛋白质的表达，这可以为患者的决策提供信息(但h&e染则是指可能更常用于调查基础细胞和组织结构的染)。h&e染经常可以用作癌症诊断工具，并且可以用于许多被诊断患有实体肿瘤的患者，虚拟染机器学习模型可以用于发现h&e染中显示出的细胞形态与ihc染中目标蛋白质表达之间的关联。当执行计算机可读指令112时，并且在对图像数据进行预处理之后，计算机处理器110被配置为将机器学习模型120应用于经预处理的图像数据。
29.机器学习系统150应用机器学习技术来训练机器学习模型120，当将该机器学习模型应用于输入数据时，其生成输入数据项是否具有相关联的一种或多种特性的指示，比如输入数据项具有特定布尔特性的概率、标量特性的估计值或向量的估计值(即，多个标量的有序组合)等。
30.作为机器学习模型120的训练的一部分，机器学习系统150可以通过识别已经被确定为具有所讨论特性的输入数据项的正训练集来形成输入数据的训练集，并且在一些实现方式中，形成缺少所讨论特性的输入数据项的负训练集。
31.机器学习系统150从训练集的输入数据中提取特征值，这些特征是被认为与输入数据项是否具有一种或多种相关特性潜在相关的变量。输入数据的特征的有序列表在这里称为输入数据的特征向量。在一些实现方式中，机器学习系统150应用降维(例如，经由线性
判别分析(lda)、主分量分析(pca)、从神经网络学习的深度特征等)来将输入数据的特征向量中的数据量减少到更小、更有代表性的数据集。
32.在一些实现方式中，机器学习系统150使用监督机器学习来训练机器学习模型120，其中正训练集和负训练集的特征向量用作输入。在一些实现方式中使用不同的机器学习技术，比如线性支持向量机(线性svm)、针对其他算法的增强(例如adaboost)、神经网络、逻辑回归、朴素贝叶斯、基于记忆的学习、随机森林、袋装树、决策树、增强树或增强树桩等。当应用于从输入数据项提取的特征向量时，机器学习模型120输出输入数据项是否具有所讨论的特性的指示，比如布尔是/否估计、表示概率的标量值、表示多个特性的标量值的向量、或表示不同且不是先验固定数量的多个特性的标量值的非参数分布等，其可在希尔伯特或类似的无限维空间中显式或隐式地表示。
33.在一些实现方式中，验证集由除了训练集中的那些数据之外的另外的输入数据形成，这些数据已经被确定为具有或缺乏所讨论的特性。机器学习系统150将训练的机器学习模型120应用于验证集的数据，以量化机器学习模型120的准确性。在准确度测量中应用的常见测量包括：精确度＝tp/(tp+fp)和召回率＝tp/(tp+fn)，其中精确度是机器学习模型120在其预测的总数(tp+fp或假阳性)中正确预测(tp或真阳性)的数量，而召回率是机器学习模型120在确实具有所讨论特性的输入数据项的总数(tp+fn或假阴性)中正确预测(tp)的数量。f得分(f得分＝2*pr/(p+r))将精确度和召回率统一到单一的衡量标准中。在一些实现方式中，机器学习系统150迭代地重新训练机器学习模型120，直到出现停止条件，比如模型120足够精确的准确度测量指示，或已经发生了多个训练轮次等。
34.在一些实现方式中，机器学习模型120包括神经网络。在一些实现方式中，神经网络包括卷积神经网络(cnn)架构。cnn通常描述一类深度神经网络，并且可以包括共享权重架构和平移不变性特征。在一些实现方式中，机器学习模型包括深度循环聚焦模型(dram)，其可以指包括内置平移不变性程度的神经网络，但实施的计算量可以独立于输入图像的大小进行控制。在一些实现方式中，dram包括深度循环神经网络，该神经网络通过强化学习训练以关注大输入碎片的最相关区域(例如，先前讨论的预处理图像数据的分割组织区域)。在一些实现方式中，使用多实例学习(mil)开发机器学习模型120。mil可以指一种监督学习类型，其中机器学习模型120不是接收一组单独标记的实例，而是接收一组标记“包”，每个包都包含许多实例。每个包可以标记为阴性的，表明其中所有实例都是阴性的，或者可以标记为阳性的，表明该包中包含至少一个阳性实例。从标记包的集合中，机器学习模型120可以尝试归纳将正确标记单独实例的概念或学习如何标记包而不归纳概念。
35.机器学习模型120被配置为基于经预处理的图像数据160的生物图像(即，使用经预处理的图像数据)来预测生物指示物(例如，目标生物标志物)的表达水平。例如，如果临床实验涉及小细胞肺癌的免疫疗法，则目标生物标志物可以包括程序性死亡配体1(pd-l1)。因此，在一些实现方式中，机器学习模型120被配置为基于生物图像来预测患者显示出的pd-l1的表达水平(例如，从0至100的表达得分)。
36.为训练机器学习模型120预测生物指示物的表达水平，机器学习系统150可将机器学习模型120应用于包括患者的生物图像(例如，h&e染载玻片)和目标生物指示物的已知表达水平的训练集。目标生物指示物的已知表达水平可以由医学专家基于分析ihc染来人工产生。机器学习模型120可以学习将生物图像的某些特征与已知表达水平相关联。基于
这些关联，当将机器学习模型120应用于新的生物图像时，机器学习模型可以使用学习到的关联来预测目标生物指示物的表达水平。在一些实现方式中，在训练机器学习模型120时，机器学习系统150使用定向损失函数，这可以优化模型参数以利用连续比例得分同时集中于将要预测的目标。在一些实现方式中，定向损失函数推动预测值靠近真实值，但也强制预测产生与真实值相同的生物标志物状况(即，是否存在目标生物标志物)。在一些实现方式中，如果得到了错误的生物标志物状况预测，则其通过更猛烈地推动错误而实现这一目标。在一些实现方式中，损失函数定义为：其中yi和是指在患者i的ihc图像中观察的和预测的目标蛋白质表达水平，c是指临床试验招募过程中使用的阈值，其中只有高于阈值表达水平的患者才可以被纳入临床实验，w1是指真实表达水平高于阈值的患者的预测损失的权重，w2是指预测表达水平与真实表达水平相比在阈值的相对侧的患者的预测损失的权重。将w2设为大于1的值会强制模型学习特征以在将患者分类为高与低表达方面得到与真实值一致的预测。
37.图2是说明用于预测表达水平的示例架构200的流程图。在一些实现方式中，先前参考图1讨论的计算机处理器110包括架构200的一个或多个部件。架构200包括预处理模块220、机器学习模型240和进一步测试确定模块260。
38.预处理模块220被配置为接收代表一个或多个患者图像210a的数据，并且对该图像数据进行预处理以生成代表经预处理的图像块210b的数据。一个或多个患者图像210a可以包括生物图像，比如经历临床试验筛查的患者的h&e染载玻片的图像等。预处理包括将图像210a分为多个图像块120b(并且如先前说明的，在一些实现方式中，将图像块120b分为多个子块)，其中每个图像块210b(和/或子块)对应于图像210a的一个离散部分。在一些实现方式中，预处理包括将otsu阈值化算法应用于图像数据以将图像210a的某些组织区域与图像210a的其他区域分割，如先前参考图1讨论的。
39.机器学习模型240接收经预处理的图像块210b(和/或在某些实现方式中的子块)并且根据先前参考图1描述的一种或多种技术基于经预处理的图像块210b(和/或子块)生成代表患者的目标生物标志物的表达水平的数据210c(例如，在0至100的量级上)。进一步测试确定模块260接收代表表达水平的数据210c并且生成代表进一步测试确定的数据210d。生成代表进一步测试确定的数据210d包括将生物标志物表达水平210c与表达水平阈值(例如，50)相比较。表达水平阈值可以基于以下各项中的一个或多个：机器学习模型240的预测、机器学习模型240的调用、临床实验设计考虑或监管标准等。如果生物标志物表达水平210c超过表达水平阈值，则进一步测试确定210d可以表明推荐患者进行进一步测试。如果生物标志物表达水平210c不超过表达水平阈值，则进一步测试确定210d可以表明不推荐患者进行进一步测试。进一步测试可以包括由医学专家使用ihc染来实施人工ihc筛查。
40.图3是说明用于使用虚拟染机器学习模型380来预测表达水平的示例架构300的流程图。在所示的实现方式中，架构300包括与先前参考图2讨论的架构200相似的部件，并且还包括虚拟染机器学习模型380。在一些实现方式中，机器学习模型380包括条件cyclegan模型，其可以指能够学习以基于配对图像数据将一个图像域映射到另一个图像域
的深度学习模型。在所示的实现方式中，预处理模块220还接收代表ihc患者图像310a(例如，如先前讨论的，患者“特殊”ihc染的图像)的数据，并且如先前讨论地实施otsu分割和图像分块(以及在一些实现方式中，再分块/碎片化)以生成代表经预处理的ihc图像块310b(以及，在一些实现方式中，子块)的数据。虚拟染机器学习模型380被配置为接收代表经预处理的h&e图像块210b和经预处理的ihc图像块310b的数据以使用经预处理的ihc图像块310b对经预处理的h&e图像块210b进行虚拟ihc染。如先前说明的，虚拟ihc染可以包括发现ihc图像的特殊ihc染中显示出的目标蛋白质表达与h&e图像显示出的细胞形态之间的关联。经虚拟染的ihc图像块310c随后被机器学习模型240接收以生成表明预测表达水平210c的数据。由于目标蛋白质的表达水平可以来源于ihc图像，对经预处理的h&e图像块210b进行虚拟染可以增加机器学习模型240的预测准确性。
41.在一些实现方式中，虚拟染机器学习模型380通过向该模型380提供代表h&e图像和ihc图像对的数据来进行训练，使得模型380能够学习如何将h7e图像的像素值转化为不同值，从而使所得的图像近似于ihc染图像，同时保留原始h&e图像显示出的细胞形态。近似和保留中的每一个都可以通过损失函数来测量，这可以有利于使虚拟染的ihc图像与真实ihc图像之间的相似性最大化，同时使经虚拟染的ihc图像与原始h&e图像之间的细胞形态不一致最小化。如果同一患者的h&e图像和ihc图像可用，并且可以对h&e图像和ihc图像的像素进行配准(例如，通过图像配准过程)，则虚拟染模型380可以使用比如u-nets等方法来训练。如果同一患者的图像不匹配，或者不能对像素进行配准，则模型380可以使用像cyclegan等方法来训练。
42.图4是说明用于预测表达水平的示例方法400的流程图。在一些实现方式中，早前参考图1描述的系统100实施了方法400的一个或多个框。方法400包括对图像数据进行预处理(框410)和预测表达水平(框420)。在一些实现方式中，方法400包括确定是否实施ihc筛查测试(框430)和确定是否将患者纳入临床实验(框440)。
43.在框410中，对代表患者的生物图像(例如，h&e染图像)的图像数据进行预处理。这可以包括应用otsu阈值化算法以将生物图像显示出的某些组织与医学图像的其他部件分割。附加地，或者可替代地，预处理可以包括将图像分成多个图像块。如先前说明的，图像块可以进一步分成以细胞核为中心的多个碎片(子块)。
44.在框420中，将机器学习模型应用于经预处理的图像数据以基于生物图像预测目标生物标志物的表达水平。
45.在框430中，将预测表达水平与表达水平阈值进行比较以确定是否对患者实施ihc筛查测试。在一些实现方式中，如果预测表达水平超过表达水平阈值，则实施ihc筛查测试。如果预测表达水平不超过表达水平阈值，则不实施ihc筛查测试。例如，可以由受过训练的医学专家实施ihc筛查测试以确定基于ihc染打分的ihc表达比例。
46.在框440中，基于ihc筛查测试的结果，确定患者是否应被纳入临床试验。
47.图5是根据本公开一些实现方式的用于提供与本公开中描述的所述算法、方法、功能、过程、流程和程序相关的计算功能的示例计算机系统500的框图。所示的计算机502旨在涵盖任何计算装置，如服务器、台式计算机、膝上型/笔记本计算机、无线数据端口、智能电话、个人数据助理(pda)、平板计算装置或这些装置中的一个或多个处理器，包括物理实例、虚拟实例或两者。计算机502可以包括能够接受用户信息的输入装置，如小键盘、键盘和触
摸屏。此外，计算机502可以包括输出装置，所述输出装置可以传送与计算机502的操作相关的信息。信息可以包括数字数据、视觉数据、音频信息或信息的组合。信息可以在图形用户接口(ui)(或gui)中呈现。
48.计算机502可以充当客户端、网络组件、服务器、数据库、持久性或用于执行本公开中描述的主题的计算机系统的组件。图示的计算机502与网络530可通信地联接。在一些实现方式中，计算机502的一个或多个组件可以被配置为在不同的环境中操作，包括基于云计算的环境、本地环境、全局环境以及环境的组合。
49.在高级别上，计算机502是可操作来接收、传输、处理、存储和管理与所描述的主题相关的数据和信息的电子计算装置。根据一些实现方式，计算机502还可以包括应用服务器、服务器、网络服务器、缓存服务器、流数据服务器或服务器的组合，或者与之可通信地联接。
50.计算机502可以通过网络530从客户端应用(例如，在另一台计算机502上执行的)接收请求。计算机502可以通过使用软件应用处理接收到的请求来响应接收到的请求。请求也可以从内部用户(例如，从命令控制台)、外部(或第三方)、自动化应用、实体、个人、系统和计算机发送到计算机502。
51.计算机502的每个组件可以使用系统总线503进行通信。在一些实现方式中，计算机502的任何或所有组件，包括硬件或软件组件，可以通过系统总线503彼此接口或与接口505(或两者的组合)接口。接口可以使用应用编程接口(api)512、服务层513或api 512和服务层513的组合。api 512可以包括例程、数据结构和对象类的规范。api 512可以独立于计算机语言，也可以依赖于计算机语言。api 512可以指完整的接口、单个功能或一组api。
52.服务层513可以向计算机502和可通信地联接到计算机502的其他组件(无论是否示出)提供软件服务。使用该服务层的所有服务消费者都可以访问计算机502的功能。比如由服务层513提供的软件服务可以通过定义的接口提供可重用的、定义的功能。例如，接口可以是用java、c++或以可扩展标记语言(xml)格式提供数据的语言编写的软件。虽然被示为计算机502的集成组件，但是在替代实现中，api 512或服务层513可以是与计算机502的其他组件以及可通信地联接到计算机502的其他组件相关的独立组件。此外，在不脱离本公开的范围的情况下，api 512或服务层513的任何或所有部分可以被实现为另一软件模块、企业应用或硬件模块的子模块或子模块。
53.计算机502包括接口504。尽管在图5中被示为单个接口504，但是根据计算机502和所描述的功能的特定需求、期望或特定实现方式，可以使用两个或更多个接口504。计算机502可以使用接口504与分布式环境中连接到网络530(无论是否示出)的其他系统通信。通常，接口504可以包括或使用编码在可操作来与网络530通信的软件或硬件(或软件和硬件的组合)中的逻辑来实现。更具体地，接口504可以包括支持与通信相关的一个或多个通信协议的软件。这样，网络530或接口的硬件可以用于在所示计算机502内部和外部传送物理信号。
54.计算机502包括处理器505。尽管在图5中被示为单个处理器505，但是根据计算机502和所描述的功能的特定需求、期望或特定实现方式，可以使用两个或更多个处理器505。通常，处理器505可以执行指令并且可以操纵数据来执行计算机502的操作，包括使用如本公开文本中描述的算法、方法、功能、过程、流程和步骤的操作。
55.计算机502还包括可以保存用于计算机502的数据(地震数据516)的数据库506，以及与网络530相连的其他部件(无论是否示出)。例如，数据库506可以是存储器内的、传统的或存储与本公开文本一致的数据的数据库。在一些实现方式中，根据计算机502和所述功能的特定需求、期望或特定实现方式，数据库506可以是两种或更多种不同数据库类型的组合(例如，混合存储器内数据库和传统数据库)。尽管在图5中被示为单个数据库506，但是根据计算机502和所描述的功能的特定需求、期望或特定实现方式，可以使用两个或更多个数据库(相同类型、不同类型或类型的组合)。虽然数据库506被示为计算机502的内部组件，但是在替代实现方式中，数据库506可以在计算机502的外部。
56.计算机502还包括存储器507，其可以保存计算机502或连接到网络530的组件的组合(无论是否示出)的数据。存储器507可以存储符合本公开文本的任何数据。在一些实现方式中，根据计算机502的特定需求、期望或特定实现方式以及所描述的功能，存储器507可以是两种或更多种不同类型的存储器的组合(例如，半导体和磁存储器的组合)。尽管在图5中被示为单个存储器507，但是根据计算机502和所描述的功能的特定需求、期望或特定实现方式，可以使用两个或更多个存储器507(相同、不同或类型的组合)。虽然存储器507被示为计算机502的内部组件，但是在替代实现方式中，存储器507可以在计算机502的外部。
57.应用508可以是算法软件引擎，其根据计算机502的特定需求、期望或特定实现方式以及所描述的功能来提供功能。例如，应用508可以充当一个或多个组件、模块或应用。此外，尽管被示为单个应用508，但是应用508可以被实现为计算机502上的多个应用508。此外，尽管图示为在计算机502内部，但是在替代实现中，应用508可以在计算机502外部。
58.计算机502还可以包括电源514。电源514可以包括可充电或不可充电的电池，所述电池可以被配置为用户可更换或用户不可更换。在一些实现方式中，电源514可以包括功率转换和管理电路，包括再充电、待机和功率管理功能。在一些实现方式中，电源514可以包括电源插头，以允许计算机502插入墙壁插座或电源，例如，给计算机502供电或给可充电电池再充电。
59.可以有任意数量的计算机502与包含计算机502的计算机系统相关或在计算机系统外部，每个计算机502通过网络530通信。此外，在不脱离本公开文本的范围的情况下，术语“客户端”、“用户”和其他适当的术语可以适当地互换使用。此外，本公开文本设想许多用户可以使用一台计算机502，并且一个用户可以使用多台计算机502。
60.本说明书中描述的主题和功能操作的实现可以在数字电子电路中、在有形体现的计算机软件或固件中、在包括本说明书中公开的结构及其结构等同物的计算机硬件中、或者在它们中的一个或多个的组合中实现。所描述主题的软件实现可以被实现为一个或多个计算机程序。每个计算机程序可以包括编码在有形的、非暂时性的、计算机可读的计算机存储介质上的计算机程序指令的一个或多个模块，用于由数据处理设备执行或控制数据处理设备的操作。可替代地或附加地，程序指令可以被编码在人工生成的传播信号中/上。例如，信号可以是机器生成的电、光或电磁信号，其被生成以编码信息，用于传输到合适的接收器设备，以由数据处理设备执行。计算机存储介质可以是机器可读存储装置、机器可读存储基底、随机或串行存取存储装置或计算机存储介质的组合。
61.术语“数据处理设备”、“计算机”和“电子计算机装置”(或本领域普通技术人员理解的等同物)指的是数据处理硬件。例如，数据处理设备可以包括用于处理数据的所有种类
的设备、装置和机器，包括例如可编程处理器、计算机或多个处理器或计算机。所述设备还可以包括专用逻辑电路，包括例如中央处理器(cpu)、现场可编程门阵列(fpga)或专用集成电路(asic)。在一些实现方式中，数据处理设备或专用逻辑电路(或数据处理设备或专用逻辑电路的组合)可以是基于硬件或软件的(或基于硬件和软件的组合)。所述设备可以任选地包括为计算机程序创建执行环境的代码，例如，构成处理器固件、协议栈、数据库管理系统、操作系统或执行环境的组合的代码。本公开文本涵盖使用具有或不具有常规操作系统的数据处理设备，例如linux、unix、windows、mac os、android或ios。
62.计算机程序也可以被称为或描述为程序、软件、软件应用、模块、软件模块、脚本或代码，可以用任何形式的编程语言编写。编程语言可以包括例如编译语言、解释语言、声明语言或过程语言。程序可以以任何形式部署，包括在计算环境中使用的独立程序、模块、组件、子程序或单元。计算机程序可以，但不是必须，对应于文件系统中的文件。程序可以存储在保存其他程序或数据的文件的一部分中，例如存储在标记语言文档中的一个或多个脚本，存储在专用于所讨论的程序的单个文件中，或者存储在存储一个或多个模块、子程序或部分代码的多个协同文件中。计算机程序可以被部署用于在一台计算机或多台计算机上执行，这些计算机例如位于一个站点或分布在通过通信网络互连的多个站点上。虽然各图中所示的部分程序可以被示为通过各种对象、方法或过程实现各种特征和功能的单独模块，但是这些程序可以替代地包括多个子模块、第三方服务、组件和库。相反，各种组件的特征和功能可以适当地组合成单个组件。用于进行计算确定的阈值可以是静态的、动态的，或者是静态和动态确定的。
63.本说明书中描述的方法、过程或逻辑流程可以由执行一个或多个计算机程序的一个或多个可编程计算机来执行，以通过对输入数据进行操作并生成输出来执行功能。方法、过程或逻辑流程也可以由专用逻辑电路来执行，并且设备也可以被实现为专用逻辑电路，例如，cpu、fpga或asic。
64.适于执行计算机程序的计算机可以基于一个或多个通用和专用微处理器以及其他类型的cpu。计算机的元件是用于执行或执行指令的cpu和用于存储指令和数据的一个或多个存储装置。通常，cpu可以从存储器接收指令和数据(并向存储器写入数据)。计算机还可以包括或可操作地联接到一个或多个用于存储数据的大容量存储装置。在一些实现方式中，计算机可以从大容量存储装置接收数据，并将数据传输到大容量存储装置，例如包括磁盘、磁光盘或光盘。此外，计算机可以嵌入另一个装置中，例如，例如移动电话、个人数字助理(pda)、移动音频或视频播放器、游戏控制台、全球定位系统(gps)接收器或便携式存储装置(例如，通用串行总线(usb)闪存驱动器)。
65.适合于存储计算机程序指令和数据的计算机可读介质(暂时的或非暂时的，视情况而定)可以包括所有形式的永久/非永久和易失性/非易失性存储器、介质和存储装置。计算机可读介质可包括例如半导体存储器装置，比如随机存取存储器(ram)、只读存储器(rom)、相变存储器(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、可擦除可编程只读存储器(eprom)、电可擦除可编程只读存储器(eeprom)和闪存存储器装置。计算机可读介质还可以包括例如磁性装置，例如磁带、盒式磁带、盒式磁带和内部/可移动磁盘。计算机可读介质还可包括磁光盘和光学存储器装置和技术，包括例如数字视频光盘(dvd)、cd rom、dvd+/-r、dvd-ram、dvd-rom、hd-dvd和bluray。内存可以存储各种对象或数
据，包括缓存、类、框架、应用、模块、备份数据、作业、网页、网页模板、数据结构、数据库表、存储库和动态信息。存储在内存中的对象和数据的类型可以包括参数、变量、算法、指令、规则、约束和引用。此外，内存可以包括日志、策略、安全或访问数据以及报告文件。处理器和存储器可以由专用逻辑电路补充或结合在其中。
66.本公开中描述的主题的实现可以在具有显示装置的计算机上实现，所述显示装置用于提供与用户的交互，包括向用户显示信息(以及从用户接收输入)。显示装置的类型可以包括，例如，阴极射线管(crt)、液晶显示器(lcd)、发光二极管(led)和等离子显示器。显示装置可以包括键盘和定点装置，包括例如鼠标、轨迹球或轨迹板。还可以通过使用触摸屏向计算机提供用户输入，例如具有压力灵敏度的平板计算机表面或使用电容或电传感的多点触摸屏。其他类型的装置可以用于提供与用户的交互，包括接收用户反馈，包括例如包括视觉反馈、听觉反馈或触觉反馈的感觉反馈。可以以声音、语音或触觉输入的形式接收来自用户的输入。此外，计算机可以通过向用户使用的装置发送文档和从用户使用的装置接收文档来与用户交互。例如，计算机可以反应于从网络浏览器接收的请求，向用户的客户端装置上的网络浏览器发送网页。
67.术语“图形用户接口”或“gui”可以用单数或复数来描述一个或多个图形用户接口以及特定图形用户接口的每个显示。因此，gui可以代表任何图形用户接口，包括但不限于网络浏览器、触摸屏或命令行接口(cli)，其处理信息并向用户有效地呈现信息结果。一般来说，gui可以包括多个用户接口(ui)元素，其中的一些或全部元素与网络浏览器相关，例如交互字段、下拉列表和按钮。这些和其他ui元素可以与网络浏览器的功能相关或代表网络浏览器的功能。
68.本说明书中描述的主题的实现可以在包括后端组件(例如，作为数据服务器)或包括中间件组件(例如，应用服务器)的计算系统中实现。此外，计算系统可以包括前端组件，例如，具有图形用户接口或网络浏览器之一或两者的客户端计算机，用户可以通过所述图形用户接口或网络浏览器与计算机交互。系统的组件可以通过通信网络中任何形式或介质的有线或无线数字数据通信(或数据通信的组合)来互连。通信网络的实例包括局域网(lan)、无线接入网络(ran)、大都市域网(man)、广域网(wan)、微波接入的全球互操作性(wimax)、无线局域网(wlan)(例如，使用802.11a/b/g/n或802.20或协议的组合)、互联网的全部或一部分或在一个或多个位置处的任何其他通信系统或系统(或通信网络的组合)。网络可以与例如互联网协议(ip)数据包、帧中继帧、异步传输模式(atm)单元、语音、视频、数据或网络地址之间的通信类型的组合通信。
69.计算系统可以包括客户端和服务器。客户端和服务器通常可以彼此远离，并且通常可以通过通信网络进行交互。客户端和服务器的关系可以借助于运行在各自计算机上并具有客户端-服务器关系的计算机程序而产生。
70.集文件系统可以是任何类型的文件系统，可从多个服务器访问以进行读取和更新。锁定或一致性跟踪可能是不必要的，因为交换文件系统的锁定可以在应用层处完成。此外，unicode数据文件可以不同于非unicode数据文件。
71.虽然本说明书包含许多具体的实施细节，但是这些不应被解释为对所要求保护的范围的限制，而是对特定实现方式特有的特征的描述。本说明书中在分别的实现方式的上下文中描述的某些特征也可以在单个实现方式中组合实现。相反，在单个实现方式的上下
文中描述的各种特征也可以在多个实现方式中分别实现，或者以任何合适的子组合实现。此外，尽管先前描述的特征可以被描述为在某些组合中起作用，并且甚至最初如此要求保护，但是在一些情况下，要求保护的组合中的一个或多个特征可以从该组合中删除，并且要求保护的组合可以指向子组合或子组合的变体。
72.已经描述了主题的特定实现方式。对本领域技术人员来说显而易见的是，所描述的实现方式的其他实现方式、变更和置换都在以下权利要求的范围内。虽然在附图或权利要求中以特定顺序描述了操作，但是这不应该理解为要求必须以所示的特定顺序或序列执行这些操作，或者要求执行所有示出的操作(一些操作可以被认为是可选的)，以获得期望的结果。在某些情况下，多任务或并行处理(或多任务和并行处理的组合)可能是有利的，并且被认为是适当的。
73.此外，前面描述的实现方式中的各种系统模块和组件的分离或集成不应该被理解为在所有实现方式中都需要这种分离或集成，并且应该理解，所描述的程序组件和系统通常可以集成在单个软件产品中或者封装到多个软件产品中。
74.因此，先前描述的示例实现方式不限定或限制本公开。在不脱离本公开文本的精神和范围的情况下，其他改变、替换和变更也是可能的。
75.此外，任何要求保护的实现方式被认为至少适用于：计算机实现的方法；存储计算机可读指令以执行计算机实现的方法的非暂时性计算机可读介质；和计算机系统，该计算机系统包括与硬件处理器可操作地互连的计算机存储器，该硬件处理器被配置为执行计算机实现的方法或存储在非暂时性计算机可读介质上的指令。
76.已经描述了这些系统和方法的多个实现方式。然而，这些系统和方法可以包括其他市县方式。例如，尽管已描述了某些染类型的图像，但也可以使用其他类型的染。例如，一些实现方式可以使用jones染和masson三染。尽管已描述了某些类型的机器学习架构，但也可以使用其他类型的机器学习模型。例如，一些实现方式使用条件cyclegan机器学习技术和/或pix2pix机器学习技术。尽管已描述了某些疾病，但本说明书中描述的系统和方法也可以用于比如免疫疾病和/或神经疾病等若干疾病。尽管已在临床试验背景下描述了系统和方法，但描述的系统和方法也可以用于其他背景，比如用于病理学分析的虚拟多重染。

技术特征：

1.一种方法，其包括：对代表患者的至少一个生物图像的图像数据进行预处理以生成代表患者的至少一个经预处理的生物图像的经预处理的图像数据；以及将经训练的机器学习模型应用于所述经预处理的图像数据，以至少部分基于所述至少一个经预处理的生物图像来预测生物指示物的表达水平。2.根据权利要求1所述的方法，其进一步包括：确定所述生物指示物的预测表达水平是否超过阈值表达水平；以及响应于确定所述预测表达水平超过所述阈值表达水平，确定对所述患者实施免疫组织化学(ihc)筛查测试。3.根据权利要求2所述的方法，所述方法还包括响应于确定所述预测表达水平不超过所述阈值表达水平，确定不对所述患者实施免疫组织化学(ihc)筛查测试。4.根据权利要求2所述的方法，其进一步包括：对所述患者实施所述ihc筛查测试；和至少部分基于所确定的ihc得分，确定将所述患者纳入临床试验。5.根据权利要求1所述的方法，其中对图像数据进行预处理包括实施自动图像阈值化处理以分割所述生物图像的一个或多个组织区域。6.根据权利要求1所述的方法，其中对图像数据进行预处理包括将第二个经训练的机器学习模型应用于所述图像数据以对所述至少一个生物图像进行虚拟染，所述第二个经训练的机器学习模型被训练为使用所述患者的ihc图像对所述至少一个生物图像进行虚拟染。7.根据权利要求1所述的方法，其中对图像数据进行预处理包括将所述至少一个生物图像分成多个图像块。8.根据权利要求7所述的方法，其中对图像数据进行预处理包括将所述多个图像块中的每一个分成多个子块。9.根据权利要求1-8中任一项所述的方法，其中所述至少一个生物图像包括所述患者的至少一个苏木精和伊红(h&e)染的图像。10.根据权利要求1-8中任一项所述的方法，其中所述生物指示物包括生物标志物。11.一种系统，其包括：计算机可读存储器，所述计算机可读存储器包括计算机可执行指令；以及至少一个处理器，所述处理器被配置为执行所述计算机可执行指令，其中当所述至少一个处理器正在执行所述计算机可读指令时，所述至少一个处理器被配置为进行以下操作，所述操作包括：对代表患者的至少一个生物学图像的图像数据进行预处理以生成代表患者的至少一个经预处理的生物学图像的经预处理的图像数据；以及将经训练的机器学习模型应用于所述经预处理的图像数据，以至少部分基于所述至少一个经预处理的生物图像来预测生物指示物的表达水平。12.根据权利要求11所述的系统，所述操作进一步包括：确定所述生物指示物的预测表达水平是否超过阈值表达水平；以及响应于确定所述预测表达水平超过所述阈值表达水平，确定推荐对所述患者实施免疫
组织化学(ihc)筛查测试。13.根据权利要求11所述的系统，所述操作进一步包括：响应于确定所述预测表达水平不超过所述阈值表达水平，确定不推荐对所述患者实施所述ihc筛查测试。14.根据权利要求12所述的系统，所述操作进一步包括：对所述患者实施所述ihc筛查测试；和至少部分基于所确定的ihc得分，确定将所述患者纳入临床试验。15.根据权利要求11所述的系统，其中，对图像数据进行预处理包括实施自动图像阈值化处理以分割所述生物图像的一个或多个组织区域。16.根据权利要求11所述的系统，其中，对图像数据进行预处理包括将第二个经训练的机器学习模型应用于所述图像数据以对所述至少一个生物图像进行虚拟染，所述第二个经训练的机器学习模型被训练为使用所述患者的ihc图像对所述至少一个生物图像进行虚拟染。17.根据权利要求11所述的系统，其中，对图像数据进行预处理包括将所述至少一个生物图像分成多个图像块。18.根据权利要求17所述的系统，其中，对图像数据进行预处理包括将所述多个图像块中的每一个分成多个子块。19.根据权利要求11至18中任一项所述的系统，其中所述至少一个生物图像包括所述患者的至少一个苏木精和伊红(h&e)染的图像。20.一种非暂时性计算机可读存储介质，其具有能够由一个或多个处理器执行以使所述处理器实施操作的指令，所述操作包括：对代表患者的至少一个生物图像的图像数据进行预处理以生成代表患者的至少一个经预处理的生物图像的经预处理的图像数据；以及将经训练的机器学习模型应用于所述经预处理的图像数据，以至少部分基于所述至少一个经预处理的生物图像来预测生物指示物的表达水平。

技术总结

一种或多种预测表达水平的方法。至少一种方法包括对代表患者的至少一个生物图像的图像数据进行预处理以生成代表患者的至少一个经预处理的生物图像的经预处理的图像数据；将经训练的机器学习模型应用于经预处理的图像数据以至少部分基于至少一个经预处理的生物图像来预测生物指示物的表达水平。图像来预测生物指示物的表达水平。图像来预测生物指示物的表达水平。