一种对Ki67染图像癌细胞计数的方法[发明专利]

(19)中华人民共和国国家知识产权局
(12)发明专利申请
(10)申请公布号 (43)申请公布日 (21)申请号 202011608423.3
(22)申请日 2020.12.30
(71)申请人 电子科技大学
地址 611731 四川省成都市高新区(西区)
西源大道2006号
(72)发明人 仲佳慧 曹永盛 张于凤 
(74)专利代理机构 电子科技大学专利中心
51203
代理人 邹裕蓉
(51)Int.Cl.
G06K  9/62(2006.01)
G06K  9/32(2006.01)
G06N  3/04(2006.01)
G06N  3/08(2006.01)
(54)发明名称
一种对Ki67染图像细胞计数的方法
(57)摘要
本发明一种对Ki67染图像癌细胞计数的
方法,首先制造精确地Ki ‑67数据集,
之后采用深度学习中的目标检测方法来训练模型从而识别
Ki ‑67图像中的癌细胞与非癌细胞,同时对检测
结果进行分析并优化模型,从而获得更准确的
Ki ‑67指数。最终设计一套完整的预测流程来辅
助医生进行临床诊断。将检测结果与病理学家的
手动注释相比,在乳腺癌的Ki ‑67图像中阳性癌
细胞的F1分数的可以达到95%左右,阴性癌细胞
的F1分数为91%左右。权利要求书1页  说明书5页  附图2页CN 112580748 A 2021.03.30
C N  112580748
A
1.一种对Ki67染图像癌细胞计数的方法,其特征在于,包括以下步骤:
1)创建训练集:
1‑1)采集标本图像,人工标记部分标签图像,对已经进行标记的Ki ‑67扫描全片的区域上切分出小图像patch;标记使用的标签分为四类:阳性癌细胞、阴性癌细胞、淋巴细胞和间质细胞;其中,阳性癌细胞和阴性癌细胞属于癌细胞,淋巴细胞和间质细胞属于正常细胞;
1‑2)筛除背景占比高或细胞模糊的patch,将完成筛选的patch以及其对应标签组成预训练集;
1‑3)将预训练集输入Libra ‑RCNN网络模型完成预训练;
1‑4)将一部分未标记的标本图像输入预训练得到的预训练网络模型中进行测试,得到预训练网络模型输出的测试结果;
1‑5)对将预训练网络模型输出的测试结果进行人工修正,再筛除背景占比高或细胞模糊的patch,将经过人工修正和筛选的测试结果增加至作预训练集中,判断是否满足预训练结束条件,如是,将当前的预训练集作为训练集,之后进入步骤2),否则,返回步骤1‑3);
2)将最终得到的完善的训练集输入Libra ‑RCNN网络模型中进行训练,得到训练模型;
3)检测步骤:
3‑1)在输入的待检测的Ki ‑67扫描全片上选取感兴趣区域ROI;可以依据机器学习判断出的癌细胞的数量,再选取癌细胞较多的区域作为ROI或者由医生自由选取ROI;
3‑2)在选取好的ROI内切取切片patch;
3‑3)对所有patch进行检测分类,得到所有patch的最终检测结果;每一个patch的检测分类过程为:
3‑3‑1)利用训练好的模型对每一个patch进行检测,并对patch在预设的重叠区域overlap内的重复检测框进行去重;
3‑3‑2)遍历当前patch上所有检测框,并进行不同类间检测框去重,遍历完毕得到该patch的最终检测结果;其中,不同类间检测框去重的具体方式为:在对两两不同类别检测框计算交并比IOU的大小,当出现IOU大于预设阈值的情况,则删除两两不同类别检测框中置信度较低的那一个,保留信度较高的检测框;
4)将所有patch检测结果坐标映射到整个Ki ‑67扫描全片上,根据统计得到的阳性癌细胞和阴性癌细胞个数计算出Ki67指标。
2.如权利要求1所述方法,其特征在于,标本图像中包括Ki67染图像和将Ki67染图像之外的其他类型的染图像转换为的Ki ‑67图像,使用CycleGAN网络完成其他类型的染图像到Ki ‑67图像的转换。
权 利 要 求 书1/1页CN 112580748 A
一种对Ki67染图像癌细胞计数的方法
技术领域
[0001]本发明涉及计算机视觉中的深度学习技术以及目标检测技术。
背景技术
[0002]目标检测作为图像理解中的重要一环,其任务是出图像中所有感兴趣的目标(物体),确定它们的位置和大小,是机器视觉领域的核心问题之一。卷积神经网络CNN是深度学习的基本工具之一,通常用于图像分析。VGG,GoogleLenet,resnet等卷积神经网络,在目标检测和语义分割方面都表现出卓越的性能。与图像分类不同,目标检测需要在图像内定位对象。基于对象检测的深度学习模型可以分为两个阶段。一个阶段是生成区域建议,另一阶段是对区域进行分类并为每个对象提供置信度。一些相关的方法包含Fast R‑CNN,以及改进后的Faster R‑CNN,SPP,R‑FCN和Mask R‑CNN。深度学习在各种任务上取得了空前的表现,尤其是在生物医学领域。此外,基于深度学习的端到端检测方法,例如SSD,YOLO和RON 等。可以直接预测对象的大小、位置和标签,没有任何中间步骤,相比于两个阶段的Faster‑RCNN提高了检测的速度。尽管CNN具有吸引人的品质,但还是有必要将训练集做的足够大。[0003]Ki‑67增殖指数是癌细胞增殖的重要生物标志物,与肿瘤的分化,侵袭,转移和预后密切相关,快速获取准确的Ki‑67指数对于临床研究具有很大的意义。Ki‑67指数是阳性癌细胞个数占所有癌细胞个数的比例,但由于Ki‑67染图像中各类细胞的细胞核的形态、颜极其相似,使得一些传统方法会将非肿
瘤细胞视为肿瘤细胞,从而导致大量计数错误。南京航空航天大学Ruihan Zhang等人利用GAN网络(生成对抗网络),一种成功的生成模型训练新方法,通过生成更多的人工样本进行数据增强,结合CNN和SSD来提高Ki67准确度。Dayong Wang等人将整个细分乳腺癌图像分为patch,并根据patch进行分类。Saha等人建立了自动评分系统Ki‑67使用带有期望最大化的Gamma混合模型GMM进行种子点检测、patch的选择和深度学习,使得最终的精度达到了93%,召回率达到了88%。Ki‑67的实际分析表明,有限的标记数据集可能导致CNN不足,进而导致训练集过拟合并影响准确度。
[0004]许多计算机化方法都依赖颜特征来检测和分类细胞来进行Ki‑67评分。Al‑Lahham等人首先将K‑means聚类应用于变换后的彩空间,随后使用数学形态学和连接成分分析对Ki‑67染的组织学图像上的细胞进行分段和计数。在中使用图像分析系统来量化肿瘤细胞,其中需要适当选择颜强度阈值。Markiewicz使用分水岭算法来分离接触细胞,并使用支持向量机(SVM)分类器将免疫阳性细胞与免疫阴性细胞区分开。然而,这些方法不能同时精确区分肿瘤和非肿瘤细胞并且将接触细胞分开。Ki‑67图像属于免疫组化染图像(IHC),近年来IHC染图像自动细胞核分割的研究近来引起了人们的关注。大多数相关研究集中在基于阈值,边缘检测或基于机器学习的像素分类的图像分割方法上。其中像素强度阈值化方法将利用红,绿和蓝(RGB)颜空间中的像素强度,并根据棕和蓝之间的差异应用强度转换和全局阈值化。在监督和无监督的学习方法中,将单个像素作为研究对象,而同一类别中的像素共同构成了组织的每个组成部分。研究人员需要在进行监督分类之前,选择包括所有细胞类型在内的每个组织成分的代表性区域作为训练样
本,其性能很大程度上取决于预先定义的训练样本的质量和全面性。由于深度学习在医学的应用还不是很广泛,对于Ki‑67染图像来说并没有可以直接使用的数据集。如何有效的提高Ki‑67染图像的检测指标,仍是现在研究的重点方向。
发明内容
[0005]本发明要解决的技术问题是,基于深度学习和全监督的方法,提出一种检测Ki67染图像的癌细胞Ki67指标的方法。
[0006]本发明为解决上述技术问题所采用的技术方案是,一种对Ki67染图像癌细胞计数的方法,包括以下步骤:
[0007]1)创建训练集:
[0008]1‑1)采集标本图像,人工标记部分标签图像,对已经进行标记的Ki‑67扫描全片的区域上切分出小图像patch;标记使用的标签分为四类:阳性癌细胞、阴性癌细胞、淋巴细胞和间质细胞;其中,阳性癌细胞和阴性癌细胞属于癌细胞,淋巴细胞和间质细胞属于正常细胞;
[0009]1‑2)筛除背景占比高或细胞模糊的patch,将完成筛选的patch以及其对应标签组成预训练集;
[0010]1‑3)将预训练集输入Libra‑RCNN网络模型完成预训练;
[0011]1‑4)将一部分未标记的标本图像输入预训练得到的预训练网络模型中进行测试,得到预训练网络模型输出的测试结果;
[0012]1‑5)对将预训练网络模型输出的测试结果进行人工修正,再筛除背景占比高或细胞模糊的patch,将经过人工修正和筛选的测试结果增加至作预训练集中,判断是否满足预训练结束条件,如是,将当前的预训练集作为训练集,之后进入步骤2),否则,返回步骤1‑3);
[0013]2)将最终得到的完善的训练集输入Libra‑RCNN网络模型中进行训练,得到训练模型;
[0014]3)检测步骤:
[0015]3‑1)在输入的待检测的Ki‑67扫描全片上选取感兴趣区域ROI;可以依据机器学习判断出的癌细胞的数量,再选取癌细胞较多的区域作为ROI或者由医生自由选取ROI;[0016]3‑2)在选取好的ROI内切取切片patch;
[0017]3‑3)对所有patch进行检测分类,得到所有patch的最终检测结果;每一个patch的检测分类过程为:
[0018]3‑3‑1)利用训练好的模型对每一个patch进行检测,并对patch在预设的重叠区域overlap内的重复检测框进行去重;
[0019]3‑3‑2)遍历当前patch上所有检测框,并进行不同类间检测框去重,遍历完毕得到该patch的最终检测结果;其中,不同类间检测框去重的具体方式为:在对两两不同类别检测框计算交并比IOU的大小,当出现IOU大于预设阈值的情况,则删除两两不同类别检测框中置信度较低的那一个,保留信度较高的检测框;
[0020]4)将所有patch检测结果坐标映射到整个Ki‑67扫描全片上,根据统计得到的阳性癌细胞和阴性癌细胞个数计算出Ki67指标。
[0021]本发明通过进行采集标本、整理筛选、切分patch、再次筛选等步骤组成最终的数据集。并且数据集的细胞种类一共分为四类,其中癌细胞有两类,正常细胞有两类,正常细胞的检测不仅仅可以使得癌细胞的判别更加精准,而且可用于拓展其他医学指标分析。Libra‑RCNN网络是Faster‑RCNN网络的改进,大大提高了检测性能。未解决检测结果出现了同一细胞有不同类别的检测框的问题特别提出了不同类间检测框去重的方法。
[0022]本发明的有益效果是,检测与分类准确,为Ki67染图像癌细胞的准确计数提供了基础,准确地提供Ki67指标,能为临床医学提供更好的辅助。
附图说明
[0023]图1为四类细胞的典型形态;
[0024]图2检测结果在全片上的可视化;
[0025]图3对比试验数据。
具体实施方式
[0026]下面根据附图和实例对本发明进行进一步详细说明。
[0027]本发明以研究乳腺癌中的Ki‑67染图像为主,Ki‑67染图像的细胞大致分为褐和蓝两种颜,形态不一。其中阳性癌细胞一般为棕褐,形态呈圆形,体积较大;阴性癌细胞一般为蓝,呈圆形分布,体积与阳性癌细胞;而正常细胞(间质细胞,淋巴细胞等),多数为蓝,少部分为褐,形态各异。我们将细胞一共分为四类,阳性癌细胞(positive tumor cell),阴性癌细胞(negative tumor cell),淋巴细胞(lymphocyte cell)和间质细胞(stromal cell)。四类细胞的典型形态如图1所示,典型的淋巴细胞和间质细胞大多为蓝,形态与癌细胞较易区分开,但一些特殊的淋巴和间质细胞形态与癌细胞很相似,易与癌细胞(尤其是阴性癌细胞)发生混淆。
[0028]全监督目标检测的方法,例如R‑CNN,Fast R‑CNN和Faster‑RCNN,是基于two‑stage的目标检测方法:首先提取感兴趣区域ROI,然后对其进行分类。随后,one‑stage目标检测方法也应运而生,例如SSD,YOLOv2和RetinaNet。相比于two‑stage方法,这些方法的速度会更快,但精度比不上two‑sta
ge方法。本发明更注重精度的大小,所以选取two‑stage网络Libra‑rcnn。图二为Libra‑rcnn网络体系结构。Libra‑RCNN整体网络架构由两个主要模块组成:(1)区域提议网络(RPN),它返回图像中ROI;(2)检测网络,它在执行边界框回归的同时对区域内的目标进行分类。RPN的锚点具有三个比例和三个长宽比。由于检测目标是形状不规则的细胞,因此有必要设置多个纵横比。根据细胞的体型本发明使用三个长宽比,即1:1、1:2和2:1。同时ResNeXt模型作为基本的卷积神经网络,以便从输入图像中提取更完整有力的特征图。
[0029]全监督网络的数据集格外重要,所以对于数据的处理也要更加精准。首先我们挑选出扫描清晰,阳性癌细胞占比不同的Ki‑67全片。在病理医生标记的区域中切分patch(小图像),大小为1024*1024,并根据自己的需求设置一定的overlap(交叠部分)。为了减少病理学家的标注工作量,我们首先让医生标注三四张wsi(全片),在标注区域中切分patch,将背景占比高以及细胞较模糊的patch筛除掉,整理好所有patch进行初步的训练得到训练模型,随后将训练模型去测试更多的wsi,将测试结果整理好返回给医生进行修改,医生将错

本文发布于:2024-09-25 14:33:49,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/1/450209.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:检测   癌细胞   图像   训练   细胞   进行   方法
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议