利用卷积神经网络分类乳腺癌病理图像

第42卷第4期
2021年4月
哈㊀尔㊀滨㊀工㊀程㊀大㊀学㊀学㊀报Journal of Harbin Engineering University
Vol.42ɴ.4
Apr.2021
利用卷积神经网络分类乳腺癌病理图像
于凌涛,夏永强,闫昱晟,王鹏程,曹伟
(哈尔滨工程大学机电工程学院,黑龙江哈尔滨150001)
摘㊀要:为了解决乳腺病理图像分类准确率低,耗时费力的问题,本文提出了利用卷积神经网络(CNN )对乳腺病理图像进行分类的方法㊂利用该方法将病理图像快速㊁自动划分为良性和恶性2类㊂采用基于Inceptionv3架构的卷积神经网络模型和迁移学习算法进行病理图像特征提取;利用全连接层神经网络和SoftMax 函数进行图像分类㊂同时针对高分辨率图像提出了图像分块化思想,将每块的分类概率
通过加和㊁乘积㊁取最大值3种算法进行整合,得出图像最终分类结果㊂利用BreaKHis 公共数据集对所提出的分类方法进行了实验验证㊂结果显示对于4个放大系数的图像分类准确率分别达到约95.0%㊁95.1%㊁94.1%和92.3%,该方法有效提高了乳腺癌病理图像分类准确率㊂
关键词:乳腺癌;病理图像;卷积神经网络;迁移学习;深度学习;图像分块;融合算法;图像分类DOI :10.11990/jheu.201909052
网络出版地址:http ://wwwki /kcms /detail /23.1390.u.20210209.1511.004.html 中图分类号:TP181㊀文献标志码:A㊀文章编号:1006-7043(2021)04-0567-07
Breast cancer pathological image classification based on a
convolutional neural network
YU Lingtao,XIA Yongqiang,YAN Yusheng,WANG Pengcheng,CAO Wei
(College of Mechanical and Electrical Engineering,Harbin Engineering University,Harbin 150001,China)
Abstract :To solve the problems of low accuracy and time-consuming and laborious classification of b
reast pathologi-cal images,this paper proposes a method of using a convolutional neural network (CNN)to classify breast patho-logical images.This method is used to divide pathological images quickly and automatically into the benign and ma-lignant categories.First,the CNN model based on the Inceptionv3architecture and the transfer learning algorithm are used for pathological image feature extraction;the fully connected layer neural network and the SoftMax function are used for image classification.At the same time,the idea of image partitioning is proposed for high-resolution images.To obtain the final classification result of the image,the classification probability of each block is integrat-ed through three algorithms:summation,product,and maximum.Experiments were carried out on the BreaKHis public dataset,and the accuracy reached 95.0%,95.1%,94.1%,and 92.3%respectively on the four magnifica-tion coefficients.It shows that the method effectively improves the classification accuracy of breast cancer pathologi-cal images.
Keywords :breast cancer;pathological image;convolutional neural network;transfer learning;deep learning;image blocking;fusion algorithm;image classification
收稿日期:2019-09-17.网络出版日期:2021-02-10.基金项目:黑龙江省自然科学基金项目(LH2019F016).作者简介:于凌涛,男,副教授,博士生导师;
夏永强,男,博士研究生.
通信作者:夏永强,E-mail:xyq2017@hrbeu.edu.
㊀㊀癌症是当今世界重要的公共健康问题㊂根据世界卫生组织国际癌症研究机构的数据显示,2018年约有1810万新病例和960万癌症相关死亡病例,影响到所有国家和地区的人口㊂尤其是乳腺癌在女性癌症新发病例占比最高(占比24.2%),而且死亡
率非常高[1]㊂
病理组织学分析仍然是诊断乳腺癌最广泛使用
的方法[2],而且大多数诊断仍由病理学家在显微镜下对组织学样本进行目视检查来完成,需要专业的病理学家的大量工作,专家之间的诊断一致性平均约为75%[3]㊂因此运用计算机来进行病理组织学图像的自动分类可以使乳腺癌诊断更快,而且更不容易出错㊂目前关于乳腺癌识别的研究主要分为2种方法:1)基于手工特征提取结合传统机器学习的
哈㊀尔㊀滨㊀工㊀程㊀大㊀学㊀学㊀报第42卷
方法㊂Belsare 等[4]使用统计纹理特征训练K-NN(k 近邻)和支持向量机(support vector machine,SVM)分类器,在一个40倍放大的私人乳腺组织学数据集上达到了70%~100%的准确率㊂Spanhol 等[5]公开了乳腺癌病理图像数据集BreaKHis,研究了6种包括邻接阈值统计[6]在内的手工提取的纹理特征结合
包含SVM 在内的4种分类器共24组的分类性能,作为区分良性和恶性肿瘤的参考基线,达到了80%~85%的准确率;2)基于深度学习的分类方法,深度学习使得模型可以直接从输入的图片中提取特征,避免了人工提取特征的程序,节省了大量的人力物力㊂近年来,卷积神经网络(convolutional neural networks,CNN)作为深度学习的重要方法在图像识别领域取得了巨大的成功,其在医疗图像分析方面也取得了快速的发展[7]㊂Araújo 等[8]利用卷积神经网络将乳腺癌病理图像分成了癌和非癌2大类,最高达到了88.3%的识别率㊂进一步划分为正常组织㊁良性病变㊁原位癌和浸润性癌4类时,最高达到了77.8%的总体准确率㊂何雪英等[9]使用卷积神经网络模型对BreaKHis 数据集进行了良性和恶性分类,经过数据增强处理之后的识别率最高可达到91%㊂Spanhol 等[10-11]在BreaKHis 数据集上采用卷积神经网络和深度特征的方法将乳腺癌组织病理图像分为良性和恶性2类,最高分别达到了90%和86.3%的准确度㊂Bayramoglu 等[12]提出了一种与放大系数无关的乳腺癌组织病理图像分类方法,该方法在BreaKHis 数据集上,可同时分类病理图像的良性或恶性和分类放大倍数,其实验结果在良性或恶性分类上达到了84.3%的准确度㊂
㊀㊀为了进一步提高乳腺病理图像分类精度,本文提出了基于卷积神经网络的乳腺癌病理图像分类方法,同时针对高分辨病理图像提出了图像分块的思想,并在BreaKHis 数据集上,验证了此方法的性能㊂
1㊀BreaKHis 数据集
BreaKHis 数据集[5]是巴拉那联邦大学的Span-hol 等论文中发布的公开数据集㊂该数据集采集自82个病人,其中良性24人,恶性58人㊂目前为止,该数据集一共包含7909张图片,分为4个放大系数40㊁100㊁200㊁400㊂每个放大系数又可分为良性和恶性肿瘤2大类㊂具体分布情况如表1所示㊂
表1㊀按放大系数和类别的图像分布
Table 1㊀Image distribution by magnification factor and
class图像识别
放大系数良性恶性总计40
6251370
1995
1006441437
2081
2006231390
2013
4005881232
1820
总计2480
5429
7909
患者人数24
58
82
㊀㊀乳腺良性和恶性肿瘤在显微镜下又可根据肿瘤细胞的不同分为不同类型,本文只研究不同放大系数下的良性和恶性二元分类问题㊂图1展示了40放大系数下的部分病理图像,图1(a)~(d)图像为4种良性肿瘤,图1(e)~(h)为4种恶性肿瘤㊂所有图像存储格式为三通道RGB 格式,固定尺寸为700ˑ460像素
图1㊀乳腺癌组织病理学图像样本
Fig.1㊀Sample breast cancer histopathology image
2㊀图像分类方法
2.1㊀基于迁移学习的特征提取和图像分类
随着深度学习的快速发展,在图像识别领域,深度学习方法特别是采用CNN 的方法已经优于传统的机器学习方法㊂CNN 体系结构的主要由3种层构成:卷积层㊁池化层和全连接层㊂卷积层是用一组
参数可学习的滤波器对输入图像进行卷积运算,每个滤波器经过运算产生特征映射㊂池化层对输入特征映射进行向下采样以降低输入的空间维度㊂全连接层一般用在模型末端,用来将前边提取到的特征综合起来进行分类等操作㊂通常,完整的CNN 架构是通过各种方式叠加这些层来获得的㊂LeNet-5模型[13]运用CNN 模型结构进行图像分类实例,它对
865㊃
第4期于凌涛,等:利用卷积神经网络分类乳腺癌病理图像
输入尺寸为32ˑ32的灰度图像进行2次卷积加池化操作,最后加上3层全连接层进行图像的10分类㊂
目前,各大研究机构相继发布了一些CNN 模型结构,如LeNet㊁VGG㊁AlexNet 和ResNet 等,这些模型都曾在图像识别上取得过优异的成绩㊂在一些数据集上的识别上,基于这些成熟的模型来构建模型,往往比自己从头搭建模型效果更好,更方便快捷㊂如基于AlexNet 模型进行了乳腺图像的特征提取[10],该模型相对简单,限制了其分类精度㊂故本文基于结构更加复杂的Inception V3[14]模型搭建模
型,进行病理图像的分类㊂
如图2所示,模型由特征提取过程和分类过程构成㊂因为InceptionV3模型针对图片大小为299ˑ299搭建,所以采用图像缩放和Inception V3模型构成特征提取过程,其中InceptionV3模型不包含原模型最后2层全连接层㊂分类过程由2层新的全连接层神经网络构成,其中第1层全连接层神经网络具有512个节点,第2层具有2个节点,并在最后一层神经网络采用SoftMax 函数作为激活函数进行分类
图2㊀图像基于Inception V3模型分类过程
Fig.2㊀Image classification based on inception V3model
㊀㊀单张图像分类具体操作步骤为:1)将图片通过缩放使尺寸大小固定为299ˑ299;2)将缩放后的图片送入InceptionV3模型进行计算,取InceptionV3模型最后一层池化层的输出参数作为图片的特征向量,其尺寸为1ˑ2048;3)将特征向量送入全连接层神经网络进行计算,第2层每个节点的数值经过SoftMax 函数计算之后的输出结果即为输入图像属于某一类的概率;4)将图像分类到输出概率最大的类别㊂
由于数据量的限制,本文只训练特征提取之后2层全连接层的参数㊂对于特征提取阶段In-ception V3模型的参数,采用了迁移学习[15]的方法获得㊂迁移学习的是先在1个大型数据集上训练CNN 模型的参数,然后将训练好的参数作为在新的数据集训练相同CNN 模型的初始化权值,迁移学习又可分为微调和固定权值的2种方式,微调方式在每轮训练之后对CNN 模型的参数进行更新,而固定权值的方式是CNN 模型参数在初始化之后便固定不变㊂
本文采用在ImageNet [16]数据集上训练的In-ceptionV3模型参数作为特征提取阶段模型的初始化权值㊂且微调方式导致模型参数的改变,使得每次训练都需要重新计算图像的特征向量,计算任务大㊁训练时间长,故本文采用固定权值的方法㊂由此本文在计算出图像特征向量之后将其存储为文本文档,这样可使本张图片在下轮训练过程中,可直接读取文本文档获得特征向量,避免重复特征提取过程的
计算,节约计算时间㊂
在训练过程中,采用通过构建SoftMax 函数的输出结果与图像标签之间的交叉熵作为损失函数,通过梯度下降法进行全连接层神经网络的参数优化,进而对损失函数进行最小化㊂单张图片交叉熵损失函数为:
L (x ,y )=-ðk
y k log p k (x )(1)
式中:p k (x )是输入图像x 被分类器分为第k 类的概率;y k 是指示性函数,当输入图像x 的标签y 是k 类时y k =1,否则y k =0㊂
965㊃
哈㊀尔㊀滨㊀工㊀程㊀大㊀学㊀学㊀报第42卷
2.2㊀基于四叉树图像分割的数据增强
在训练CNN 模型时,若使用的数据集的样本数较少,该网络容易过度拟合㊂常用的方法为数据增强㊂数据增强是通过旋转㊁翻转㊁滑动窗口等操作提升数据量,本文采用更适合高分辨率图像的基于四叉树分割的数据增强方法[17]㊂四叉树由1个连续的结构组成,在每一层,将上一层的输入图像均等分成4个部分㊂即在每一级L (L ȡ1)处,将输入图像划分为(2L -1)2个大小相等且不重叠的块㊂这意味着在第1级输入图像保持为原始图像,在第2级输入图像被分成4个图像,在第3级输入图像被分成16个图像,依此类推,如图3所示㊂本文对乳腺图像的第2级和第3级切分结果进行了研究,即每张图片分割为4块和16块㊂经过分割之后训练数据分别增加为原数据量的4倍和16倍,在分割之后,每块子图像都被认为与原始图像具有相同的类标签
图3㊀基于四叉树方法的图像分割方法Fig.3㊀Image cutting method based on quadtree
2.3㊀融合算法
测试时由于采用了基于四叉树的图像分割方法,一张图片被分割成多个子图像块,每个图像块在经过模型计算可能产生不同的分类结果,故需要融合算法将所有图像块的分类结果整合起来㊂常用的算法有和规则㊁乘积规则㊁最大值规则㊁多数投票规则等㊂为了研究不同的融合算法对对乳腺图像分类结果的影响,本文选取了和规则,乘积规则和最大值规则[18]算法进行了实验验证,算法计算过程为:
和规则:
ϕ=argmax K k =1
ðN
i =1p i (k )
(2)
㊀㊀乘积规则:
ϕ=argmax K k =1
ᵑN
i =1p i (k )
(3)㊀㊀最大值规则:
ϕ=argmax K k =1
max N
i =1
p i (k )
(4)
式中:p i (k )表示为1张图片的第i 个子图像块被模型分为k 类的概率值;K 表示分类类别总数;N 表示1张图片被切分块的数量㊂图4展示1张病理图片的完整分类示例过程,在本例中将原始图像分割为4块,采用的融合函数为最大值规则
图4㊀图像完整分类过程
Fig.4㊀Image integrity classification process
3㊀乳腺病理图像实验分析
本文中所有试验均在相同试验环境下完成,试
验平台为1台CPU 为Intel I7-8700,GPU 为NVIDIA GTX10606GB 显存,内存为16GB 的计算机,试验环境为Windows 10操作系统,基于Python 语言的TensorFlow 架构进行编程㊂
3.1㊀实验细节与评价标准
本文将实验数据集按照75%㊁15%㊁15%的比例切分为训练集㊁验证集㊁测试集㊂训练集用来训练模型,验证集用来调节模型的超参数㊂模型的超参数选定之后,合并使用训练集和验证集的数据进行重
新训练模型,利用测试集来输出测试结果㊂本文实验结果为5次测试结果的平均取值,且5次实验独
075㊃
第4期于凌涛,等:利用卷积神经网络分类乳腺癌病理图像
立进行,每次实验前重新随机划分训练集㊁验证集和测试集㊂
实验结果以乳腺病理图像在图像层面和病人层面的分类准确率作为评价标准,并在每个放大系数上独立评估㊂基于图片层面的分类准确率只是考虑分类正确的图像占全部图像的比例,图像层面分类准确率I A 为:
I A =N c
N im
(5)
式中:N im 表示全部图片的数量;N c 是分类正确的图片数量㊂
基于病人层面的分类准确率则先对每个患者的多张病理图像计算分类准确率,再对所有患者的分类准确率取平均值㊂病人层面分类准确率P A 为:
P A =
ðN p
p =1N p c
N
p im
N p
(6)
式中:N p 是患者的数量;N p c 是对应患者P 分类正确的图片数量;N p im 是对应患者P 图片的总数㊂
3.2㊀实验结果与对比
3.2.1㊀实验结果
根据3.1节所定义的实验细节和评价标准,本节在BreaKHis 数据集上进行本文提出的乳腺病理图像识别方法的性能验证实验,实验结果如表2和表3所示㊂表2和表3分别展示了测试集在图像层面和病人层面的识别准确度㊂从实验结果上看,将图片基于四叉树策略分割后,无论4切分还是16切分,准确度都明显高于原图,其中4切分提高了2.0%~4.4%的准确率,16切分提高了0.9%~4.9%的准确率㊂说明图片分割方法结合融合算法能有效提升乳腺病理图像识别准确度㊂
表2㊀图像层面的准确率
Table 2㊀Accuracy at picture level
切分方法融合算法
放大系数
40
100
200
400
原图 92.890.791.888.674切分和规则95.095.193.892.2积规则95.094.594.192.3最大值规则94.293.794.192.016切分
和规则93.795.592.691.26积规则93.995.693.091.3最大值规则
93.7
95.5
93.7
90.4
㊀㊀而从实验结果上并不能得出哪一个融合算法更适合本实验,说明采用不同的融合算法规则对实验结果的影响很小㊂通过对比不同放大系数之间的实验数据,发现100放大系数下的识别率最高,400放
大系数下的识别率最低,40放大系数略高于200放大系数的识别率㊂
表3㊀病人层面的准确率
Table 3㊀Accuracy at patient level
切分方法融合算法
放大系数
40
100
200
400
原图 93.190.692.588.04切分和规则95.094.694.392.2积规则94.994.294.592.3最大值94.293.394.491.816切分
和规则94.094.191.491.2积规则94.294.891.991.3最大值规则
94.0
94.6
92.8
91.0
㊀㊀图5展示了100放大系数下使用原图和16切分的病理图像在训练过程中的损失函数随着训练步数的变化曲线,为了便于观察,曲线经过平滑处理㊂可以看出,在原图的情况下,本该逐渐减小收敛的损失函数却在训练步数大约达到2000步时达到最小值,随后开始增大㊂这说明模型在训练步数超过2000
时开始过拟合㊂而在16切分情况下,损失函数是逐渐下降并收敛的,说明图像切分扩大了训练数据量,避免了过拟合情况的发生,这也是图像切分能提高识别准确度的原因之一
图5㊀原图和16切分图像的损失函数对比
Fig.5㊀Loss function comparison between original image
and 16-sliced image
4切分的结果除了在100放大系数上都要略高于16切分的结果㊂这是由于在16切分的情况下,图像切分的相对较小,导致部分单张子图片所包含的信息不足以体现病理情况㊂3.2.2㊀与其他实验对比
为了更好的评估实验结果,我们选取了文献[5,10-12]和本文中各个放大系数中最好的实验结果进行对比,如表4所示㊂文献[12]中未展示图片层面识别准确度㊂从表中可以看到基于卷积神经网络和四叉树图片切分的方法,在各个放大系数上达
175㊃

本文发布于:2024-09-21 10:39:32,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/2/371152.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:图像   分类   病理
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议