基于双边特征金字塔网络与多尺度鉴别的本质图像分解方法研究

著录项

申请号 CN202210290919.3
申请日 20220323
公开（公告）号 CN114612727A
公开日 20220610
申请（专利权）人西北工业大学
发明人蒋晓悦;王众鹏;冯晓毅;夏召强;韩逸飞
主分类号 G06V10/764
分类号
G06V10/764 G06V10/774 G06V10/80 G06V10/82 G06V10/46 G06K9/62 G06N3/04 G06N3/08
地址陕西省西安市碑林区友谊西路127号
国省代码陕西(61)

摘要

针对本质图像分解任务，本发明提出了一种并行局部分频选择的重构方法，可实现对反射图和光照图的准确重构。本质图像分解是一个欠约束问题。基于编解码网络的本质图像重构提供了一个有效的解决方案，但该方案的结果仍存在不足，因此，需要对各个频段的信息做更加精准的选择才能获得更加准确的分解结果。本发明提出的网络结构将两个并行的生成对抗网络作为主体网络，分别对反射图和光照图进行重构。针对生成网络，本发明提出了局部分频特征融合的策略，分别实现对高频反射特征和低频光照特征的选择和保留。同时，本发明在鉴别器中加入了多尺度的自适应组合模块，对多尺度特征的贡献进行自适应评估，强化鉴别效果并提升生成效果。进一步，本发明构建了多种损失函数来约束生成结果并促进网络的训练。本发明所提算法在多种数据集上都表现优异。在MPI?Sintel数据集中，本发明相比其他方法的最优结果的重构均方误差降低了13.26％；在ShapeNet数据集中，本发明相比其他方法的最优结果的重构均方误差降低了26.09％。

权利要求

1.本发明提出一种基于双边特征金字塔与多尺度鉴别的本质特征图像分解方法，该方法使用的网路结构主要分为2个部分：生成器网络和鉴别器网络。

(1)生成器网络

本发明的生成器网络包含反射图生成器和光照图生成器。反射图生成器和光照图生成器在结构上只有在跳连接通道上有所不同。生成器的主干网络采取U-Net网络结构为模板，一共有5层，每层卷积层对应的通道依次为16、32、64、128和256。对于跳连接通道，本发明采取上下对称的结构。反射图生成器先从低频向高频计算中间特征，再从高频向低频结合中间特征计算输出特征。光照图生成器先从高频向低频计算中间特征，再从低频向高频结合中间特征计算输出特征。本发明的生成器网络的损失函数如式(1)所示。

LG＝LGAN-G+Lmse+Lcos+Lbf+Lfeat (1)

其中，LGAN-G表示固有损失函数，Lmse表示均方误差函数，Lcos表示余弦损失函数，Lfeat表示特征损失函数。

固有损失函数LGAN-G的计算公式如公式(2)所示：

其中，Wi表示第i层归一化权重参数，i表示网络层序号，fake_outputi表示输出图像为假的概率，ones表示概率为1。

均方误差函数Lmse的计算公式如公式(3)所示：

其中，fake_imagei表示解码器的倒数第i层特征图的输出，true_imagei表示放缩i倍的图像标签。

余弦损失函数Lcos的计算公式如公式(4)所示：

其中，fake_regioni表示生成图像的第i块区域，true_regioni表示生成图像的第i块区域；

交叉双边滤波损失Lbf的计算公式如公式(5)-(7)所示：

其中，Lbf表示双边带滤波损失，bf表示双边带滤波，C表示标签图像，{A,S}分别表示反射图和光照图，Jp表示双边滤波器的输出，Cp表示标签图像第p个像素的值，Np表示p像素以及邻居像素的总和个数，Wp表示正规化权重，q表示p的邻居像素位置，N(p)表示第p个像素的邻居像素位置集合，表示空间高斯核，p表示第p个像素的位置，表示范围高斯核，Cq表示邻居像素q的值；

Lfeat的计算公式如公式(8)所示：

其中，l表示VGG网络的第l层，Fl表示第l层特征图的通道数，Hl表示第l层特征图的高度，W表示第l层特征图的宽度，表示第l层的特征激活值；

(2)鉴别器网络

鉴别器由四层卷积神经网络组成；在反射图生成器或光照图生成器进行训练时，将反射图生成器或光照图生成器输出的反射图或光照图输入鉴别器，鉴别器将输入的反射图或光照图与标签图像进行对比，输出反射图或光照图与标签图像一致的概率；

反射图生成器与鉴别器组合用于训练反射图生成器。光照图生成器与鉴别器组合用于训练光照图生成器。本发明使用MIT以及MPI数据集对生成器网络训练，采用SGD优化方法对网络参数进行更新，当式1中的损失函数值最小时停止训练，得到最终的训练好的网络。训练好的网络可以对输入图像进行本征分解，得到最合适的反射图像与光照图像。

定义鉴别器损失如公式(9)所示：

其中，L2表示l1损失，yi表示ground-truth图像，f(xi)表示超分辨率后的图像。

说明书

基于双边特征金字塔网络与多尺度鉴别的本质图像分解方法研究

技术领域：

本发明属于图像处理领域，具体涉及一种本质图像分解方法。

现有技术：

由于在物体成像过程中，诸多环境因素变化会对场景表观特性产生不同程度的影响，包括：光照强度不同、光照入射角度不同、阴影遮挡以及姿态变化等。这些变化最终会表现在图像中，针对相同的目标物体在不同的环境条件中，会采集到不同的图像，因而也给后续的图像理解任务带来了一定的困难。

想要解决这个问题，就需要在图像中提取出不随环境因素变化而变化的特征，即本质特征图像。本质特征是指不受环境因素影响，物体自身所固有的特征。对于物体而言，其固有特征包含颜、纹理和材质等。这些固有特征是不会随着环境因素的变化而改变。如果我们能从图像中将物体的颜、纹理和材质等本质特征信息与环境信息分离开，过滤掉受到环境影响的图像分量，那就可以得到对物体更加准确的特征信息描述。这样的做法有利于其他图像处理任务的性能提高。

图像的本质特征分解是计算视觉领域的低阶任务之一。本质特征提取就是要提取固有特征，它将图像分解为带有颜、纹理和材质的反射图与带有形状信息和光照信息的光照图这两部分。反射图是不随环境因素的变化而改变，因此我们可以将分解后的反射图作为其他图像处理任务的输入，这样将会极大地降低图像分析的难度，使得图像处理具有光照不变的鲁棒特性。图像的反射图和光照图，如图1所示。同时，伴随着对深度学习方法研究的不断深入，基于卷积神经网络的本质特征图像分析算法在实时性和准确性上都取得了极大的进步，这也为提升无人驾驶等高级图像处理任务的鲁棒性，加快其工业应用的速度打下夯实的理论基础。

本质图像分解的求解主要分为以下两类，第一种是基于显式约束的优化方法，第二种是基于隐式约束的深度学习方法。

基于显式约束的优化方法大都采用本质图像的先验约束，在约束域求解最优化问题，其算法性能取决于先验约束的合理性以及凸优化函数的收敛性能，合理的先验约束以及好的优化函数能避免模型收敛到局部最优解。基于显式约束的优化方法无需标签，但应用有限。现实情况中，光照条件十分复杂，会出现高光、遮挡、镜面反射等问题，提出的先验约束就无法全面处理这些状况。基于标签学习得到的隐式约束要比显式约束更能泛化这些情况，也是目前主流的研究方向。

发明目的：

为了克服现有技术的不足，本发明探索并提出了一种全新的基于生成对抗网络的本质图像算法。在生成器方面，以U-Net算法为原型，本发明创新地在U-Net的跳跃层加入变形的双边特征金字塔模块，对编码器特征进行强化选择后送入解码器，提升了本质图像分解的效果。而在鉴别器中本发明加入了多尺度的自适应组合模块，在多个特征尺度进行预测，强化鉴别效果，进而提升生成效果。一方面，在反射图U-Net的跳跃连接中加入频率分解的约束，让网络学习不同特征的重要程度，得到更适合的特征。另一方面，在光照图的跳跃连接中加入频率分解以及频率压缩，这样不仅可以得到更合适的特征图还解决了光照图中高频分量多的问题。

发明内容：

为了达到上面的目的，本发明提出了一种基于双边特征金字塔与多尺度鉴别的本质图像分解方法，其网络结构如图2所示，包括以下步骤：

步骤1：构建训练图像样本库

(1)构建训练图像样本库

本发明在测试图像数据集中随机抽取一定数量的图像，然后在每幅图像中随机采样M个大小为N*N的小图像，将这M个小图像进行水平或者上下翻转又得到新的M个小图像，这样每幅图像得到2*M个小图像；所有抽取的图像进行上述操作后得到的小图像构成训练图像样本库。

步骤2：构建生成器

(1)构建反射图生成器

生成器网络部分是以U-Net网络结构为模板，在U-Net的编码器到解码器的跳连接层引入了双边特征金字塔网络以增强编码器对原始图像分解出有效特征的能力，以及抑制无效特征的产生。该网络采取的是对称结构，编解码器都有5层。编码器的每一层由下采样层和卷积层组成。卷积层对应的通道依次16,、32、64、128和256。解码器的每一层由上采样层和卷积层组成。除了编码器最后一层卷积层和解码器最后一层卷积层不使用批归一化层，其他的卷积层统一在卷积运算加入批归一化层来加速网络训练。根据先验知识，生成器网络前几层的激活函数采用Leaky-ReLU的结构，而最后输出层的激活函数采用Tanh来激活。此时，在反射图生成器中输入图像，输出为该输入图像的反射图。

BIFPN-A模块用于生成反射图，BIFPN-B用于生成光照图。BIFPN模块与一般的跳连接层不同，它的输入并不是只有一个通道，而是5个跳连接通道一起输入。通道由上而下频率逐渐变高。两种BIFPN模块都是由3个BIFPN Block堆叠而成。BIFPN Block具体会分反射图端和光照图端两种类型。BIFPN-A模块的Block结构如图3所示。它保持先从低频向高频计算中间特征，再从高频向低频结合中间特征计算输出特征的操作。因为这样可以让高频的特征去指导低频特征的合成，使得输出的结果包含的高频特征更加丰富。但是图3的Block将5条通路分为了高频通路和中低频通路。高频通路包含下面两层，中低频通路包含上面三层。在计算中间特征时，两种通路需要分别计算，这样做的好处是可以将高频特征和中低频特征进行一定程度的隔离，并没有简单的将它们直接融合在一起。

(2)构建光照图生成图

对于BIFPN-B的Block，它的结构示意图如图4所示。它和图3相比，只是将上采样和下采样的操作进行了交换。它先从高频向低频计算中间特征，再从低频向高频结合中间特征计算出输出特征。输入到两个BIFPN网络的5个不同尺度大小的特征会首先一起输入到BIFPN Block中。首先，这些不同尺度的特征在进行运算需要把通道统一到64。然后，该网络会根据不同的权重对输入特征进行分配并让不同尺度的特征进行融合计算，最后得出融合后的特征。相比BIFPN-A，BIFPN-B增加了最后的通道压缩。它是由一个1×1的卷积层和一个Leaky ReLU激活层组成。这个1×1的卷积层将输入特征的通道数缩减到原来八分之一，使得光照图在不丢失重要的高频信息的同时尽可能地去除高频特征。

步骤3：构造鉴别器

鉴别器由四层卷积神经网络组成。其网络结构如图5所示。在反射图生成器或光照图生成器进行训练时，将反射图生成器或光照图生成器输出的反射图或光照图输入鉴别器，鉴别器将输入的反射图或光照图与标签图像进行对比，输出反射图或光照图与标签图像一致的概率。

反射图生成器与鉴别器组合用于训练反射图生成器。光照图生成器与鉴别器组合用于训练光照图生成器。

步骤4：定义损失函数

(1)定义生成器损失如公式(1)所示：

LG＝LGAN-G+Lmse+Lcos+Lbf+Lfeat (1)

其中，LGAN-G表示固有损失函数，Lmse表示均方误差函数，Lcos表示余弦损失函数，Lfeat表示特征损失函数。

固有损失函数LGAN-G的计算公式如公式(2)所示：

其中，Wi表示第i层归一化权重参数，i表示网络层序号，fake_outputi表示输出图像为假的概率，ones表示概率为1。

均方误差函数Lmse的计算公式如公式(3)所示：

其中，fake_imagei表示解码器的倒数第i层特征图的输出，true_imagei表示放缩i倍的图像标签。

余弦损失函数Lcos的计算公式如公式(4)所示：

其中，fake_regioni表示生成图像的第i块区域，true_regioni表示生成图像的第i块区域。

交叉双边滤波损失Lbf的计算公式如公式(5)-(6)所示：

Lfeat的计算公式如公式(8)所示：

其中，l表示VGG网络的第l层，Fl表示第l层特征图的通道数，Hl表示第l层特征图的高度，W表示第l层特征图的宽度，表示第l层的特征激活值；

(2)定义鉴别器损失如公式(9)所示：

其中，L2表示l1损失，yi表示ground-truth图像，f(xi)表示超分辨率后的图像。

步骤4：网络训练

使用步骤1中构建的训练图像样本库分别对步骤2反射图生成器与鉴别器组合、光照图生成器与鉴别器组合进行训练，采用Adam优化方法对网络参数进行更新，当步骤3中定义的损失函数值最小时停止训练，得到最终的反射图生成器和光照图生成器；

步骤5：将待处理的原始图像分别输入步骤5得到反射图生成器或光照图生成器中，输出图像就是原始图像分解得到的反射图或光照图。

有益效果：

本发明采用基于双边特征金字塔与多尺度鉴别的本质图像分解方法，针对现有方法对于不同频率之间的特征缺乏沟通与指导的问题，创新性地引入双边特征金字塔网络，使得反射图和光照图分别获得有益于对方重构的特征信息。

附图说明：

图1为反射图与光照图示意图

图2为基于双边特征金字塔与多尺度鉴别的本征分解网络示意图

图3为BIFPN-A网络结构示意图

图4为BIFPN-B网络结构示意图

图5为鉴别器网络结构示意图

图6为MPI-Sintel数据集的示意图

图7为ShapeNet本征图像示意图

图8为不同模块组合的测试结果对比示意图

图9为第一种BIFPN模块网络结构示意图

图10为第二种BIFPN模块网络结构示意图

图11为图像划分下本发明与其他方法的本质图像分解对比示意图

图12为场景切分下本发明与其他方法的本质图像分解对比示意图

图13为场景切分下局部区域效果对比示意图

图14为ShapeNet数据集的部分测试数据效果对比示意图

具体实施方式：

下面结合实施例对本发明进一步说明。

实施例1：

步骤1：构建训练图像样本库

本发明采用基于复杂场景的MPI图像数据集和基于单个合成物体的ShapeNet图像数据集。在MPI数据集中常用的场景有9大类，每大类下有两小类，每小类有50张图片。图6展示了MPI-Sintel数据集的部分数据。在构建训练图像样本库时有两种分割方式，一种是基于image-split方式，另一种是scene-split方式。

在image-split方式下，在图片数据集的18个小类中，每个小类抽取一半的图像，每个图像尺寸是1024x436，随机在图像中采样10个大小为256x256的小图像，然后对小图像进行水平后者上下翻转，这样每一幅图像得到20个小图像。训练数据集总数为9000(18x25x20)个大小为256x256的小图像，测试数据集使用原图大小，总数为450(18x25)张大小为1024x436的大图像。

在Scene-split方式下，每大类取一个小类训练，另一个小类用来测试，移除两个有缺陷的小类“bandage 1”和“shaman 3”，和image-split方式获取小图像的方法相同，得到训练数据集为9000(9x50x20)张大小为256x256的小图片，测试数据集为350(7x50)张大小为1024x436的大图片。

ShapeNet数据集是3D形状的大规模数据集。它是一个计算机合成的数据集，数据集中的每个图像都提供了反射图、光照图、表面法线、深度以及场景光照条件。ShapeNet数据集的图像是完全对齐的，对于本征图像分解任务而言，只需要使用光照图和反射图。ShapeNet拥有超过3百万规模和超过3000个类别的图像，每个类别拥有不同对象，不同角度以及不同光照的数据。图7展示了ShapeNet数据集中的本征图像。

步骤2：构建生成器网络

根据图3和图4，采用步骤2的方法构造反射图生成器和光照图生成器，所用的反射图生成器U-Net网络的编码器以卷积层、批归一化层、LeakyRelu激活函数层为下采样块，卷积层的步长为2，每次卷积操作后，特征图的尺寸减半。编码器中每个激活函数层的输出跳跃连接送入频率分解子模块，编码器的通道变化为[3,32,64,128,256]。频率分解子模块的输出送入解码器，解码器卷积层的步长为1。

光照图生成器的通道压缩子模块通过卷积层进行，卷积层的步长为1，不改变特征图大小，将通道数进行不同比例的压缩。光照图中高频分量少，压缩比例大；低频分量多，压缩比例小。

步骤3：构建鉴别器网络

鉴别器为四层卷积神经网络，卷积层步长为2，每经过一个卷积层尺寸减半，四个卷积层的通道变化分别是3到64、64到128、128到256、256到512，每个卷积层的输出都压缩为单通道的特征概率图。当鉴别器判别为真时，所有的单通道特征概率图接近为1，而判别为假时，所以的单通道特征概率图接近为0。

步骤4：构建损失函数

根据公式(1)-(9)，本发明计算生成器损失函数，固有损失中生成器网络第一层和最后一层的权重设为4，中间两层权重设为1。

在计算均方误差时，本发明取解码器倒数3层的特征图分别生成完整、二分之一以及四分之一的原图，对三个不同尺度进行约束，三个尺度的权重分别为1，0.8和0.6。

在计算余弦损失时为了更好的维持边缘特征，保持生成的图像和标签图像的边缘一致，将输入图像分成4个区块，保证每个区块和对应的标签区块余弦相似度一致。

计算鉴别器损失函数时，第一层和最后一层的权重为4，中间两层权重为1。

步骤5：网络训练

使用训练图像样本库的样本进行训练，反射图和光照图分别使用不同的生成器和鉴别器，光照图和反射图的网络模型一致，分开进行训练。采用Adam优化方法对网络进行优化，生成器和鉴别器需要用不同的Adam优化器，优化器参数betas设置为(0.5,0.999)，学习率为0.0005，weight_decay为0.0001，batchsize为20。生成器和鉴别器采用交替训练(TTUR)，鉴别器的训练次数与生成器的训练次数相比是5比1。

步骤6：实验结果与分析

为了综合评定本发明提出的算法的效果，本发明首先对跳连接层双边特征金字塔模块的效果进行分析，然后在MPI-Sintel本质图像数据集上，通过可视化效果和量化指标这两个方面进行对比和评价。

(1)生成器和鉴别器模块评价

为了衡量生成器和鉴别器中模块的有效性，本发明在场景复杂的MPI-Sintel数据集上进行评价。以图像分割的方式为例，设计了一组对比实验对生成器的跳连接层双边特征金字塔模块(BIFPN)以及鉴别器的自适应组合模块(AC)进行评价。

(a)Without BIFPN：去除生成器的双边特征金字塔网络，直接将编码器端的特征传入解码器端；

(b)Without AC：去除鉴别器的多尺度自适应组合模块；

(c)With All：同时使用双边特征金字塔模块和自适应组合模块。

在其他变量不变的情况下，本发明对以上三种网络进行训练，最后在MPI-Sintel数据集上的结果指标如表1所示。

表1生成器和鉴别器模块对比表(黑标注的为最好)

由表1得知，使用跳连接层双边特征金字塔模块(BIFPN)以及自适应组合模块(AC)的结果在三个指标中要比不使用其中一种模块的好。其中结构相似性提升的最多，预测的图像与标签更加接近，其次是均方误差，在整体像素区域也保持较高的准确性，最后是局部均方误差指标提升的较少。图8展示了三种网络的对比实验在MPI-Sintel的图像切分数据集中的部分结果。图中有四列，第一列是原图，第二、三和四列分别对应表4-1中的三个实验结果。由第二列的四张图可以看出，没有使用双边特征金字塔模块的网络生成的结果没有第四列的好。第二列第一、二行的反射图依旧包含了一些阴影，这是因为缺乏双边特征金字塔模块导致光照信息没有完全去除。第二列第三、四行的光照图看起来依然包含一些纹理的信息，说明里面的高频的特征信息没有完全去除。由第三列的四张图可以看出，没有使用多尺度自适应模块的网络生成的结果也没有第四列的好。可以很明显的看出，第三列的第三、四张图的四片角落区域还残留着原图的一些像素。而使用了多尺度自适应组合模块的结果无论在全局的信息恢复还是在局部细节恢复上都做得更好。

根据上述的指标以及可视化结果可以得出，本发明提出的跳连接层引入双边特征金字塔模块以及在鉴别器使用多尺度的自适应组合模块都对本质图像分解有明显的效果，对图像的有效性和一致性有明显的提升，同时对于图像局部的细节也有更好的重构效果。在充分说明了双边特征金字塔模块和多尺度自适应组合模块的作用之后，本发明继续对双边特征金字塔模块的内部结果进行探索。在此，本发明基于原始的双边特征金字塔模块进行更改，以到最好的分解网络。因此，本发明提出了几种不同的双边特征金字塔模块，并对它们进行训练，得出分解的结果并进行评价。

第一种网络如图9所示。该网络与经典的双边特征金字塔网络一致，同样是五层网络，首先最低频特征不断上采样与次高频的特征进行融合得到中间特征，再从最高频特征出发，不断下采样与中间特征进行融合得出输出特征信息。其中，子网络块经过两次串联，得到最终的网络结构。

第二种网络如图10所示。该网络与第一种网络结构正好相反，它是将最高频特征不断下采样与次低频的特征进行融合得到中间特征，再从最低频特征出发，不断上采样与中间特征进行融合得出输出特征信息。最终的网络结构也是有3个重复子网络块构成。

第三种和第四种网络为本发明最终采用的网络，即图3和图4。这两种网络分别是前两种网络的演化而成。由于考虑到反射图和光照图中高低频特征分量的占比是不同的。反射图中高频特征占比高，光照图中低频特征占比高。所以，如果能适当地将高频特征和低频特征分开，那么这样对于图像的分解效果会有一定的提高。所以，第三种网络相比第一种网络进行了一些修改，将高频的两条通路看成一组，而低频的三条通路看成一组。高频组和低频组独立的生成中间特征，而后续的下采样操作则将两组结合起来。同理，第四种网络相对第二种网络进行了一些修改。它也分为高频和低频两组通道，并分别生成中间特征，最后在输出特征处依靠上采样进行连接起来。

结构1：反射图端使用网络一+光照图端使用网络一和通道压缩；

结构2：反射图端使用网络二+光照图端使用网络二和通道压缩；

结构3：反射图端使用网络一+光照图端使用网络二和通道压缩；

结构4：反射图端使用网络三+光照图端使用网络四和通道压缩。

在其他变量不变的情况下，本发明对以上的4种网络组合在MPI-Sintel的图像切分数据集上进行训练，最后得出的指标如表2所示。

表2不同跳连接模块的对比实验结果表

从上述表格可以看出，结构2相比结构1，结构1的反射图均方误差比结构2的要低，而结构2的光照图均方误差则比结构1低。因为反射图需要大量的高频特征信息。结构1恰好有从高频特征下采样到低频特征的通路，使得反射图端在重构低频分量受到了高频分量的指导，从而生成出更好的反射图。同理，结构2的结果和结构1正好相反，它拥有从低频特征上采样到高频特征的通路，使得光照图端在重构高频分量时候受到了低频分量的指导，生成的光照图包含了足够的低频特征信息，得到了更好的光照图。那么，如果将结构1中反射图端的结构和结构2中光照图端的结构进行整合，效果是不是比结构1和结构2要好呢？根据这个猜想，本发明设计了结构3，并进行了实验。最后，实验的结果与猜想一致，结构3的三个指标都比前两个组合要好。尽管结构3生成的结果比结构1和结构2要好，但是网络结构过于复杂。那么如果在保证效果的前提，进一步简化网络结构成了接下来研究的课题。本发明注意到本质图像分解问题的实质是将图像的高频特征和低频特征区分开来。所以对于前三种网络中直接将所有尺度的通道连接起来的结构是不太符合实际理论的。所以本发明尝试将反射图端和光照图端的跳连接模块进行修改，将所有的通道简单分为高频通道和中低频通道。由图3和4可知，高频通道为下面两条通道，而中低频通道为上面三条通道。中间特征只在两条主干通道中分解进行计算，最后在计算每一个重叠块的输出特征是才将两条主干通道连接起来。经过实验证明，这样的做法既可以简化网络结构，保证分解效果，也符合理论实际。

(2)损失函数量化分析

为了评价不同损失函数对最后结果的影响，本发明依旧以MPI-Sintel的数据集来进行训练和测试，采取了完全相同的参数，并固定随机种子，去除选中的损失函数，其他损失函数不动，设计了多组对比实验进行评价。

(a)Without VGG：去除VGG感知损失；

(b)Without Muti-Scale：去除多尺度损失；

(c)Without Bf：去除双边带滤波损失；

(d)Without Cos：去除局部余弦损失；

本发明对基于图像切分和场景切分的数据集都进行了实验，具体的量化指标如表3和4所示。

表3图像划分下损失函数量化指标对比表

表4场景划分下损失函数量化指标对比表

从表中结果可以看出，不同的损失函数对本质图像的分解效果具有不同的促进作用。另外，图像切分和场景切分两种方式的数据集也会对分解结果造成影响。其中，VGG感知损失对最终结果的促进作用最大，因为它针对的是特征空间的损失，可以对不同尺度的特征进行强约束。而Cos损失在图像切分数据集中贡献最小，但是在场景切分数据集中仅次于VGG感知损失，说明Cos在泛化的场景中具有更大的作用。多尺度损失在图像切分和场景切分中都具有促进作用。最后，双边带滤波损失同样在图形切分中都具有促进作用，但在场景切分中对光照图的结构相似性指标有负面影响，可能是双边带滤波的自适应约束泛化不强导致的。

(3)基于图像切分的MPI-Sintel数据集实验结果分析

本发明计划使用提出的网络与最近的工作进行对比。为了保证准确性，本发明采用和Fan等人相同的数据集和测试方式进行实验。本发明对之前的各种方法的量化指标进行了对比，结果如表5所示。从量化指标上看，本发明提出的方法比其他的方法在均方误差指标上要好，但在光照图的局部均方误差和结构相似性上要差。

表5图像划分下各个方法与本方法的量化指标对比表

在可视化结果方面，图11展示了在图像划分数据集中，各方法与本发明的本质图像分解图。从结果来看，基于手工设计特征的Barron方法生成的光照图过度平滑，其高频特征几乎丢失，而反射图的阴影也没有完全去除。同样基于手工特征的Chen方法在生成彩是出现了巨大的偏差。其反射图同样过度平滑，而且很多高频细节信息被分解到光照图中。图中的4～5行的方法是基于深度学习的，可见他们都比基于手工特征的方法要好。MSCR方法分解出的图像出现了很多模糊的像素块，图像的光滑性和一致性较差，局部细节也恢复得较差。Fan的方法生成的反射图在平滑性和一致性上都表现优秀，但在一些局部细节的恢复上还有提高的空间。而本发明在图像平滑性、纹理一致性以及细节恢复上都比上述方法要好。特别是对比Fan的方法，比如图中第一列人物的头发以及第三列任务背后的纹理特征都与标签更加接近，而Fan的方法则表现欠佳。虽然本发明从量化指标和可视化结果上看要优于其他的所有方法，但是距离标签图像还是有一定的距离。比如。在第二列的第六行，本发明生成的光照图中的头发细节与标签还是有一定的差距，与表中的结果一致，说明本发明的光照图端没有完全将纹理特征等高频信息去除干净，还需继续改进。

(4)基于场景划分的MPI-Sintel数据集实验结果分析

基于场景划分的MPI-Sintel数据集图像分解任务是非常困难的挑战，因为测试集和训练集中场景完全不同，这更加考验本章方法的泛化能力。为了保证准确性，本发明同样采用和Fan等人相同的数据集和测试方式进行实验。实验的最终量化指标结果如表6所示。可以看到，本发明在所有指标上都要比之前的方法有更好的性能。

表6场景划分下各个方法与本发明的量化指标对比表

在可视化结果方面，图12展示了在场景切分数据集中，其他深度学习方法与本发明的本质图像分解图。可以看到本发明相比之前的方法，在整体细节和彩恢复上要好很多。图13对上述测试图选取了三块差异最明显的像素区域进行分析。第一列可以看到MSCR方法恢复出的人物非常模糊，细节非常不明显，而Fan的方法彩恢复得有问题，皮肤和衣服不够光滑，本发明在皮肤和衣服等细节方面都恢复得很好。第二列的帆布可以看到，MSCR依旧模糊，有较好的颜，但细节完全丢失，Fan的方法有较好的细节，但彩恢复差，帆布还掺杂着其他的灰特征，而本发明恢复出的帆布彩正常，帆布周围的细节也非常清晰。第三列的墙与上面两列类似，本发明在边缘上更加清晰，而且彩恢复很好。综合可视化效果以及具体的量化指标可以看出，本发明要优于所有对比的算法。

(5)ShapeNet数据集实验结果分析

为了验证本发明提出的方法在不同数据集上的通用性，本发明还对ShapeNet数据集进行了训练和测试。本发明挑选了ShapeNet数据集中的部分子集，拥有100k张图像数据，训练集和测试集的比例是9:1，所用的方法和参数与MPI-Sintel数据集完全一致，具体量化指标如表7所示，ShapeNet的可视效果图如图14所示。可以看到本发明提出的方法在ShapeNet数据集上也取得了最好的效果，而且提升幅度很大，可视化效果与标签非常接近，证明本方法不光在复杂场景有很好的结果，在基于单个对象的数据集依然有很好的效果。

表7ShapeNet数据集各个方法与本发明的量化指标对比表

本文发布于:2024-09-20 15:30:51，感谢您对本站的认可！

本文链接：https://www.17tex.com/tex/3/84740.html

上一篇：一种扬声器振膜的制作方法

下一篇：快捷键配置方法、装置、设备及介质与流程

标签：基于双边特征金字塔网络与多尺度鉴别的本质图像分解方法研究

留言与评论（共有 0 条评论）