基于区域特征融合的RGBD显著目标检测

杜杰;吴谨;朱磊

数字大学城【摘要】为了对各类自然场景中的显著目标进行检测,本文提出了一种将图像的深度信息引入区域显著性计算的方法,用于目标检测.首先对图像进行多尺度分割得到若干区域,然后对区域多类特征学习构建回归随机森林,采用监督学习的方法赋予每个区域特征显著值,最后采用最小二乘法对多尺度的显著值融合,得到最终的显著图.实验结果表明,本文算法能较准确地定位RGBD图像库中每幅图的显著目标.

【期刊名称】《液晶与显示》

【年(卷),期】2016(031)001

【总页数】7页(P117-123)

【关键词】目标检测;深度信息;区域特征;随机森林;监督学习

【作者】杜杰;吴谨;朱磊

【作者单位】武汉科技大学信息科学与工程学院,湖北武汉430081;武汉科技大学信息科学与工程学院,湖北武汉430081;武汉科技大学信息科学与工程学院,湖北武汉430081

【正文语种】中文若男和她的儿女们

【中图分类】TP394.1;TH691.9

视觉注意是人类处理周围环境信息的一种内部特征，该特征能将有限的处理资源快速而准确地分配到显著的视觉区域上。显著目标检测是计算机模仿人类视觉注意机制，提取出人类对图像中感兴趣的目标区域，在目标检测与识别，图像压缩，图像检索，图像分割等方面，有着广泛的应用[1-2]。

目前模拟视觉注意机制的计算模型主要分为两类：一类是快速的、由数据驱动的自底向上的模型，如Itti在1998年提出的经典Itti模型[3]，建立了颜、亮度、方向3个特征通道，利用中心-邻域对比度算子得到多个尺度的特征图，再将这些图归一化到一个尺度，进行线性叠加得到一幅显著图。文献[4]提出了一种基于全局对比度的显著目标检测方法，通过比较每个区域与图中所有其他的区域来计算全局对比度算子从而得到显著图。文献[5]提出了一

种基于区域对比度的方法，将颜和空间分布特征引入到区域显著值的计算中。另一类则是慢速的、由先验知识指导的自顶向下的模型,其中比较有代表性的是基于辨别显著性的检测方法，将提取的像素块特征聚类作为先验知识来模拟人眼对不同物体的辨别能力[6]。可见现有的许多方法是提取区域的颜、纹理等低层特征，并由此获得区域间的对比度。在此基础上利用“中心-邻域对比度”原则来计算每个区域的显著值。但是基于局部对比度的方法对于信号的高频部分或噪声过于敏感，而基于全局对比度的方法则对于包含相似前景和背景的图像，检测效果不够理想。针对此不足，DRFI算法[7]则是用对比度向量来表示区域的显著特征，并引入了一个新的区域特征向量来表示图像的背景。

深度信息在人类视觉系统中同样起着重要的作用，它反映了物体和观察者之间的距离，被用于图像显著性检测。Zhang等[8]设计了一种基于多种感知刺激的立体视觉注意算法，用来提取3D视频中的显著区域。Charmaret等[9]提出了一种提取感兴趣区域的算法，用于自适应的3D图像显示。以上的算法都是直接将深度图和2D显著图线性加权，得到最终的显著图。而另一种3D显著性检测的方法，是通过将深度显著图融入传统的2D显著图来实现。Lang等[10]通过在2D和3D图像中进行眼动实验，用以深度显著性分析，从而提出了一种3D显著性检测模型。Ciptadi等[11]用颜和深度特征设计了一个3D显著性检测模型，应用

于图像分割领域。上述两种方法均是自行定义各显著图的融合权值，缺点是针对不同背景图像中的显著目标，检测结果不够理想。

本文在DRFI算法的基础上，将图像的深度信息引入区域的显著性计算。首先对图像进行多尺度的分割得到若干区域；然后对区域多类特征学习构建回归随机森林分类器，采用监督学习的方法赋予每个区域特征显著值；最后用最小二乘法融合这些多尺度的显著值。

本文的算法是在DRFI算法框架的基础上，将图像的深度信息引入区域显著性计算中。算法包括3个主要步骤：多尺度图像分割，区域显著性计算，多尺度融合。算法框架如图1所示。

首先使用基于图的方法[12]对原RGB图I，进行多尺度图像分割。定义无向图，顶点vi∈V，两个相邻区域的公共边(vi,vj)∈E。该公共边有一个非负的权值，用来衡量这两个区域的不相似性。定义一个区域R⊆V的内部差异性为为该区域最小生成树MST(R,E)的最大权值：

定义两个区域R1,R2⊆V之间的差异性为这两个区域公共边的最小权值：win98 ghost

定义两个区域的最小内部差异性MInt：

其中表示区域R的大小，k是一个常数。阈值函数τ控制两个区域间的内部差异性。当时，这两个区域就可以合并成一个区域。

定义数组S={S1,S2,...,Sm}表示一组m尺度的分割图。每一个分割图Sm是由I分割而成，它包含Km小区域。S1是经过最精确分割得到的，它包含最多的区域，而Sm则是经过最粗略分割得到，它包含最少数量的区域。定义,...,}表示分割图S1中所有的区域。其它的分割图{S2,...,Sm}是基于S1计算出来的，S2是通过合并S1中的区域得到，以此类推，Sm则是通过合并Sm-1中的区域得到的。

分割尺度增多，检测效果会提高，但所需时间亦会增加。综合考虑时间消耗和检测效果，取m=3。

本文引入了图像的区域深度信息，用3种类型的特征来描述每个区域的显著性：区域对比度，区域属性，区域背景对比度。前两种是区域的局部对比度，而背景对比度则是区域的全局对比度。

3.1　区域对比度描述子

斑蝥酸钠首先为每个区域定义一个特征向量v，包括多维的颜、纹理和深度特征。对于一个区域R∈Sm，分别用vR和vN表示该区域及其邻域的特征向量，则R的区域对比度描述子为diff(vR,vN)，如表1所示。特征向量中直方图特征之间计算χ距离:

其中b代表直方图的维度。而其它特征之间计算绝对差值:

其中d代表向量x1和x2中元素的个数。表1定义栏中，ci表示区域对比度每一维的特征。

3.2　区域属性描述子

除了区域对比度，区域的固有属性也需被考虑，它包含形状和几何特征。区域属性描述子如表2所示，pi表示区域属性每一维的特征。形状特征包含了一个区域颜和纹理的分布，它描述了显著目标和背景的一般属性。几何特征则包含了一个区域的大小和位置，它描述了显著目标和背景的空间分布。

3.3　区域背景对比度描述子

图像的背景判定依赖于整幅图的信息。拥有相似形状特征的区域，在一幅图中可能属于背

景，而在其它图中则可能属于显著目标。因此，仅仅使用区域属性特征来判定一个区域属于背景或是显著目标是不够的。

本文提取“背景”，并计算其中每个区域的背景描述子作为参考。图像4条边15像素宽的区域被定义为“背景”区域B，用vB表示背景区域的特征向量。按照“区域对比度描述子”中的特征以及计算方式，计算R的区域背景对比度描述子diff(vR,vB)，如表1所示，bi表示背景对比度每一维的特征。

通过区域显著值的计算，每个区域∈Sm都有了一个显著值。对于每一个尺度的分割图，将其中每个区域的显著值都赋予这个区域所包含的所有像素点。这样就能生成m张显著图{Α1,Α2,...,Αm}，然后将它们用函数Α=g(Α1,Α2,...,Αm)融合到一起，得到最终的显著图Α。

4.1　随机森林

随机森林是由LeoBreiman在2001年提出来的，它利用重抽样方法从原始样本中抽取多个样本，对每个样本进行决策树建模，然后组合多棵决策树的预测，通过投票得出最终的预测结果。

定义Ip∈Rω×ω×3是以像素点p为中心，大小为ω×ω的图像I中的一个块，xp为块Ip的一个特征向量，决策树，被Θ参数化，它将特征xp分入二元标记中。随机森林是由T棵这样的决策树构成，每一棵树都有一个独立的参数Θι。i决策树叶子节点上的后验分布为，随机森林的输出就是最后的分类标记：

在训练的过程中，每一棵决策树都是从训练数据集随机采样出的子集中，被独立构建的。对于每棵树上的决策节点，特征向量xp中的每一个元素都是从二元测试中被选取的。带有参数θ的分割函数被定义为：

这个函数将当前节点的训练数据集分为两个子集，分给它的两个子节点。在当前分割测试中，到参数θ来最大化信息增益：

其中:Sj表示节点j上的训练数据集，表示训练数据集分配到左边的子节点，而表示训练数据集被分配到右边的子节点，表示数据集的大小，表示yp的香农熵或基尼不纯度[13]。通过反复分裂一棵树的节点，直到达到叶子节点中训练数据的最小量或者一棵树深度的最大值。每一棵树都要在输入的图像块中被反复评估，直到到达树的一个叶节点。

随机森林的优势在于：其一能够处理高维数据，且不需选择特征，直接将区域的多维特征输入随机森林训练即可；其二能够在训练完成后给出哪些特征比较重要。

随机森林中某个特征x的重要性的计算方法如下：首先对于随机森林中的每一棵决策树，使用相应的袋外数据OOB来计算它的袋外数据误差，记为errOOB1；然后对袋外数据所有样本的特征x随机地加入干扰噪声，这样就能改变样本在特征x处的值，再次计算它的袋外数据误差，记为errOOB2；最后假设随机森林中有N棵决策树，计算特征x的重要性：

若某个特征加入噪声之后，袋外的准确率大幅度降低，则说明这个特征对样本的分类结果影响很大。

决策树越多，训练效果越好，但是所耗时间也越长。综合考虑时间消耗和训练效果，取N=200。

影响因子4.2　区域显著性回归器学习

区域显著性的估计量是通过学习一组训练样本获得。在每个尺度上，对分割训练图像而获得的每一个区域R，在人工标记结果图上寻对应区域G。若G中所含像素的标记有80%属

于前景(背景)，则R标记为前景(背景)，R的标记值a被设为1(0)。训练样本中包含一组已标记的区域R={R1,R2,...,RQ}，和对应的标记值Α={a1,a2,...,aQ}。

如前文所述，每个区域都被一个特征向量x描述，向量中包含3种类型的描述子。利用标记的训练样本Ψ={x1,x2,...,xQ}和它们的标记值Α={a1,a2,...,aQ}，通过对区域的多类特征的学习来构建标准的回归随机森林，得到区域显著性回归器f，然后在实际检测中利用该分类器对每个区域进行回归分析。该回归器能够自行组合特征，并发现其中较为重要和显著的特征。

4.3　多尺度显著图融合学习

设每个训练图像得到的多尺度显著图为{Α1,Α2,...,Αm}，对应的人工标记图为Τ。算法需要通过学习得到一个函数g(Α1,Α2,...,Αm)来将它们融合，得到最终的显著图Α。这个问题在现有的算法中已经有解决的途径，例如条件随机域模型[14]。本文是用最小二乘的方式，训练多尺度线性融合权重ωm：

那么最终的显著图Α为：

与现有许多算法自行定义融合权值不同，本文是采用学习的方法得到ωm。通过最小二乘法，学习得到与人工标记图差异较小的显著图，赋予它较大的权值，反之与人工标记图差异较大的显著图，则赋予它较小的权值。这样，融合以后的显著图就会更加接近人工标记图，从而满足人类的视觉特性。

寻圣诞老人RGBD图像库[15]包含1000幅具有深度数据的图片，这些图片是用Kinect设备从不同的场景下拍摄的，包含有办公室、超市、校园、街道等, 比起其他现有的3D图像库，该库数据量大且类型丰富。另外，人工标记结果的生成包括两个步骤：首先由多位测试者对图像中显著的目标进行框选，然后再通过Photoshop等图像编辑软件在框内对目标进行精确的分割。

本文发布于:2024-09-21 04:19:12，感谢您对本站的认可！

本文链接：https://www.17tex.com/xueshu/204468.html

上一篇：数学中的小问题大定理丛书书目

下一篇：美团推荐算法：机器学习重排序模型

标签：区域特征图像

留言与评论（共有 0 条评论）