视频图像分割研究与实现(二):常见图像和视频分割方法概述

视频图像分割研究与实现(⼆):常见图像和视频分割⽅法概
常见图像和视频分割⽅法概述
图像与视频分割是指按照⼀定的原则将图像或视频序列分为若⼲个特定的、具有独特性质的部分或⼦集,并提取出感兴趣的⽬标,便于更⾼层次的分析和理解,因此图像与视频分割是⽬标特征提取、识别与跟踪的基础。
图像分割⽅法主要包括:
1)、基于边缘的分割⽅法
2)、基于阈值的分割⽅法
3)、基于区域的分割⽅法
4)、基于形态学分⽔岭的分割⽅法
5)、基于聚类的分割⽅法
6)、基于图论的分割⽅法
7)、基于偏微分的分割⽅法
8)、基于融合的分割⽅法
视频分割⽅法主要包括:
9)、基于时域的视频对象分割⽅法
10)、基于运动的视频对象分割⽅法
11)、交互式视频对象分割⽅法
接下来,分别对上⾯提及的图像与视频分割⽅法做简单概述。
⼀、基于边缘的分割⽅法
理论基础:图像的边缘是图像的最基本特征,是图像局部特性不连续(突变)的结果,是不同区域的分界处,因此它是图像分割所依赖的重要特征。
基本思想:通过搜索不同区域之间的边界,来完成图像的分割。享受生命中的惊喜
具体做法:⾸先利⽤合适的边缘检测算⼦(通常⽤求导数⽅法来检测,⼀般采⽤⼀阶导数和⼆阶导数检测边缘)提取出待分割场景不同区域的边界,然后对边界内的像素进⾏连通和标注,从⽽构成分割区域。
歌剧的魔咒常见的边缘检测算⼦有⼀阶微分算⼦和⼆阶微分算⼦。Prewitt、Roberts、Sobel是基于⼀阶导数的边缘检测算⼦,Laplacian和LOG是基于⼆阶导数的边缘检测算⼦,检测⽅法是采⽤⼩区域模板与图像做卷积运算求导数,然后选取合适的阈值提取边缘,这些边缘检测算⼦的区别主要在于所采⽤的模板和元素系数的不同。⽬前最常⽤的边缘检测算⼦是Kirsch算⼦、LOG(Laplacian-Gauss)算⼦和Canny算⼦。
基于边缘的分割⽅法的关键在于边缘检测算⼦的选取。
⼆、基于阈值的分割⽅法
理论基础:⽬标或背景内部的相邻像素间灰度值是相似的,但是不同⽬标或背景上像素灰度差异较⼤,反映在直⽅图上就是不同⽬标或背景对应不同的峰,分割时,选取的阈值应位于直⽅图两个不同峰之间的⾕上,以便将各个峰分开。
基本思想:通过阈值来定义图像中不同⽬标的区域归属。
具体做法:⾸先在图像的灰度取值范围内选择⼀灰度阈值,然后将图像中的各个像素的灰度值与这个阈值相⽐较,并根据⽐较的结果将图像中的像素划分到两类中,若图像中有多个灰度值不同的区域,那么可以选择⼀系列的阈值以便将每⼀个像素分到合适的类别中去。
⽬前有多种阈值选择⽅法,依照阈值的应⽤范围可将阈值分割⽅法分为全局阈值法、局部阈值法和动态阈值法三⼤类。
基于阈值的分割⽅法的关键在于灰度图阈值⼤⼩的选取。
三、基于区域的分割⽅法
理论基础:与“基于阈值的分割⽅法”的理论基础基本⼀致,都是利⽤同⼀物体区域内像素灰度的相似性。
基本思想:将灰度相似的区域合并,把不相似的区域分开,最终形成不同的分割区域。
具体做法:利⽤同⼀物体区域内像素灰度的相似性,将灰度相似的区域合并,把不相似的区域分开,最终形成不同的分割区域。
常见的区域分割⽅法有区域⽣长法、分裂合并法等。
种⼦区域⽣长法是从⼀组代表不同⽣长区域的种⼦像素开始,接下来将种⼦像素邻域⾥符合条件的像素合并到种⼦像素所代表的⽣长区域中,并将新添加的像素作为新的种⼦像素继续合并过程,直到不到符合条件的新像素为⽌。该⽅法的关键是选择合适的初始种⼦像素以及合理的⽣长准则。
小平十章
区域分裂合并法(Gonzalez,2002)的基本思想是⾸先将图像任意分成若⼲互不相交的区域,然后再按照相关准则对这些区域进⾏分裂或者合并从⽽完成分割任务,该⽅法既适⽤于灰度图像分割也适⽤于纹理图像分割。
四、基于形态学分⽔岭的分割⽅法
理论基础:分⽔岭分割(Watershed)法(Meyer,1990)是⼀种基于拓扑理论的数学形态学的分割⽅法。
基本思想:把图像看作是测地学上的拓扑地貌,图像中每⼀点像素的灰度值表⽰该点的海拔⾼度,每⼀个局部极⼩值及其影响区域称为集⽔盆,⽽集⽔盆的边界则形成分⽔岭。
具体做法:该算法的实现可以模拟成洪⽔淹没的过程,图像的最低点⾸先被淹没,然后⽔逐渐淹没整个⼭⾕。当⽔位到达⼀定⾼度的时候将会溢出,这时在⽔溢出的地⽅修建堤坝,重复这个过程直到整个图像上的点全部被淹没,这时所建⽴的⼀系列堤坝就成为分开各个盆地的分⽔岭。
分⽔岭算法对微弱的边缘有着良好的响应,但图像中的噪声会使分⽔岭算法产⽣过分割的现象。
五、基于聚类的分割⽅法
理论基础:图像分割就是图像中的像素进⾏分类。
核农学报基本思想:图像分割就是将图像的像素进⾏分类,于是,很⾃然的将聚类应⽤于图像分割问题中。
具体做法:给出⼀个⽬标函数,使得聚类过程中,⽬标函数达到最⼩为⽌。
⽬前常见的基于聚类的分割⽅法主要有:C-均值聚类分割算法(HCM)、模糊C-均值聚类分割算法(FCM)。FCM聚类是HCM的改进,其区别主要在于:HCM算法对于对象的划分是硬性的,⽽FCM则是⼀种柔性的模糊划分;FCM模糊聚类算法的向量可以同时属于多个聚类,⽤0~1间的⾪属度来确定每个对象属于各个类的程度,⽽HCM聚类算法中,⼀个给定的对象只能属于⼀个类。
六、基于图论的分割⽅法
理论基础:图论中⽆向图的最优化问题。
基本思想:将图像映射为带权⽆向图,将像素点当作图的节点,利⽤最⼩剪切准则得到图像的最佳分割,即:把图像分割问题转化为⼀个⽆向图G=(V,E)的最优化问题。
具体做法:⽆向图中的节点表⽰图像中的像素,节点与节点之间的边表⽰像素之间的关系,根据⼀定的规则为每条边赋予⼀个权值,利⽤⼀定的最优化准则使分割结果中区域内的边有较低的权值,区域间的边有较⾼的权值,即区域之间的代价函数最⼩的划分便是该图最优的分割。
基于图论分割的基本原则是使划分成的两个区域(A,B)的内部相似度最⼤,区域(A,B)之间的相似度最⼩,同时应使得划分的区域尽量避免出现歪斜分割。为了能够得到精确的分割结果,设计割集准则⾄关重要,常见的割集准则有Minimum Cut、Average Cut、Normalize Cut、Min-max Cut、Ratio Cut等。
七、基于偏微分的分割⽅法
理论基础:偏微分⽅程在图像分割领域的应⽤。
基本思想:该类⽅法主要指的是活动轮廓模型(active contour model)以及在其基础上发展出来的算法,其基本思想是使⽤连续曲线来表达⽬标边缘,并定义⼀个能量泛函使得其⾃变量包括边缘曲线,因此分割过程就转变为求解能量泛函的最⼩值的过程,⼀般可通过求解函数对应的欧拉(Euler.Lagrange)⽅程来实现,能量达到最⼩时的曲线位置就是⽬标的轮廓所在。
编码的奥秘
具体做法:该模型是⼀种基于能量的图像分割⽅法,其能量函数为基于曲线的内部能量和基于图像数
据外部能量的加权和,通过极⼩化该能量泛函使得待分割⽬标周围的⼀条初始曲线在固有内⼒和图像外⼒的共同作⽤下不断演化,最终收敛到⽬标的边界轮廓。
按照模型中曲线表达形式的不同,活动轮廓模型可以分为两⼤类:参数活动轮廓模型(parametric active contour model)和⼏何活动轮廓模型(geometric active contour model)。
注:活动轮廓模型⼜称为Snakes分割⽅法。
参数活动轮廓模型是基于Lagrange框架,直接以曲线的参数化形式来表达曲线,最具代表性的是由Kasseta1(1987)所提出的Snake模型。该类模型在早期的⽣物图像分割领域得到了成功的应⽤,但其存在着分割结果受初始轮廓的设置影响较⼤以及难以处理曲线拓扑结构变化等缺点,此外其能量泛函只依赖于曲线参数的选择,与物体的⼏何形状⽆关,这也限制了其进⼀步的应⽤。
⼏何活动轮廓模型的曲线运动过程是基于曲线的⼏何度量参数⽽⾮曲线的表达参数,因此可以较好地处理拓扑结构的变化,并可以解决参数活动轮廓模型难以解决的问题。⽽⽔平集(Level Set)⽅法(Osher,1988)的引⼊,则极⼤地推动了⼏何活动轮廓模型的发展,因此⼏何活动轮廓模型⼀般也可被称为⽔平集⽅法。
⼋、基于融合的分割⽅法
理论基础:多特征更能精确地描述⼀个物体的特征。
基本思想:采⽤纹理和灰度两种特征对图像进⾏描述,并通过动态融合的策略⽣成⼀张综合特征图,使之更能准确的反映图像信息,有利于进⾏后续的图像分割过程。
具体做法:第⼀阶段为特征提取部分,⽤纹理和灰度来描述⼀副输⼊图像;第⼆阶段为综合特征图像融合,将不同特征的特征图融合成⼀张综合的特征图;第三阶段为图像分割过程,根据综合特征图进⾏图像分割。
多特征动态融合的图像分割主要是针对⽬标的纹理⽐背景复杂,⽬标的亮度⽐背景⾼这种类型的灰度图像,采⽤纹理和灰度两种特征对图像进⾏描述,并通过动态融合的策略⽣成⼀张综合特征图,使之更能准确的反映图像信息,有利于进⾏后续的图像分割过程。
网络视频服务器软件九、基于时域的视频对象分割⽅法
理论基础:同⼀物体的各部分往往具有⼀致的时间属性。
基本思想:时域分割主要是利⽤视频图像相邻之间的连续性和相关性进⾏分割。
具体做法:⼀种是通过当前帧和背景帧相减来获得差分图像,另外⼀种是利⽤两帧之间或者多帧之间的差来获得差分图像。
基于时域的视频对象分割⽅法主要包括:背景差分法、帧间差分法。
⼗、基于运动的视频对象分割⽅法
理论基础:光流场与参数估计⽅⾯的理论知识。
基本思想:主要是基于光流场等⽅法进⾏运动参数估计,求出符合运动模型的像素区域,进⽽合并区域构成运动对象进⾏视频分割。
具体做法:⾸先求出光流场并进⾏参数估计,接着求出符合运动模型的像素区域,最后合并区域构成运动对象进⾏视频分割。
基于运动的视频对象分割⽅法主要包括:光流法、参数化⽅法。
【补充⼩知识】:当⼈的眼睛与被观察的物体发⽣相对运动时,物体的影像在视⽹膜平⾯上形成⼀系列连续变化的图像,这⼀系列的图像信息不断“流过”视⽹膜,好像是⼀种光的“流”,所以被称为“光流”。光流是基于像素定义的,所有的光流的集合称为光流场。
⼗⼀、交互式视频对象分割⽅法
理论基础:⼈⼯监督与⽤户交互。
基本思想:交互式分割中,⽤户通过图形⽤户界⾯对视频图像进⾏初始分割,然后对后继帧利⽤基于运动和空间的信息进⾏分割。
具体做法:第⼀步是⽤户通过⿏标描绘出视频分割的⼤致轮廓,第⼆步再利⽤视频分割算法进⾏视频分割。
基于交互式视频对象分割⽅法主要包括:按被分割对象的性质进⾏跟踪;基于变化检测的⽅法;基于形态学算法的交互式视频分割⽅法等。在不要求实时性但是对视频边界分割精度要求较⾼的场合,交互式分割法的效果⽐较好。这种⽅法主要⽤于节⽬制作等应⽤,对于实时应⽤场合如视频会议则⽆能为⼒。
以上是⼤多数常见图像和视频分割⽅法的⼤致概述,具体的理论分析和实现将在后续博⽂中⼀⼀“亮相”。

本文发布于:2024-09-23 02:16:26,感谢您对本站的认可!

本文链接:https://www.17tex.com/xueshu/75185.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:分割   图像   区域   视频   像素
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议