利用网络图像增强行为识别

收稿日期:2018-01-20 修回日期:2018-05-24 网络出版时间:2018-09-21基金项目：安徽省自然科学基金(1508085MF 120)

作者简介：闻　号(1991-)，男，硕士，研究方向为网络数据在行为识别上的应用㊁机器学习㊁迁移学习㊂网络出版地址:http ://knski /kcms /detail /61.1450.TP.20180920.1536.028.html

利用网络图像增强行为识别

闻　号

(安徽大学电子信息工程学院，安徽合肥230601)

摘　要：鉴于商业视觉搜索引擎的日益成熟，网络数据可能是下一个扩大视觉识别的重要数据源㊂通过观察发现，动作名称查询到的网络图像具有歧视性的动作场景㊂网络图像的歧视性信息和视频的时间信息之间有相互补充的优势㊂在此基础上提出一种利用大量的网络图像来增强行为识别的方法㊂具体框架是：提取行为视频的密集轨迹特征，并与网络图像特征相结合后放入支持向量机中训练分类㊂该方法是一个跨域学习问题，为了有效地利用网络图像特征，引入了跨域字典学习算法来处理网络图像，以解决网络图像域和视频域之间存在的域差异问题㊂由于网络图像可以轻松地在网络上获取，所以该方法几乎零成本地增强行为识别㊂在KTH 和YouTube 数据集上的实验结果表明，该方法有效提高了人体行为识别的准确率㊂

关键词：网络学习；迁移学习；行为识别；密集轨迹；字典学习中图分类号:TP 39 　文献标识码:A 　文章编号:1673-629X (2019)01-0031-04

doi :10.3969/j.issn.1673-629X.2019.01.007

Improvement of Action Recognition Using Web Images

WEN Hao

(School of Electronics and Information Engineering ,Anhui University ,Hefei 230601,China )

Abstract :In view of the growing maturity of commercial visual search engines ,Web data may be the next important data source to ex⁃pand visual recognition.It is observed that the Web images queried by the action name is discriminatory to the action scene.Clearly ,there are complementary benefits between the temporal information available in videos and the discriminatory scenes portrayed in images.On the basis ,we propose an algorithm which can enhance action recognition by using a large number of Web images.We extract the dense trajectory feature of behavior video and put it into support vector machine for training classification in combination with Web image feature.This algorithm is a cross -domain learning problem.In order to effectively use Web image features ,we intr

oduce a cross -domain dictionary learning algorithm to deal with Web images for solving the domain differences between Web image domain and video domain.Because the Web images can be easily obtained on the network ,it can enhance action recognition with at almost zero cost.Experiment shows that the proposed algorithm can improve the accuracy of human action recognition effectively on KTH and YouTube datasets.Key words :Web learning ;transfer learning ;action recognition ;dense trajectory ;dictionary learning

0　引　言

随着智能手机㊁动作相机㊁监控摄像机等的普及，网络上视频的数量已经超出了人们观看所有视频的能力㊂由于行为识别问题在视频监控㊁人机交互和视频内容分析等方面具有很大的潜力，视频中人体行为的识别受到了广泛关注㊂例如,Wang 等[1]提出了一种改进的密集轨迹算法㊂文献[2]使用了在做小码书情况下的多时空特征㊂文献[3]使用多种特征来描述行为的整体分布和局部变化㊂文献[4]使用能量函数对运动区域进行高斯取样，使样本点分布于运动剧烈的

区域㊂虽然这些方法已经在目标检测和跟踪方面取得了惊人的进展，但是从视频中检测出更多的抽象动作和事件仍然具有挑战性㊂

在训练人体行为模型时需要大量的训练数据来避免过度拟合，然而数据获取需要耗费大量人力物力㊂

相比之下，从网络上收集和处理数据要便宜得多㊂而且观察到，通过动作名称查询的Web 图像通常描述一个歧视性的动作场景，以此可以捕捉并突出显示视频中感兴趣的动作和事件㊂所以这是一个证明网络图像可以增强行为识别的有力证据㊂显然在视频中提供的

第29卷　第1期2019年1月计算机技术与发展COMPUTER TECHNOLOGY AND DEVELOPMENT

Vol.29　No.1

Jan.　2019图像识别

时间信息和图像中描绘的歧视性场景间存在互补优势㊂

提出的方法与Web learning (网络学习)息息相关㊂典型的工作有文献[5-6]，从这些研究内容可以看出，网络数据域与目标域之间的域差异是个热点问题㊂域差异问题是一个跨域学习问题，也是一个迁移

学习问题㊂因此，试图通过跨域字典学习的方法，同时对网络图像域和目标域进行字典学习来解决这个问题㊂

1　方法实现

设计的人体行为识别算法流程如图1所示㊂

图1　

算法流程

获取网络图像作为目标域

获取数据集中每个类

视频的关键帧图像作为源域

㊂

使用

SIFT

算法提取的目标域和源域图像的底层特征描述子

分别作为跨域字典学习算法的输入

同时进行字典学习

，进而获得网络图像的特征表示；使用文献[1]提出的密集轨迹算法提取数据集中视频的密集轨迹特征，再通过字典学习㊁词袋模型编码得到视频中人体行为的特征表示㊂将两组特征进行长拼接，把拼接后的特征向量放入支持向量机中进行训练分类㊂实验选择的数据集分别是KTH [7]和YouTube [8]㊂

1.1　获取训练集图像

本节列出了收集和组织网络图像的步骤㊂借助Google Image API ，可以轻松地以几乎零成本获取所需的动作图像㊂使用每个类别名称作为关键字在Google 图片搜索服务中下载检索到的图像㊂使用照片过滤器删除不太可能出现在视频中的人造图像㊂收集了大约15000张网络图像(如图2所示)分别用在KTH 数据库中的六种人体行为和YouTube 数据库的十一种人体行为的识别实验中㊂

图2　网络图片(从左向右分别表示骑车㊁骑马㊁高尔夫㊁荡秋千㊁颠球)

1.2　跨域字典学习

首先引入一个基本问题，设Y t 表示L 个n 维目标域输入信号,Y s 表示M 个辅助域输入信号，即Y t =(y 1t ,y 2t , ,y L t )∈R n ×l ,Y s =(y 1s ,y 2s , ,y M s )∈R

n ×m

，可以通过式1的优化问题来学习字典对D t ,D s ㊂

〈D t ,D s ,X t ,X s 〉=arg min D t ,D s ,X t ,X s

‖Y t -D t X t ‖22+ ‖Y s -D s X s ‖2

+Φ([X t ,X s ])

(1)

∀i ,[‖X i t ‖0,‖X i s ‖0]≤T

其中,D t 表示目标域字典;X t =(X 1t ,X 2t , ,X L

t )

表示目标域的稀疏系数;D s 表示辅助域字典;X s =

㊃23㊃　计算机技术与发展第29卷

(X 1s ,X 2s , ,X M

s )表示辅助域的稀疏系数;Φ()表示相

同类别的特征向量描述不同数据集之间的欧氏距离，即两个相同动作在两个不同数据集中存在的差异性㊂

根据文献[9]中提出的一个策略：将不同视角拍摄的同一个行为投影到跨视角字典对时，鼓励其享有相同的特征表示㊂受该策略的启发，将Φ([X t ,X s ])重写为‖X T t -AX T s ‖22,‖X T t -AX T s ‖22的值越小，在相

似点之间共享相同标签的可能性越大㊂

根据Zhu Fan 等[10]提出的方法，对式1转换:

〈D t ,D s ,X t ,A ,W 〉=

arg

min

D t ,D s ,X t ,A ,W

Y t Y s A T αQ βæèçççççöø÷÷÷÷÷H -D t D s αv βæ

çççççç

÷÷÷÷W X t 2

(2)

∀i ,‖X i t ‖0≤T

其中,W 表示分类器f (x )的系数;H 表示目标域类标签;v 表示线性变换矩阵;α和β作为权值系数分

别表示‖Q -vX t ‖22和‖H -WX t ‖2

2的相对贡献㊂

也可以把式2转换为最简单的形式，上式因子可

简写为:

Y =(Y T i ,(Y s A T )T ,αQ T ,βH T

)

D =(D T

,D T s

,αv T

,βW T

)

{

(3)

优化问题目标函数简化为:〈D t ,X t 〉=arg min D t ,X t

‖Y -DX t ‖

∀i ,‖X i t ‖0≤T

(4)

从而优化问题即可使用K -SVD [11]算法通过迭代更新的方式求解㊂

1.3　词袋模型

根据文献[1]提出的密集轨迹算法获取行为视频的底层特征描述子㊂为了评估文中方法的性能，使用标准的词袋模型方法，为底层特征描述子构造了一个字典㊂根据经验将字典的可视化词语个数固定为

4000，使用k -means 方法随机选择100000训练特征进行聚类㊂初始化k -means 8次，以此提高精度，保证最低的误差结果㊂特征描述子会根据欧氏距离被分配到它们最接近的词汇，由此产生的视觉词汇直方图被用作视频中人体行为的特征表示㊂

2　实　验

2.1　数据集

KTH 数据集包含六种人类运动行为：散步㊁慢走㊁跑㊁拳击㊁挥手和鼓掌(如图3所示)㊂每一种行为由

25个人展示数次，分别拍摄在四个不同场景下㊂数据库总共有598个视频样本㊂根据文献[7]中的实验设置把样本中(2,3,5,6,7,8,9,10,22)9个人分为测试集，剩下的16人为训练集㊂

YouTube 数据集包含11种人类行为：骑车㊁跳水㊁高尔夫㊁颠球㊁蹦床㊁骑马㊁投篮㊁排球㊁秋千㊁网球和遛狗(如图4所示)㊂2.2　实验结果分析

表1和表2分别列出了在KTH 数据集和You⁃Tube 数据集中的实验结果㊂可以看出，文中方法比密集轨迹算法表现得更出，在KTH

数据集中准确率提高了

在YouTube 数据集中提高了2.2%㊂在具有背景复杂㊁拍摄时摄像机移动等复杂视频的YouTube 数据集中，文中方法明显优于其他方法㊂实验结果表明，该方法可以有效地增强视频中的动作识别能力㊂图3　

KTH

数据库视频实例

图4　YouTube 数据库视频实例

㊃

33㊃　第1期闻　号：利用网络图像增强行为识别

表1　在KTH数据集中的实验结果

方法准确率/%

文献[7]91.8

文献[12]93.3

密集轨迹93.1

文中方法93.9

表2　在YouTube数据集中的实验结果

方法准确率/%

文献[13]71.2

文献[14]75.2

密集轨迹83.3

文中方法85.5

在对网络图像进行跨域字典学习时引入了视频关键帧，所以不确定视频关键帧有没有对结果产生影响㊂对此进行了一组对比实验，如表3㊁表4所示㊂第一个是只使用视频作为输入；第二个是视频与视频关键帧作为输入；第三个是视频加上视频关键帧和网络图片作为输入㊂实验结果表明，文中方法有效增强了密集轨迹算法对人体行为的识别能力㊂

表3　使用不同的训练数据在KTH

数据集中的实验结果

方法准确率/%

视频92.7

视频+关键帧92.7

视频+关键帧+Web images93.9

表4　使用不同的训练数据在

YouTube数据集中的实验结果

方法准确率/%

视频83.3

视频+关键帧83.6

视频+关键帧+Web images85.5

3摇结束语

通过对网络数据学习理论的研究，提出了一种利用大量的网络数据作为辅助数据来增强密集轨迹算法对人体行为的识别能力的方法㊂实验结果表明，该方法有效提高了密集轨迹算法对人体行为的识别能力㊂特别对含有质量低㊁场景较复杂等复杂视频的You⁃Tube数据库，其表现更突出㊂下一步的工作是解决图片的收集问题，不再是通过人为筛选图片，而是通过训练的人体行为模型自动筛选图片，这样会大大提高图片获取的速度和数量㊂

参考文献:

[1]　WANG Heng,KLASER A,SCHMID C,et al.Action recog⁃

nition by dense trajectories[C]//IEEE conference on com⁃

puter vision and pattern recognition.Providence,RI,USA: IEEE,2011:3169-3176.

[2]　宋健明，张　桦，高　赞，等.基于多时空特征的人体动作

识别算法[J].光电子㊃激光,2014,25(10):2009-2017. [3]　秦华标，张亚宁，蔡静静.基于复合时空特征的人体行为识

别方法[J].计算机辅助设计与图形学学报,2014,26(8): 1320-1325.

[4]　刘雨娇，范　勇，高　琳，等.基于时空深度特征的人体行

为识别算法[J].计算机工程,2015,41(5):259-263. [5]　GAN Chuang,YAO Ting,YANG Kuiyuan,et al.You lead,

we exceed:labor-free video concept learning by jointly ex⁃

ploiting web videos and images[C]//IEEE conference on computer vision and pattern recognition.Las Vegas,NV, USA:IEEE,2016:923-932.

[6]　GAN Chuang,SUN Chen,DUAN Lixin,et al.Webly-super⁃

vised video recognition by mutually voting for relevant web images and web video frames[C]//European conference on computer vision.[s.l.]:Springer International Publishing, 2016:849-866.

[7]　LAPTEV I,MARSZALEK M,SCHMID C,et al.Learning

realistic human actions from movies[C]//IEEE conference on computer vision and pattern recognition.Anchorage,AK, USA:IEEE,2008:1-8.

[8]　GORELICK L,BLANK M,SHECHTMAN E,et al.Action

as space-time shapes[J].IEEE Transactions on Pattern A⁃

nalysis&Machine Intelligence,2005,29(12):2247-2253.

[9]　ZHENG Jingjing,JIANG Zhuolin,PHILLIPS P J,et al.Cross

-view action recognition via a transferable dictionary pair

[C]//BMVC.[s.l.]:[s.n.],2012:1-11.

[10]ZHU Fan,SHAO Ling.Weakly-supervised cross-domain

dictionary learning for visual recognition[J].International Journal of Computer Vision,2014,109(1-2):42-59. [11]AHARON M,ELAD M,K-SVD:an

algorithm for designing overcomplete dictionaries for sparse representation[J].IEEE Transactions on Signal Processing, 2006,54(11):4311-4322.

[12]YUAN Junsong,LIU Zicheng,WU Ying.Discriminative sub⁃

volume search for efficient action detection[C]//IEEE con⁃

ference on computer vision and pattern recognition.Miami, FL,USA:IEEE,2009:2442-2449.

[13]LIU Jingen,LUO Jiebo,SHAH M.Recognizing realistic ac⁃

tions from videos in the wild[C]//IEEE conference on com⁃

puter vision and pattern recognition.Miami,FL,USA:IEEE, 2009:1996-2003.

[14]IKIZLERCINBIS N,SCLAROFF S.Object,scene and ac⁃

tions:combining multiple features for human action recogni⁃

tion[C]//European conference on computer vision.[s.l.]: [s.n.],2010:494-507.

㊃43㊃　计算机技术与发展第29卷

本文发布于:2024-09-21 11:07:39，感谢您对本站的认可！

本文链接：https://www.17tex.com/tex/3/372086.html

上一篇：基于图像处理技术的电梯门控制系统

下一篇：光电图像处理大作业

标签：行为视频网络

留言与评论（共有 0 条评论）