基于深度学习的动态手势数据集及论文整理

基于深度学习的动态⼿势数据集及论⽂整理

前⾔

⽬前研究的课题是基于深度学习的⼿势识别，读了该领域的⼀些论⽂，也了解了⼀些关于动作识别和⼿势识别的数据集，现整理下来，希望可以帮助刚开始接触该⽅向的研究⽣，尽快了解前⼈所做的贡献。以下提到的论⽂不涉及姿态估计等领域，都是基于RGB图像、深度图像等模态进⾏⼿势等动作的识别。

数据集

包含了常⽤的动作识别数据集和⼿势识别数据集。

动作识别数据集

UCF101

从youtube收集⽽得，共包含101类动作。其中每类动作由25个⼈做动作，每⼈做4-7组，共13320个视频，分辨率为320*240，共

6.5G。UCF101在动作的采集上具有⾮常⼤的多样性，包括相机运⾏、外观变化、姿态变化、物体⽐例变化、背景变化、光纤变化

等。101类动作可以分为5类：⼈和物体交互，只有肢体动作，⼈与⼈交互，玩⾳乐器材，各类运动。

HMDB51钌炭催化剂

HMDB51包含51类动作，共有6849个视频，每个动作⾄少包含51个视频，分辨率320*240，来⾃于YouTube，google视频等，共2G。动作主要包括⼀般⾯部动作，⾯部操作与对象操作，⼀般的⾝体动作，与对象交互动作，⼈体动作。

Sport-1M

sports – 1M的数据集包含了100万个YouTube视频，其中标注了487个类。这些类按照⼿⼯管理的分类排列，其中包含动作⼤体分为⽔上运动、团队运动、冬季运动、球类、战⽃运动、动物运动等。

Kinects

Kinetics数据集包含了400类⼈体⾏为，每⼀类⾄少有400个视频，这些视频全都来源于YouTube，每个视频时长⼤约为10s，⼀共有30多万个视频。视频中的⾏为可以被分为三类：单⼀的⼈体动作、⼈

与⼈的交互、⼈与物的交互。这些⾏为都被分的⾮常细，有些需要通过时间推理来区分（例如不同类型的游泳），还有⼀些动作需要通过物体的视觉特征来区分（例如弹奏不同的乐器）。

ActivityNet

Google在2016年出品的数据集，数据的来源主要是Youtube，带有很强的深度学习背景，数据量很⼤，需要通过官⽅提供的程序⾃⾏下载，官⽹提供的数据仅为数据的Youtube地址。由于数据主要来源于Youtube，所以这个数据集相对更复杂，更适合⽬标检测。但是通过动作检测提取后的数据更适合动作识别数据集。

NTU-RGBD

总共⼤约有56000个视频，60类动作，50类是单⼈动作，10类是双⼈交互动作。每个⼈捕捉了25个关节点。数据集有两种分割⽅式，cross subject和cross view，这也是⽬前最⼤最全的⼀个数据集。很多动作识别论⽂都是以这个数据集作为检测标准。包含四种类型的数据：RGB videos、depth map sequences、3D skeletal data、infrared videos。

KTH

经典的动作识别数据集，也是⽬前⽂章中使⽤率较⾼的数据集之⼀。数据集⼀共包含2391组数据，其

中包含6个动作（散步、慢跑、跑步、拳击、挥⼿、拍⼿），每个动作由25个⼈物在4个不同的场景下完成，因此⼀共有600个视频序列，每个视频⼜可以分割成4个⼦序列。KTH数据集的动作⽐较规范，同时采⽤固定镜头，数量对于⽬前的模型训练来说也⽐较丰富，所以对应单纯进⾏动作识别的任务可以说是⾮常好⽤的数据集了。

动态⼿势数据集

ChaLearn Gesture Challenge_1：CGD

数据库的英⽂名称为ChaLearn Gesture Data，简称CGD，或者CGD2011，是ChaLearn Gesture Challenge挑战赛多⽤的⼀个数据库，数据库都是视频格式，分为深度图像视频和彩⾊图像视频，因为在录制视频的时候是⽤Kinect录制的。由此可见，这些⼿势识别既可以能有深度信息⼜可以利⽤⾊彩信息，共有30个左右的⼿势单词，也就是说有30个基本的⼿势动作。视频数据分为500个batch，每个batch含有94个视频，视频分为2种，每种各47个。

Chalearn LAP IsoGD

Chalearn LAP IsoGD数据集源⾃Chalearn⼿势数据集(CGD)。因为CGD数据集总共有超过54000个⼿势，这些⼿势被分成了⼦任务。为了重⽤CGD数据集，我们最终获得249个⼿势标签，并⼿动标记时

间分割，从CGD数据集中获取连续视频中每个⼿势的开始帧和结束帧。这个数据库包括47933个RGB-D ⼿势视频(约9G)。每个RGB-D视频只代表⼀个⼿势，由21个不同⼈执⾏的249种⼿势。

Chalearn LAP ConGD

该数据集与ChaLearn LAP IsoGD数据集⼀样，都来源于CGD数据集，与IsoGD不同的是，该数据库包括22535 RGB-D⼿势视频(约4G)中的47933个RGB-D⼿势，每个RGB-D视频可能代表⼀个或多个⼿势，由21个不同⼈执⾏的249种⼿势。可⽤于时序分类任务。

Montalbano

ChaLearn Looking At People (LAP) 2014 Challeng包括三个部分:⼈体姿态估计、⼈体动作/交互识别和⼿势识别，其中⼿势识别挑战的数据集，称为Montalbano数据集。该数据集是多模态的，因为⼿势是⽤带有深度传感器的微软Kinect捕获的。每个数据⽂件包含⼀个RGB-Depth图像序列和⼀个由微软Kinect API提供的⾻骼姿态流。⼿势词汇包含20个意⼤利⽂化/⼈类学符号。⼿势没有分段，这意味着序列通常包含⼏个⼿势。

EGO

EGO⼿势数据集是⽤于以第⼀视⾓采集的⼿势识别的多模态⼤规模数据集。该数据集不仅为分割数据

中的⼿势分类提供了测试平台，⽽且还为连续数据中的⼿势检测提供了测试平台。数据集共包含83类静态或动态⼿势。

Cambridge hand gesture database

该数据集提供了9个⼿势类别的900个RGB图像序列，9类⼿势涵盖了3种⼿部形状和3种运动趋势。其中每⼀类包含5种不同的光照情况和10次的随意运动。数据集的⽬标任务是同时区分预定义的⼿部形状和不同的运动。

20BN-jester

20BN-JESTER数据集是⼤量带有密集标签的视频剪辑的集合，这些视频剪辑显⽰了⼈类在笔记本电脑摄像头或⽹络摄像头前执⾏预先定义的⼿势。该数据集由⼤量的⼈⼯作者创建，它允许训练健壮的机器学习模型来识别⼈的⼿势。此视频数据是作为⼀个⼤型TGZ存档提供的，分为最⼤1GB的22个部分，总下载⼤⼩为22.8 GB。档案库包含⽬录，编号从1到148092。每个⽬录对应⼀个视频，并包含⾼度为100px和宽度可变的JPG图像，JPG图像以每秒12帧的速度从原始视频中提取。JPG的⽂件名始于00001.jpg。JPG的数量随原始视频的长度⽽变化。其中训练集为118562个视频，验证集为14787个视频，测试集为14743个视频，总共27类标签。

NVIDIA dynamic hand gesture

它应⽤的场景是车内⼿势检测，总共25类⼿势，每⼀种⼿势类型都⽤于⼈机界⾯，并由多个传感器和视点记录。在室内的汽车模拟器中，在明亮和昏暗的⼈⼯照明下，捕获了连续的数据流，共包含1532个动态⼿势，共有20名受试者参与了数据收集。

SHREC 2017

数据集包含14个⼿势序列，以两种⽅式执⾏：使⽤⼀个⼿指和整个⼿。每个⼿势由28个参与者以两种⽅式进⾏1到10次，总共2800个序列。包含深度图像和⼿部⾻架。

DEVISIGN

该数据集是⼀种汉语⼿语数据库，涵盖了4414个标准汉语⼿语词汇，共包含30个个体(13男17⼥)的331,050个词汇数据。每个词汇数据由RGB、深度和⾻架信息组成。整个数据集可以分为三个⼦集，第⼀个⼦集由26个字母和10个数字组成，第⼆个⼦集由500个⽇常使⽤的词汇表组组成，第三个⼦集是⼀个⼤型词汇集，该数据集包含2000个汉语SL词汇。

论⽂

加固显示器

在论⽂中，将序列标记类任务划分为三类，分别是序列分类、⽚段分类、时序分类。对于动态⼿势识别任务，可以简单划分为离线⼿势识别和在线⼿势识别，前者更像是序列分类任务，对于给定的⼀段

视频序列，该序列仅包含⼀个动作或者⼿势，然后通过算法得到该序列属于哪⼀种动作，这在序列标记任务中属于⽐较容易的，⽬前⼤多数视频理解类任务所⽤的数据都是预分割好的仅包含⼀种动作的视频⽚段，⽤于训练⾃⼰的模型。⽽在线⼿势识别属于时序分类任务，对于连续的视频流，可能包含多种动作或⼿势，并且动作或⼿势发⽣的时间位置不确定，可以利⽤的信息仅有过去和现在，这⼤⼤增加了识别的难度，⽬前对于此类任务还没有很好的解决⽅案。

2021

. Yixin Chen; Qing Li; Deqian Kong; Yik Lun Kei; Song-Chun Zhu; Tao Gao; Yixin Zhu; Siyuan Huang . Hezhen Hu; Weichao Zhao; Wengang Zhou; Yuechen Wang; Houqiang Li

. Benjia Zhou, Yunan Li, Jun Wan

. Hao Zhou, Wengang Zhou, Yun Zhou, Houqiang Li

2020

. Pu, Junfu, Wengang Zhou, Hezhen Hu, and Houqiang Li

. Naveen Madapana, Juan Wachs

. Quader, Niamul, Juwei Lu, Peng Dai, and Wei Li

. Hao Zhou, Wengang Zhou, Yun Zhou, Houqiang Li

. Yue Zhao, Yuanjun Xiong, Limin Wang

. Feichtenhofer, Christoph调漆设备

2019

. Wang, L, et al

. Ji Lin, Chuang Gan and S. Han

. Christoph Feichtenhofer, Haoqi Fan, Jitendra Malik, Kaiming He

. Okan Kopuklu, Ahmet Gunduz, Neslihan Kose, Gerhard Rigoll

. Hao Tang, Hong Liu, Wei Xiao, Nicu Sebe

. Mahdi Abavisani, Hamid Reza Vaezi Joze, Vishal M. Patel

Junfu Pu, Wengang Zhou, Houqiang Li

2018

. Nunez, J.C., et al

. Varol, G., I. Laptev and C. Schmid

. Y., L., et al

道生液. Zhu, Y., et al

. Du Tran, Heng Wang, Lorenzo Torresani, Jamie Ray, Yann LeCun, Manohar Paluri

. Pradyumna Narayana, Ross Beveridge, Bruce A. Draper

. Xiaodong Yang, Pavlo Molchanov, Jan Kautz

. Junwu Weng, Mengyuan Liu, Xudong Jiang, Junsong Yuan

. Amirhossein Dadashzadeh, Alireza Tavakoli Targhi, Maryam Tahmasbi

2017

. Zhao, Y., et al

. Zhu, G., et al

flag标签抗体

. Carreira, J. and A. Zisserman

. Qiu, Z., T. Yao and T. Mei

. Tran, D., et al

. Donahue, J., et al

. H., W., et al

. Wang, P., et al

. P., W., et al

. Gurkirt Singh, Suman Saha, Michael Sapienza, Philip Torr, Fabio Cuzzolin

Ajjen Joshi, Soumya Ghosh, Margrit Betke, Stan Sclaroff, Hanspeter Pfister

. Runpeng Cui, Hu Liu, Changshui Zhang耳机防尘塞

. Congqi Cao, Yifan Zhang, Yi Wu, Hanqing Lu, Jian Cheng

. Necati Cihan Camgoz, Simon Hadfield, Oscar Koller, Richard Bowden

2016

. P., M., et al

. Wang, L., et al

. Varol, G., I. Laptev and C. Schmid

. Pigou, L., et al

. P., W., et al

. Yunan, L., et al

Feichtenhofer, C., A. Pinz and A. Zisserman

. Yanghao Li, Cuiling Lan, Junliang Xing, Wenjun Zeng,Chunfeng Yuan, and Jiaying Liu . De Geest, R., et al

. Oscar Koller,et al

. Pichao Wang, Wanqing Li, Song Liu, Yuyao Zhang, Zhimin Gao, Philip Ogunbona . Jiali Duan, Shuai Zhou, Jun Wan, Xiaoyuan Guo, Stan Z. Li

2015

. Du Tran, et al

. Ng, J.Y., et al

. Wang, L., et al

. Bousaaid Mourad, Ayaou Tarik, Afdel Karim, Estraillier Pascal.

2014

. Simonyan, K. and A. Zisserman

. Karpathy, A., et al

. Dubravko, C. and S. Nicu

. Reza Azad, Babak Azad, Iman Tavakoli Kazerooni

2013

. Ji, S., M. Yang and K. Yu

结尾

以上内容并不可能涵盖动态⼿势识别领域所有的研究成果，若想了解基于⾻架信息的姿态估计或者⽤其他⽅式进⾏⼿势识别的论⽂，还请读者⾃⾏查阅。

以上部分内容引⽤⾄。

本文发布于:2024-09-22 07:22:51，感谢您对本站的认可！

本文链接：https://www.17tex.com/tex/4/230660.html

上一篇：小学音乐神奇的科尔文手势线上作业设计

下一篇：手势识别（二）--单目手势识别算法总结

标签：数据视频动作包含识别序列任务

留言与评论（共有 0 条评论）