人机交互中的计算机视觉(译文)

要想获得通用的，鲁棒性强的，高性能的计算机视觉系统依然存在着不少障碍，但是，过去的十年间，在人机交互领域里，视觉技术有了重大的进展。

计算机视觉交互

在人们的交谈和彼此间的交互过程中，视觉信息显然是很重要的。通过视觉的模态，我们可以立即确定许多显著的关于他人的事实和特征，包括他们的位置、身份、大致的年龄、注意力的焦点、脸部表情、姿势、手势和一般的活动。这些视觉线索影响到了会话的内容和进程，并提供了一些上下文相关的信息，这些信息与言语不同，但与此相关，例如，一个手势或面部表情可能是一个关键的信号，一个注视的角度可能可以消除在言语中“这个”或者“在那边”的指带不明。换言之，在人与人的交互中，视觉和言语是联合表达，相互补充的通道。正如语音自动识别是试图构造能够感知人们交流的文字方面的机器，那么计算机视觉技术是用来构造能够“观察人”并自动感知相关视觉信息的机器。

计算机视觉是一门试图通过图像处理或视频处理而使计算机具备“看”的能力的计算学科。通过理解图像形成的几何和辐射线测定，接受器（相机）的属性和物理世界的属性，就有可能（至少在某些情况下）从图像中推断出关于事物的有用信息，例如一块织物的颜、一圈染

了的痕迹的宽度、火星上一个移动机器人面前的障碍物的大小、监防系统中一张人脸的身份、海底植物的类型或者是MRI扫描图中的肿瘤位置。计算机视觉研究的就是如何能健壮、有效地完成这类的任务。最初计算机视觉被看作是人工智能的一个子方向，现在已成为一个活跃的研究领域并长达40年了。

传统上，计算机视觉研究是被一些主要的应用领域所推动的，例如生物视觉建模、机器人导航和操作、监防、医疗图像以及各种检查、检测和识别任务。近年来，涌现了多模态和感知交互，推动了一大批关于机器视觉（machine vision community）的研究。这些努力的重心大多是集成多种感知模态（例如计算机视觉，语音和声音处理，触觉的输入/输出）到用户接口。尤其对于计算机视觉技术，主要的目标是在人机交互中采用视觉作为有效的输入模态。这种基于视频的传感是被动的、无插入的，因为它不需要与用户的交互或任何有特殊用途的装置；传感器也能够被用于视频会议和其他成像用途。这种技术在基于视觉的交互领域中具有良好的应用前景，例如游戏、生物测定学和准入，还有一般的多态接口，能将视觉信息和其他的语音、语言技术，触觉以及用户建模等相结合。

这种关于人的视觉信息的获取，已经通向了计算机视觉中大量的研究领域，着重于建模，

识别和解释人的行为。如果可靠且健壮地发放了，这种视觉技术可以支持交互系统中的一系列的功能，主要通过传递相关的用户视觉信息，例如身份、位置和动作，从而提供关键的上下文信息。为了能充分地支持交互中的视觉部分，需要提出几个任务：

●人脸检测和定位：场景中有多少人，他们在哪里？

●人脸识别：他是谁？

●头和脸部的跟踪：用户的头部在哪里，脸部的位置和方向是什么？

●脸部表情分析：用户在微笑，大笑，皱眉，说话还是困乏？

●视听语音识别：使用语音识别以及伴随视话（lip-reading）和face-reading，判断用户说什么？

●眼睛注视跟踪：用户的眼睛朝哪里看？

●身体跟踪：用户的身体在何处？关节处（articulation）是什么？

静音冷却塔

●手跟踪：用户的手在哪里？是2维的还是3维的？特别地，手的结构是怎样的？

●步态识别：这是谁的走路/跑步风格？

●姿势、手势和活动识别：这个人在做什么？

这些任务都非常困难，从一个摄像机拍得图像（有时或者是多相机从不同的视角）开始，这项工作典型情况下至少包括每秒30次的240*320个像素（每像素24比特）。我们试图很快地使这些数据变得有意义。与语音识别问题相比较，语音识别是从一个一维的，时间序列信号开始，然后尝试将其分段并分类成相对少数目的已知类别（音素或词）。计算机视觉事实上是一堆子问题的集合，这些子问题彼此间很少有共同点，且都非常复杂。

基于视觉的接口任务

至今，计算机视觉技术应用到人机交互中已取得了显著的成功，并在其它领域中也显示其前景。人脸检测和人脸识别获得了最多的关注，也取得了最多的进展。第一批用于人脸识别的计算机程序出现在60年代末和70年代初，但直到90年代初，计算机运算才足够快，以支持这些实时任务。人脸识别的问题产生了许多基于特征位置、人脸形状、人脸纹理以及它们间组合的计算模型，包括主要组件分析、线性判别式分析、Gabor小波网络和.Active 二氧化氯发生器加药

Appearance Model（AAM）.许多公司，例如Identix,Viisage Technology和Cognitec System，正在为出入、安全和监防等应用开发和出售人脸识别技术。这些系统已经被部署到公共场所，例如机场、城市广场以及私人的出入受限的环境。要想对人脸识别研究有一个全面的认识，见[12]。

人脸检测技术——在一个场景中从不同的范围和方向检测所有的脸——在近年来伴随着实时统计学习方法已经有了显著的发展。头部和脸部跟踪在一些强约束力的情况下运行得很好，例如，当在研究对象的脸上作标记时。但是，在一般环境下，脸部姿势和脸部特征位置的跟踪依然是一个难题。脸部表情分析也同样是，通常它是依据准确的脸部特征跟踪作为输入的。现在已经存在一些有前景的能够识别一定范围内的脸部特征的原型系统，但是它们在性能和鲁棒性上仍然有局限性。

眼睛注视跟踪（eye-gaze tracking）已经商业化多年，主要用于残疾的计算机用户和科学实验。这些系统采用主动式传感，向用户的眼睛发送一个红外灯源作为一个基准方向，但严格限制了头部的活动。以现在的形式，这些系统是不适合通用的多模态用户接口的。

为了确定一个人的位置或者为头部和手部的运动建立一个基准坐标框架，在视频流中跟踪

身体是非常有用的。早期的系统例如Pfinder，通过明晰静态背景模型，产生了一个身体轮廓的表示，且标识了头部和手部的可能位置。一些研究者使用了更为详细、关节运动更为复杂的动态身体模型，尽管将图像数据匹配到这些模型中是复杂而又慢的。虽然在动画制作中广泛使用了动作捕捉系统来捕捉身体的精确动作，但需要用户穿上特制的衣服或者一些接受传感器和标记物，这样就使得这种方法无法适用于通用的多模态接口。三角形算法

当环境被控制（例如，固定的照明条件、相机位置和背景）且手没有重叠时，二维和三维的手部位置跟踪并不困难，关注皮肤的颜是典型的方法。然而，普通人的行为，手常常是隐藏的（在口袋中，放在头后）或是被另一个手臂、手所遮挡。在这些情况下，手部跟踪就变得困难且需要基于人类运动的预测。一个更困难的问题是跟踪完整的手部关节——由手结构定义（23个手腕DOF，6个位置和方向DOF）的29个自由度。Wu和Huang提供了一个对手跟踪和手势识别的概述。

对人身体及其组成部分的定位、识别和跟踪只是交互的第一步，此外需要识别行为。感兴趣的行为可能有结构化的、分离的手势，连续的人类自然手势或者由一系列时间范围定义的行为（例如，离开房间，在桌子上吃饭）。手势识别可以作为一个直接的模式识别问题

来实现，它试图匹配身体参数的某个序列，或者是一个概率系统用来推理基于统计定义的姿势模型。这个系统必须要能区分偶然的人类动作，有目的的操作物体的动作和那些用于交流（有或无意识的）的手势。语言和手势间的关系是很复杂的，能使通用的且上下文无关的姿势识别自动化是一个长期的目标。

虽然在某些情况中可以使用简单的状态空间模型，但在建模和识别序列姿势时通常采用统计模型。由于统计模型在语音识别领域中的成功使用，隐马尔可夫模型（HMM）已经被广泛地用于建模和识别姿势。一个早期的例子是一个识别系统，能够识别一定数量的由Starner和Pentland开发的美国手语。现在已有一些源于基本HMM方法的变形，用于更好地匹配视觉中更为广泛的特征和模型。因为许多手势包括多个组成部分，例如手部动作的弧线和姿势，序列信号比语音识别中的更复杂。贝叶斯网络在姿势识别中也显示其前景。

自动化洗碗机无铬达克罗基于视觉的接口技术进展

尽管在一些个别应用中取得了成功，但纵使在几十年的研究之后，计算机视觉还没有在商

业上被广泛使用。几种趋势似乎表明了这种情形即将会发生改变。硬件界的摩尔定律的发展，相机技术的进步，数码视频安装的快速增长以及软件工具的可获取性（例如intel的OpenCV libraray）使视觉系统能够变得小巧、灵活和可支付。近年来，美国政府已经投资了一些人脸识别评估项目：最初为1993年到1997年的人脸识别技术（FERET）项目，最近为2000年到2002年的人脸识别vendor测试（FRVT）。这些项目提供了对用于研究和商业的人脸识别系统的性能评估。FRVT 2002全面地测试了10个商业系统，收集了一个非常大的数据集的性能统计：37437个人的121589张人脸图像，通过多维（在室内或室外，男性或女性，年轻的或年长的）表示其性能特征。图3显示了最佳系统对正面人脸图像的5项分类的人脸检验结果。

最近几年，DARPA资助了用于远距离识别人和视频监防的大型工程。正在进行中的远距离人物身份（HumanID）项目将使用多模态融合技术，包括注视识别，即在很长的范围内（25-100英寸）识别人物身份。视频监防和监视（VSAM）项目试图为未来的监防应用开发对感兴趣的活动的识别系统。国家科学基金已经给基于视觉接口技术的相关领域中的一些信息技术研究（ITR）奖励了津贴。工业界中公司里（例如微软，IBM和英特尔）的研发实验室在这些领域中做了很多的努力，同样的在工业界中开办了公司，例如个人机器人和

娱乐。

近年来，随着许多公司提供人脸识别技术（和人脸检测、人脸跟踪），包括3D方法（例如，Geometrix,A4Vision和3Dbiometrics,见Jain和Ross关于包括计算机视觉和其他模态的生物测定的详细描述），生物测定学市场有了显著地扩大。一些研究团体和公司已开发了人脸跟踪技术，尤其是用于计算机图形市场（游戏和特效）。

本文发布于:2024-09-22 09:49:07，感谢您对本站的认可！

本文链接：https://www.17tex.com/tex/2/163146.html

上一篇：头部CTA的临床应用价值

下一篇：64层能谱宝石CT双低技术在头颈CTA中的应用

标签：视觉识别计算机例如技术跟踪

留言与评论（共有 0 条评论）