干货丨人机交互研究的现状概述

⼲货⼁⼈机交互研究的现状概述

作者：陈童翻译：⽅爽

编辑整理：IO酱

引⾔

⼀直以来，互动都是困扰着优化利⽤电脑的⼀个问题。⼈类与计算机交互所使⽤的⽅法也由来已久。但探索仍在继续，新的设计技术系统⽇益更新升级，过去的⼏⼗年中这⼀领域的研究⼀直快速增长着。在⼈机交互(HCI)领域中的成长不仅仅体现在互动质量的提⾼，在它的成长史中也开辟了不同的分⽀。不同的研究分⽀有异于设计常规互动，⽽是更多的关注多峰性⽽不是单峰性、关注智能⾃适应互动⽽不是基于命令/⾏动的互动，最终呈现的是主动⽽不是被动的互动。本⽂旨在提供⼀个⼈机交互系统发展现状的概述，第⼆节将介绍⼈机交互的基本定义和术语，概述现有的技术和该领域的最新进展，随后将描述⼈机交互设计中的不同架构。最后⼀部分将介绍⼀些⼈机交互的应⽤及其未来发展⽅向。

⼈机交互：定义，术语

⼈机交互有时称为⼈与机器的互动。⼈机交互的概念⾃然代表着计算机、或更普遍的来说是机器⾃⾝的兴起。事实上原因很清楚，最复杂的机器是毫⽆价值的，除⾮他们可以被⼈类使⽤得当，这个基本的争

论代表着在设计⼈机交互时应考虑的主要的术语：功能性和可⽤性。

为什么⼀个真正被设计出来的系统可以由这个系统的功能来最终定义？系统的功能性可以怎样帮助达成系统的⽬的？⼀个系统的功能可以由它提供给⽤户⼀系列操作与服务来界定。当然，功能性的价值只有在它被⽤户有效利⽤时才是可见的。可⽤性是⼀个带有某些功能的系统可以被其⽤户有效利⽤和充分实现特定⽬标的范围和程度。功能性和可⽤性适当的平衡是⼀个系统获得真正有效性的必要条件。

当头脑中有这些概念时再考虑到计算机、机器和系统这些在⽂章中通常可以互换使⽤的术语，⼈机交互是应该是⼀个使⽤户、机器和所需的服务之间产⽣配合的设计，以在服务的质量和最优性能上达到⼀个特定的效果。例如，⼀架飞机零件设计⼯具应该在视图和设计上提供⾼的精度，⽽图形编辑软件可能不需要这样的精度，⽬前拥有的技术还可以影响⽤于相同⽬的但类型不同的⼈机交互设计，⼀个很好的例⼦是使⽤命令，菜单，图形⽤户界⾯(GUI)，或虚拟现实来访问任何指定计算机的某种功能。

⼈机交互概述

⼈机交互在过去⼗年中取得了巨⼤进步，⼏乎使⼈们⽆法识别哪些概念是虚幻的，哪些概念不是虚幻

的，甚⾄是可以成为现实的。研究中的推⼒和营销⼿段的不断变化促使新技术可以及时提供给⼈们使⽤。然⽽，并不是所有的现有技术都可以被公众接触到或是负担得起。

3.1现有的⼈机交互技术

⼈机交互设计应该考虑⼈类⾏为和需要的许多⽅⾯，来确保其有⽤性。与简单的交互⽅法本⾝相⽐，⼈类参与机器交互程度的复杂性有时是隐形的。现有的互动复杂程度的不同不仅是因为功能或可⽤性程度不同，也与机器在市场⾦融、经济⽅⾯的影响有关。例如，⼀个电⽔壶不需要复杂的互动，它的功能仅仅是烧⽔，除了⼀个开关外，多余的互动功能都不划算。然⽽，⼀个简单的⽹站，在功能上可能有限，但为了吸引并留住顾客其可⽤性应是⾜够复杂的。

因此，在⼈机交互的设计中，活动程度应该被充分考虑，哪怕只有⼀个⽤户与⼀台机器。⽤户活跃度有三个不同的层次：物理层⾯，认知层⾯和情感层⾯。物理层⾯决定了⼈类和计算机⼒学相互作⽤；在认知层⾯解决⽤户了解系统并与之交互的问题；情感层⾯是最近新提出的⼀个问题，它不仅试图使互动成为愉悦的⽤户体验，也会通过改变⽤户的态度和情感来让⽤户继续使⽤这台机器。

本⽂的重点主要集中在物理层⾯交互的发展，并展⽰不同的交互⽅法是如何组合的(多模式交互)，探讨每个⽅法如何提⾼表现(智能交互)从⽽为⽤户提供⼀个最佳界⾯。现有的⼈机交互物理技术基本上可以根据设备基于不同⼈类感觉设计、分类，这些设备是主要依靠三个⼈类感官：视觉、听觉和触觉。

依靠视觉的输⼊设备是最常⽤的类型，通常基于开关或者指向装置。这个基于开关的设备可以是任何类型的接⼝，可以像使⽤键盘⼀样使⽤的按钮和开关。指向设备有很多，如⿏标、操纵杆、触摸屏⾯板、图形平板电脑、轨迹球和触控输⼊笔等。操纵杆是指那些有开关和指⽰能⼒的。⽽输出设备可以是任何类型的视觉显⽰或打印设备。微型键盘

依靠听觉的设备更为先进，通常需要某种类型的语⾳识别。这些设备旨在促进尽可能多的交互，因此也更难以建⽴。听觉输出设备更容易创建，如今，由机器产⽣的各种⾮语⾳和语⾳信号的消息都被视为输出信号，哔哔声、警报以及GPS 设备逐向道路导航命令都是简单的⽰例。

盐酸储存罐最困难和最昂贵的是构建触觉装置。“这种类型的界⾯通过触摸、重量和相对刚度⽣成⽪肤和肌⾁的感觉。”触觉装置通常⽣产⽤于虚拟现实或残疾辅助。

⼈机交互最新的⽅法和技术正在试图整合原交互⽅法，并与其他先进技术结合，如⽹络和动画。这些新进展可分为三个部分：可穿戴设备、⽆线设备和虚拟设备。技术的发展如此之快，以⾄这些新技术之间的界限逐渐消失，⽇益混合。这些设备的⼀些例⼦包括：GPS导航系统，军事加强设备(如热视觉、跟踪其他⼠兵运动使⽤的GPS、环境扫描)，⽆线电频率识别(RFID)产品、个⼈数字助理(PDA)、房地产虚拟旅游业务。其中⼀些新设备升级整合了之前的交互⽅法。如下图，这是⼀个虚拟键盘，将键盘字母⽤红⾊的光投射在固体表⾯上。设备通过传感器追踪⽤户在固体表⾯上打字的⼿指运动，并

发送对应按键到设备中。

3.2在HCI的研究进展

在以下部分中，将介绍⼈机交互最近的研究⽅向和进展，即智能与⾃适应交互和⽆处不在的计算。这些交互包括不同级别的⽤户活动：⾝体、认知和情感。

3.2.1智能和⾃适应⼈机交互

⼴⼤公众所使⽤的设备虽然仍然是某种的纯命令/动作设置，⽽不是复杂的物理设备，我们还不知道有关智能理论的确切概念，然⽽我们可以通过市场上新设备的功能性和实⽤性来定义这些概念，正如前⾯提到过的，它是重要的经济和技术，提供了更⽅便的⼈机交互设计，更愉快和令⼈满意的⽤户体验。

为了实现这个⽬标，接⼝也越来越⾃然，便于每天使⽤，进化的接⼝在笔记⼯具是⼀个很好的例⼦。第⼀次出现打字机，然后出现键盘和触摸屏平板电脑，你可以⽤⾃⼰的笔迹进⾏书写，机器进⾏识别，甚⾄你可以进⾏语⾳输⼊，由机器进⾏识别，⽽不需再⽤⼿书写。新⼀代接⼝的⼀个重要的因素是区分智能⽅式，界⾯和⽤户交互，智能⼈机交互设计界⾯从某种智能感知响应⽤户，⼀个例⼦是使得说话⼈使⽤⾃然的语⾔来与⽤户和设备进⾏交流，明确的对⽤户进⾏视觉跟踪并进⾏相应的回应。

⼀个⾃适应⼈机交互可能是⼀个⽹站使⽤GUI销售各种产品，这个⽹站有能⼒识别⽤户，并保持⼀定的搜索和购买记录，并建议它认为⽤户可能需要购买的产品，⼤多数的这些类型的适应活动是那些处理认知与情感⽔平的⽤户活动。

另⼀个例⼦，它使⽤的智能与⾃适应接⼝是具有⼿写识别能⼒的，它可以适应⼿写PDA或平板电脑登录的⽤户，它拥有的字迹识别和修正能⼒来记住⽤户的⽂本。最后，另⼀个要考虑的有关智能接⼝的因素，⼤多数⾮智能⼈机交互设计在本质上是被动的，它们只在⽤户调⽤的时候响应，⽽最终的智能

竹炭颈椎枕和适应性接⼝往往是积极的接⼝，这个例⼦是根据⽤户的⼝味提出⾃⼰的智能⼴告牌或⼴告，在接下来的部分，将组合不同的⼈机交互⽅法和并将如何能有助于智能⾃适应⾃然界⾯的⽅法进⾏讨论。

3.2.2⽆处不在的计算和环境智能

⼈机交互领域的最新研究成果，是⽆处不在的普适计算（普适计算）。这个术语经常互换使⽤环境智能和普适计算，是指⼈机交互的最终⽅法是删除在环境中的计算机的桌⾯和嵌⼊，使之成为⽆形的，⽽他们周围⽆处不在。普适计算的想法最初是由马克·韦泽在1998年他在施乐PARC计算机科学实验室担任⾸席技术专家时候提出的。他的想法是，将世界各地的计算机和⽇常物品进⾏连接，⼈们可以同时将环境和物品进⾏⽆线沟通。普适计算也被命名为计算的第三次浪潮，第⼀波是⼤型机时代，很多⼈⼀台电脑。然后是第⼆次浪潮，⼀⼈⼀台电脑被称为个⼈电脑时代。现在的普适计算引⼊了多台计算机，成为⼀个⼈的时代，下图⽰出了计算机的主要趋势。

⼈机交互系统架构

⼈机交互设计的最重要的因素是它的配置，事实上，任何给定的接⼝通常是由它提供的输⼊和输出的数量和多样性定义的。⼈机交互系统的体系结构显⽰这些输⼊和输出是什么，以及他们如何⼀起⼯作，以下各节介绍基于不同的配置和设计的接⼝。

4.1单峰⼈机交互系统

正如前⾯提到的，⼀个接⼝主要依靠它输⼊和输出设备的数量和多样性，这种渠道让⽤户可以通过此接⼝与计算机进⾏交互。每⼀个不同的独⽴的单通道称为⽅式。⼀个系统基于只有⼀个形态，叫做单峰，基于不同形式的性质，可以分为三个类别：

4.1.2基于⾳频

4.1.3基于传感器

接下来的⼩节描述每个类别，每个⽅式，并提供实例和参考。

4.1.1基于视觉的⼈机交互

基于视觉的⼈机交互研究可能是该领域中最普遍的，考虑应⽤程序的范围和各种开放问题、⽅法，研究⼈员试图解决可视视觉信号的⼈的不同⽅⾯的反应，本节中的⼀些主要研究领域如下：

⾯部表情分析

⾝体运动跟踪（⼤型）

⼿势识别

凝视检测（眼动跟踪）

由于应⽤的不同每个地区⽬标也不同，但是每个区域的普遍观念⼤体是⼀致的。⾯部表情分析⼀般是处理视觉情绪认知，这个领域的研究焦点是⼈体运动跟踪和⼿势识别，这个领域可以有不同的研究⽬的但他们⼤多是⽤于直接命令中⼈与计算机的互动。⽬光检测则主要是以间接形式的使⽤户与机器间进⾏互动，更好地理解⽤户的注意⼒，例如帮助残疾的眼动跟踪系统，它主要作⽤在命令和动作场景，如指针运动、闪烁、点击。值得注意的是，⼀些研究⼈员试图协助甚⾄取代其他类型的相互作⽤（⾳频，传感器为主）与视觉⽅法。例如，唇读或唇运动跟踪是已知的⽤于语⾳识别纠错的⼀个有效的帮助。

钠硫电池4.1.2基于⾳频的⼈机交互

基于⾳频的计算机和⼈之间的交互是⼈机交互系统的另⼀个重要领域。这个领域主要处理不同的⾳频信号获得的信息，虽然⾳频信号的性质可能不可以作为视觉信号，但从⾳频信号收集到的信息却可以更值得信赖，更有⽤，在某些情况下，可以成为独特的信息提供者。本节中研究区域可分为以下⼏部分组成：

语⾳识别

说话⼈识别

听觉情感分析

c型钢是怎么做成的

⼈为噪声/登录检测（喘⽓，感叹，笑，哭，等）

⾳乐互动

从历史上看，语⾳识别和说话⼈识别的研究⼀直是主要的焦点。相⽐其他的⾳调和⾳⾼的语⾳数据，典型的⼈类听觉的迹象，如叹息，惊呼等帮助的情感分析，可以设计更智能化的⼈机交互系统。⾳乐的⽣成和互动是⼀个⼈机互动艺术领域⾮常新的应⽤，它主要集中在⾳频和视觉研究中。

4.1.3基于传感器的⼈机交互

本部分结合了各个领域的⼴泛应⽤。这些不同领域的共性是，在⼈机交互中⾄少有⼀个物理传感器，这些传感器如下所⽰可以⾮常原始的或⾮常复杂。

1笔式交互

3操纵杆

4运动跟踪传感器和数字转换器

电磁阀总成5触觉传感器

6压⼒传感器

7味道/⽓味传感器。

这些传感器已经存在了⼀段时间，其中还有⼀些⾮常新的技术。笔式传感器主要在移动设备领域，并且涉及到笔势和⼿写识别领域。运动跟踪传感器/数字转换器是的最先进的技术，它彻底改变了电影、动画、艺术和游戏产业。他们以可穿戴或者关节传感器的形式出现，使得电脑更能与现实的世界进⾏交互，⼈们可以创建他们的世界，触觉和压⼒传感器应⽤在机器⼈和虚拟现实领域。新的机器⼈包括数以百计的触觉传感器，使机器⼈敏感和有触摸能⼒，这些类型的传感器还⽤于医疗⼿术应⽤。

4.2多通道⼈机交互系统

这个术语指的是多通道组合多个形式。在MMHCI系统，这些形式主要是参考⽅法，系统响应输⼊，即沟通渠道。这些渠道的定义是继承⾃⼈类类型的通信，基本上是⼈类的感官：视觉、听觉、触觉、嗅觉和味觉。

⽤机器进⾏交互包括这些可能的类型但是不限于这些类型，因此，通过两个或者两个以上是输⼊模式⽽不是传统的键盘和⿏标设备，⼀个多通道界⾯可以成为⼈机交互的促进者。这些输⼊设备的类型和⼯作模式可能相差很⼤，多通道界⾯将整合不同组合的语⾳、⼿势、⽬光、⾯部表情和其他⾮传统模式的输⼊。最普遍的⼀种⽀持的输⼊组合⽅法是⼿势和语⾳。虽然⼀个理想的多模态⼈机交互系统应该包含单个交互的⽅式，相关性的组合，每⼀种模式的实际边界和开放问题在每个形态反对限制上的融合。尽管在MMHCI上有很多进展，⼤多数现有的多通道系统应该区分对待，只在最后将不同的⽅式结合在⼀起。原因在于每个地区的开放问题尚未完善，意味着仍然有⼯作需要完成以获得可靠的⼯具，此外，⾓⾊不同的⽅式和他们的相互作⽤的份额并不科学。

⼈们在⽤多通道今⼣信号传达和交往时候，需要分析多个不同传感器获得的输⼊信号，信号不是独⽴的，不能在最后的时候进⾏结合，相反这些输⼊数据应该被处理在⼀个联合的空间内，在实践中，除了上下⽂的问题检测和发展相结合的多感官信息的上下⽂相关的模型以外，⼈们应该配合所需的联合特征空间的⼤⼩。包括⼤维度，不同的功能，格式和时间校正。

⼀个有趣的⽅⾯是不同⽅式的合作。例如嘴唇运动跟踪(视觉基础)可以帮助语⾳识别⽅法(⾳频基础)，语⾳识别⽅法(⾳频基础)可以帮助命令采集在⼿势识别(视觉的基础)。接下来的⼀节将显⽰⼀些应⽤智能多式联运系统。

应⽤

⼀种典型的多通道系统是“把他放在那⾥”的⽰范系统。这个系统允许⼀个物体移动到⼀个新的位置并在屏幕上的地图说：“把东西放在那⾥”⽽指向对象本⾝，然后指向理想的⽬的地，多通道界⾯已经被⽤在许多应⽤程序包括使⽤地图的模拟。

多通道界⾯相⽐传统的交互拥有很多优势。⾸先，他们可以提供⼀个更⾃然的⽤户友好的体验。例如，在⼀个房地产系统中，你可以⽤⼀根⼿指点到⼀个房⼦，来查询房⼦的信息。使⽤⼀个指向⼿势选择⼀个对象，并使⽤语⾳查询关于它演⽰类型的⾃然体验多通道界⾯提供给他们的⽤户。另⼀个关键的优势是他们有适应不同⼈不同情况的能⼒。因此，在嘈杂的环境中，可提供通过⼿写输⼊，⽽不是语⾳，⼀些其他的多通道系统应⽤如下：

智能家居/办公室

驾驶员状态监视

智能游戏

本文发布于:2024-09-22 13:34:30，感谢您对本站的认可！

本文链接：https://www.17tex.com/tex/4/320104.html

上一篇：日常生活中与人机学相关的例子

下一篇：有关计算机外部设备的知识