人机交互方式之一——智能语音交互

⼈机交互⽅式之⼀——智能语⾳交互
前⾔
今天,我们对于能对话的机器已经不那么新奇了,这得益于智能语⾳技术的发展和⼀些语⾳产品的出现。
⼀度调戏siri成为全民热潮,我想这并不是apple公司初衷,这暴露了它的不完善,同时也让⽤户离语⾳产品更近,更了解语⾳产品了。
什么是“智能语⾳交互”?
语⾔是⼈类⽂明的重要成果,也是⼈类最重要的⼯具之⼀,它为保存和传递⼈类⽂明起到了不可或缺的作⽤。概括来说它的主要作⽤就4个字:传递信息。二氨基马来腈
⽽我们所说的智能语⾳,学术界叫“⾃然语⾔处理”,是计算机科学领域与⼈⼯智能领域的⼀个研究⽅向,主要研究能实现⼈与计算机之间⽤⾃然语⾔进⾏有效传递信息的理论和⽅法。 “交互”⼀词全名是“⼈机交互”,是⼀门研究系统与⽤户之间交流、互动关系的学问。
智能语⾳交互严谨点说应该是⾃然语⾔交互(natura language interaction),为了⽅便理解我依然采⽤“智能语⾳交互”这个词。
随着计算机技术及⼈⼯智能领域的快速发展,对“⾃然语⾔处理”的研究也异常⽕热。
毛细管数siri、微软⼩冰等智能语⾳类产品开始出现,虽然存在很⼤的不完善,但回望历史我们能发现智能语⾳技术⼀直在进步。
在了解智能语⾳的过程中,我产⽣了⼀些问题,围绕这些问题我对智能语⾳交互进⾏了⼀些思考,希望能给你带来⼀些启发。
能成为⼈类主流的⼈机交互⽅式吗?型钢
这个问题在知乎引起了很⼤的争论,⽽我倾向于智能语⾳交互会成为⼈类主流的⼈机交互⽅式之⼀。
我们⼈类与世界万物的交互过程⼤概是这样的:通过眼睛去观察⼈、事、物、环境等,再辅以⽿朵听、⿐⼦闻、⾆头尝、嘴巴交流、肢体触碰,⽽后⼤脑产⽣记忆和思考并做出动作、表情、语⾔和⽣理反馈,这个过程是循环和组合的。
不同的环境和习惯会有不同,但基本是在这个范围。这个过程中,前半部分主要是接收信息,后半部分主要负责交流互动,⽽语⾔和动作是最主要的交流互动⽅式。
从⼈机交互⾓度来看,⽤⼿去操控是我们这个世界绝对的主流。
我们每天使⽤的⼿机、电脑、相机、汽车,包括现在很⽕的AR、VR设备,基本上都要靠⼿去操控。(⽤⼿操控属于动作这个范畴) 这跟⼈类的进化⽅式有很⼤关系,我们的祖先从学会制作⼯具开始,⼿就成为了⼈类接触万物的最主要⼯具。
尤其是机械的出现,只有⼈类灵巧的双⼿才能精准的操控完成任务。可是⼈的⼿有⼏个缺陷:不够长,不够多,需要配合眼睛,这给我们的⽣活带来了很多不便。
举个例⼦:
当我们在开车时,眼睛和⼿被占⽤,再去操作⼿机、中控触屏等设备会⾮常不便,危险系数也会⼤⼤增加。原本语⾔是⼈与⼈之间交流的⼯具,很难像双⼿⼀样直接与物体产⽣反应。
但是随着公认的第四次⼯业⾰命的到来,⼈⼯智能让我们有了更多可能,当机器能听懂我们的意思并很好的执⾏时,很多场景的⼈机交互⽅式将会被改变,更多适合的场景将会被挖掘出来,就像当年智能⼿机进⼊我们的⽣活。10年前,我们是⽆法想象通过⼿机做现在的⼤多数事情的。
所以我的浅见是:
智能语⾳技术会成为⼈类主流的⼈机交互⽅式之⼀。成为之⼀,是因为除了语⾳外,原本的⼿的操作、体感操作、⾯部表情识别、甚⾄是情绪的波动,都可能在不同场景成为我们与机器的交互⽅式,未来这很可能是综合的交互体验。
智能语⾳技术发展到什么阶段了?
智能语⾳分近场语⾳和远场语⾳
近场的定义是⼩于1个波长的范围内(或者波长量级)的电磁场。
⽽远场是电磁波传播到远处之后的场(分布)。——引⾃百度
近场语⾳主要是基于⼿机等设备,基本上是⼀些辅助的使⽤需求。现在远场语⾳也越来越受重视,亚马逊的Echo就是远场语⾳,很受欢迎,⾄少⽤户能在5⽶外的距离语⾳指⽰它播放⾳乐。⾃然语⾔理解⽅⾯的研究已经60多年了,我们欣喜地发现相对早期现在已经有了长⾜的进步,虽然不完善但已经有了商⽤产品的出现。
简单了解下⾃然语⾳处理的技术过程:
当我们与机器进⾏语⾳交互时,机器需要通过声学处理我们的声⾳和周围环境,减少⼲扰和噪⾳。再通过语⾳识别技术将听到的声⾳翻译成⽂字,语义理解技术则会分析这些⽂字的意义,最后机器去执⾏⽤户的指令或者通过语⾳合成技术把要表达的内容合成语⾳。
在此过程,声学处理、语⾳识别、语义理解等属于⾃然语⾔理解,语⾳合成等是⾃然语⾔⽣成,这些都是⾮常核⼼的技术,还要配合⼈⼯智能、机器深度学习等等。
但是现阶段依然困难重重。
真实环境下,受噪⾳等影响机器仍然听不准⾃然语⾔。机器将听到的语⾳翻译成⽂字时,重⾳、⼝⾳模糊、语法模糊等⼜很影响成功率。⼈类语⾔太复杂,受到单词边界模糊、多义词、句法模糊、上下⽂理解等影响,语义理解⼜是⼀⼤障碍。
再举个例⼦:
如果⼀门课程上⼀年没开设,对于“这门课程去年有多少同学没通过”这样的问题,机器是回答“都没通过”还是“去年没开这门课”?同时机器还需要提前存储“去年没开这门课”的信息。
想想我们从⼩时候啥也不懂到现在懂得的知识和信息,这是多么难以想象的数量啊!所以现阶段来看,在某垂直领域开发智能语⾳产品是相对⽐较靠谱的选择。
抗干扰滤波器
智能语⾳交互与界⾯交互的异同点是什么?
研究智能语⾳与机器的交互,不得不说界⾯交互,这是使⽤者和设计者都⾮常熟悉的⼈机交互⽅式。那智能语⾳交互与界⾯交互有什么异同点?与界⾯交互相⽐有哪些可以学习或引起思考的地⽅?
•界⾯交互是线性的,⽽语⾳交互是⾮线性的
界⾯交互是⼀种线性的交互⽅式,本质上是不同的页⾯通过不同的层级关系串联起来的。所以,我们在使⽤的时候会有⼀层层返回,tab导航切换,回到app⾸页和home键回到⼿机桌⾯的概念。
⼀层层返回,tab导航切换,回到app⾸页和home键回到⼿机桌⾯的概念。
语⾳交互不适合这样做,我们⼈类在语⾔交流时,是⼀种⾮线性发散式的,我们会在聊某个话题时突然切换到另外⼀个不相关的话题上,这之间没有层级关系,更谈不上返回关系。
•界⾯交互更多过程,语⾳交互直接指向结果
界⾯交互在设计的时候,是将很多“⼩任务”(按钮点击、模块选择、页⾯跳转等等)提供给⽤户,⽤户通过不同的组合选择,最终达成⾃⼰的⽬标。
但是在语⾳交互时,更多是直接表达,你会跟服务员说:请给我⼀杯咖啡。⽽不会说:请⽤杯⼦从咖啡壶⾥倒⼀杯咖啡给我。
•界⾯交互可以没有⽬标,语⾳交互需要准确的⽬标
我们在使⽤电脑和⼿机上⽹时,有时候是漫⽆⽬的,但在语⾳交互产品上如果漫⽆⽬的的进⾏下去,会让⼈很烦躁,因为你得不停地说下去。
•语⾳交互的私密性更强,没有界⾯交互覆盖的使⽤场景多
当我们在⼀个⼈多的场合可以毫⽆顾忌的使⽤⼿机和ipad,但若跟机器进⾏语⾳对话,就会令⼈很尴尬。
所以在⼀些使⽤语⾳交互效率⾼的场景,如何避免这样尴尬的情绪很重要。再例如,在atm机上取款时你会使⽤语⾳吗??
智能语⾳交互适合哪些使⽤场景?
任何⼀款产品不管是什么样的交互⽅式,没有使⽤场景,满⾜不了⽤户需求,⼀定是⽆法成功的。智能语⾳类产品也不例外,并且从现阶段的技术上来看,垂直⼀些的使⽤场景更适合⽤智能语⾳交互。
1、汽车的车载智能语⾳系统,已经有很多商业产品了。是不是可以在挖掘出其他出⾏场景呢?⽐如骑车时?
2、⼉童娱乐和教育也是适合语⾳交互切⼊的⾏业,也有很多公司在做。
3、智能语⾳类产品还可以应⽤于客服⾏业,可以极⼤的程度降低⼈员成本,也可以解决语⾳客服体验差效率低的问题。包装盒fonmoo
(⼈⼯客服和⾮智能语⾳客服场景的痛点)
如果应⽤智能语⾳系统呢?理想的情况跟⼈⼯客服没有区别,但是全部由机器完成,想想看节省了多少⼈⼒成本。甚⾄线下的客服⼯作也可以替代。
4、类似智能语⾳助理这样的产品,帮⽤户处理⼀些短路径⽬的明确的任务需求。
还有办公领域、智能家居等等......
刮奖卡制作如何进⾏智能语⾳产品的交互设计,让它的使⽤体验更好?
不管是界⾯产品还是语⾳产品,最终⽬的都是解决⼈们的问题。界⾯产品设计的部分标准和经验依然适⽤。
⽐如设计流程上,同样需要理解业务诉求、⽤户诉求,要进⾏⽤户调研、分析⽤户特征和观察⽤户⾏为,要挖掘使⽤场景中的问题和痛点,要梳理任务流程、设计信息架构和⽅案设计,并且要去验证和迭代。
⽽语⾳交互过程中还需要注意以下问题:
•流程简单,路径明确,最⼤限度减少对话轮数。
语⾳交互应该避免不停的对话,太多轮对话⽤户难以记住,并且会很烦躁。
•信息传达简洁明了,避免⼤量内容。
⽤户的短期记忆量有限,信息太多⽤户难以记住。
•给予⽤户适当的引导,避免或及时纠正⽤户发散式思维导致的错误。
⽤户的语⾔表达是⾃由度⾮常⾼的,这会增加机器识别的难度,适当的引导让⽤户回到正确的道路。
•系统状态反馈,及时有效。
语⾳交互中的系统状态反馈,要让⽤户及时了解当前状态,上下⽂关系,⽤户所处流程的位置。
•任何时刻都是“⾸页”。
语⾳交互对⽤户来说是快捷⽅式,有需求会直接说,⽽不会像界⾯产品先要回到⾸页再去相应应⽤。
•加载过程要快。
在界⾯交互中页⾯加载3秒以内,配合状态反馈,⽤户是可以接受的。⽽语⾳交互⽤户会更不耐⼼等待,所以加载过程要快,就像⼈与⼈之间对话⼀样⾃然,才会令⽤户满意。
•固定的、舒适的声⾳风格,令⽤户愉悦。
固定的⾳乐、铃声,给⽤户形成印象,让⼈⼀听见就知道是什么产品。例如iphone铃声、新闻联播⽚
头曲。动听、令⼈愉悦的声⾳、⾳乐、铃声很重要,是产品⽓质的表现。
•与机器的语⾳交流如何像⼈类⼀样⾃然?
这⼀条是个问题,我还没有答案。机器的语⾳交流,不像⼈类⼀样⾃然永远是最⼤问题,因为只有⼈与⼈之间交流才是最⾃然和舒适的。如何让机器学习和模仿⼈类,使它慢慢的向⾃然⼈“进化”?
以上仅是分析和思考,并未经过实践验证,只希望给⼤家带来启发。
END

本文发布于:2024-09-22 19:22:54,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/3/320452.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:交互   智能   机器   产品   过程   技术   场景
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议