智能语音交互技术在媒体的应用和前景

智能语⾳交互技术在媒体的应⽤和前景
核⼼阅读:对拥有内容优势的媒体⽽⾔,应当及时看到智能语⾳交互可能给信息传播带来的⾰命性影响。从针对语⾳交互硬件的内容分发到技术赋能内容⽣产,语⾳这⼀物联⽹时代的重要⼊⼝值得媒体⾏业提前布局。
“Hi, Siri!”随着2011年苹果公司的经典产品iPhone 4S获得巨⼤的商业成功,其搭载的智能语⾳助⼿也渐为消费者所熟知。Siri的全称是Speech Interpretation & Recognition Interface,即语⾳识别与理解接⼝。这⼀商⽤级软件拓展了⼈机交互的边界,使原本在科幻电影和实验室中的信息互动场景⾛进⽣活。
紧随其后,微软Cortana、⾕歌Assistant、亚马逊Alexa等智能语⾳助⼿纷纷⾯世,顺势诞⽣了微软Invoke、Google Home、亚马逊Echo、苹果HomePod等智能硬件。硅⾕的软硬件巨头及电商领军企业纷纷⼊局这场竞争。国内,阿⾥、腾讯、百度、科⼤讯飞等互联⽹企业的AI实验室都将语⾳交互作为重要布局,通过开放平台战略寻求软硬件及内容合作,营造智能语⾳⾏业⽣态。
从技术发展史的⾓度看,智能语⾳交互将是⼈机交互在物联⽹时代的重要组成部分。⼈机交互的发展必定以更多样的交互⽅式、更快的输⼊速度、更少的场景限制为表现,即机器更懂⼈的需求、⼈与⽹络⾃由连接。
本质上,这场竞争是互联⽹巨头们对未来万物互联时代语⾳交互⼊⼝的争夺,裹挟着智能硬件、智慧家居带来的绝佳商业预期,⾏业风⼝疾风劲吹。对拥有内容优势的媒体⽽⾔,应当及时看到智能语⾳交互可能给信息传播带来的⾰命性影响。从针对语⾳交互硬件的内容分发到利⽤技术赋能内容⽣产,智能语⾳交互技术与媒体天然存在多层级的合作可能,技术应⽤前景⼴阔。
语⾳交互的技术构成
智能语⾳交互技术是⼀项系统性⼯程,⼤致涉及语⾳识别、⾃然语⾔理解、对话管理、⾃然语⾔⽣成、语⾳合成等技术及综合运⽤。其中⾃然语⾔理解、对话管理、⾃然语⾔⽣成的流程⼜被称为智能对话系统,是整个智能语⾳交互过程的核⼼技术难点。
⽬前,实现智能语⾳交互的五⼤技术模块发展程度不⼀,且各有许多关键节点尚未突破,因此,真正能⽤⾃然语⾔与⼈类实现⽆条件⾃由交谈并采取相应⾏动的语⾳系统尚未诞⽣。但经过数⼗年从理论到技术的发展,特别是借助⼤数据深度学习等⼈⼯智能技术后,语⾳识别、语⾳合成、⾃然语⾔理解等模块已有重⼤突破,并部分实现商业化应⽤。
视频压缩算法
可以说,语⾳交互技术初步实现了从规则指令到⾃然语⾔指令的进步,但距离⾃由交互尚有巨⼤的鸿沟。现阶段基于机器学习的“闲聊机器⼈”多处在实验室阶段。
语⾳交互的技术应⽤
学习的艺术
(⼀)市场参与者
尽管语⾳交互尚未完全成熟,但国内外互联⽹巨头都认为此项技术前景可期,并将其作为⼈⼯智能战略的重要组成部分。软件⽅⾯,具备语⾳交互功能的智能语⾳助⼿成为核⼼产品,如苹果Siri、亚马逊Alexa、微软⼩娜等。硬件⽅⾯,继搭载了智能语⾳助⼿的移动终端后,智能家电、智能车载终端也纷纷增加了语⾳交互功能。此外,众多语⾳技术公司针对不同⾏业及场景提供了各类软硬件解决⽅案。
开放合作是这⼀市场的⾸要需求。事实证明,语⾳交互及⼈⼯智能技术应⽤的产业链极长,物联⽹的实现绝⾮⼀家之⼒。⼤部分市场参与者都采取了公开SDK,全⾯打造开放平台的发展战略。相反,有批评者认为,正是因为苹果的保守导致Siri在这轮发展中落后于⾕歌、亚马逊、微软等公司的竞品。
技术应⽤的本地化是另⼀个问题。尽管亚马逊在炙⼿可热的智能⾳箱领域占有先机,但因语⾔环境的特殊性,本⼟企业在竞争中具有很⼤优势。BAT、科⼤讯飞等⼤型互联⽹企业整合产业间资源,基本构建起开放平台,率先布局;思必驰、出门问问等语⾳技术公司专注于解决⽅案等B端业务;传统⾳箱与硬件制造商、内容及服务供应商纷纷⼊局。
(⼆)典型应⽤场景
⽬前,商⽤的智能语⾳交互以语⾳唤醒+服务响应为主,部分产品⽀持多轮对话,基本实现了5⽶远场
识别、连续语⾳和命令词识别、上下⽂语义理解等关键技术。主要应⽤场景包括移动终端、智慧家居、车载语⾳系统、其他⾏业解决⽅案
命令词识别、上下⽂语义理解等关键技术。主要应⽤场景包括移动终端、智慧家居、车载语⾳系统、其他⾏业解决⽅案等。
1.移动终端与可穿戴设备销售与市场
2011年,苹果最早推出了搭载Siri的智能⼿机。随着微软、⾕歌、亚马逊等公司的⼊局,⼿机、平板、笔记本电脑、⼿表等可穿戴设备普遍内置了智能语⾳助⼿。除了设定闹钟、查询天⽓等官⽅开发的技能外,语⾳助⼿已兼容第三⽅应⽤,如⽤Siri⼝述发送等。
但⼿机端语⾳助⼿在使⽤习惯上⾯临两⼤质疑:
第⼀,⼤量应⽤以触摸屏视觉交互为设计基础。语⾳交互的信息量有限,难以实现复杂操作;
第⼆,语⾳交互最⼤的限制是公共场景中的隐私问题。据不完全统计,仅有3%的⽤户会在公开场合⽤语⾳对⼿机发号施令。
因此,语⾳交互在移动终端与可穿戴设备上主要起到辅助作⽤,⽤户教育尚需时间。
2.智慧家居
事实证明,语⾳助⼿在私密场景中的使⽤率更⾼,其理想应⽤场景是“家>私家车>路上>⼯作”。家居场景中,智能电视、智能冰箱甚⾄智能镜⼦等设备都可搭载语⾳助⼿,实现语⾳控制,串联起从厨房、客厅到起居室、卫⽣间的智慧家居物联⽹。
因为传统家电硬件的语⾳交互改造成本较⾼,⼊局的互联⽹企业普遍推出家⽤智能⾳箱作为核⼼硬件,试图将这⼀全新品类打造成家居场景的语⾳控制枢纽。
3.车载语⾳控制系统
随着语⾳识别、⾃然语⾳理解等技术的发展,在车内场景中通过语⾳交互控制车载导航、娱乐、空调等系统成为可能。语⾳控制系统将驾驶者的注意⼒从屏幕和按钮中解放出来,⼀定程度上增强了⾏车安全性。由于车内场景具有⼀定的私密性,这种交互⽅式⾃然容易被接受。
百度语⾳为特斯拉提供中⽂解决⽅案,阿⾥云和上汽合作研发车载操作系统,科⼤讯飞推出飞鱼语⾳助理,种种迹象表明互联⽹巨头已通过语⾳交互技术切⼊车联⽹的竞争中。
4.其他⾏业解决⽅案
除此之外,语⾳识别、⾃然语⾔理解、语⾳合成等底层技术在各⾏各业都有很强的应⽤潜⼒。在消费、⾦融、教育、医疗等领域提供智能客服、语⾳转录、机器翻译、机器配⾳等诸多解决⽅案。
服务业⽅⾯,科⼤讯飞开发的智能客服和语⾳合成解决⽅案已⼊驻众多呼叫中⼼;百度基于⼩度机器⼈开发的语⾳点餐系统⾛进肯德基上海旗舰店。
教育业⽅⾯,科⼤讯飞、思必驰、云知声等公司均推出⼉童陪伴机器⼈的解决⽅案。
医疗业⽅⾯,Nuance、科⼤讯飞等公司都能提供实时语⾳转写和电⼦病历录⼊的服务。
原则上,所有需要⼈与⼈进⾏对话的⾏业都可由智能语⾳助⼿进⾏赋能。
媒体领域的应⽤前景
媒介是⼈的延伸,语⾳交互技术与⼈⼯智能的进步⽆疑创造了媒体与⽤户接触的更多场景。⽬前,包括语⾳识别(语⾳唤醒、语⾳转⽂字)及语⾳合成(⽂字转语⾳)等技术模块已能够实现成熟应⽤。对媒体⽽⾔,内容⽣产、经营、运营等全链条均可由智能语⾳交互带来优化乃⾄深刻变⾰。
(⼀)针对语⾳交互硬件进⾏内容分发
媒体以内容提供者⾝份⼊场,将现有的智能语⾳交互硬件打造成新的流量⼊⼝和分发渠道,这是⼀种⾃然的合作。
国外产品在这⽅⾯先⾏⼀步,亚马逊Alexa开发团队主动推出了Flash Briefing功能,⽬前已有路透社、福克斯新闻、BBC、NPR、纽约时报、华盛顿邮报、⼈物杂志、ESPN、The Daily Show、Daily Tech Headlines等⼤量专业媒体⼊驻合作。该功能主要提供语⾳新闻简讯,每⽇定时更新,拓展了内容分发渠道,特定唤醒语为“Alexa, what’s my flash briefing?”。
这类功能主要使⽤了语⾳识别(语⾳唤醒)及语⾳合成(⽂字转语⾳)技术。媒体通过⾳频内容的定制化⽣产和重新编辑,实现对全新⼈机交互⼊⼝的提前占位。⽬前,电⼦合成语⾳和⼈类的⾃然语⾳尚存差距,⽂字及电视媒体需要适应纯⾳频的稿件创作,技术和内容还需磨合。
(⼆)开发基于语⾳UI的新闻应⽤
移动互联⽹时代的主流交互⽅式是基于⽂本的触摸屏交互,但物联⽹时代势必需要重新开发基于语⾳控制的全新⽤户界⾯。
媒体需要做的是强化⾃⾝内容数据库建设,在此基础上合作开发基于语⾳交互的App,优化⽤户的语⾳控制体验,简
化“打开App”“选中搜索框”等复杂操作,提供即时的“语⾳搜新闻”等功能。
如华盛顿邮报专门为Alexa设计的语⾳控制App产品,可实现类似搜索引擎的语⾳问答功能,从华盛顿邮报的内容数据库中回答⽤户关于奥运会等特定新闻内容的问询。
科学基金网络信息系统(三)语⾳交互技术赋能新闻⽣产与媒体经营
内容⽣产⽅⾯,媒体采编系统可引⼊语⾳转⽂字、⽂字转语⾳等成熟技术,提⾼记者编辑的新闻⽣产效率。
山东高速公路网
运营和经营⽅⾯,⼈机语⾳对话数据能极⼤地丰富⽤户画像,⼈⼯智能+营销、⼈⼯智能+⽤户调研等⽅向前景⼴阔。
(四)⼈⼯智能进⼀步发展将带来颠覆式的“聊新闻”模式刘湖
2016年2⽉,《⼤西洋⽉刊》旗下的Quartz客户端推出基于机器算法的⽂字聊新闻模式。百度新闻、央⼴“下⽂”客户端、浙江24⼩时联合微软⼩冰逐步跟进。⼈⼯智能算法正深刻变⾰新闻传播的⽅式。
新闻应⽤相关的⾃然语⾔唤醒、⾃然语⾔理解、新闻类话题的对话管理、⾃然语⾔⽣成等技术仍在不断完善中。智能语⾳交互的全链条真正打通后,语⾳技术配合机器算法终将为⽤户提供类似真⼈“聊新
闻”的使⽤体验。因此尽快将新闻应⽤与语⾳交互硬件相结合,提前积累⽤户语⾳⾏为数据库显得尤为重要。
(五)远景展望:同时关注其他交互⽅式
对媒体⽽⾔,5G商⽤近在眼前,物联⽹发展的快车即将启程,但技术并⾮⾃⾝优势。通过积极的开放战略提前占位各类智能硬件⼊⼝是更加切实可⾏的路径。
值得⼀提的是,在商业的裹挟下,技术前沿到产品转化之间存在巨⼤鸿沟。⼈机交互的发展前景仍不明朗,⽬前尚⽆⼀种硬件成为主流⼊⼝。同时发展的还可能是基于AR、VR等技术的⼿势、眼神甚⾄意识交互。因此语⾳交互技术及设备作为⾃然⼈与万物互联⽹络的接⼝,也不是唯⼀的前沿⽅向。

本文发布于:2024-09-23 06:32:07,感谢您对本站的认可!

本文链接:https://www.17tex.com/xueshu/290520.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:智能   交互   技术   内容
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议