siri原理

Siri成立于2007年,2010年被苹果以2亿美金收购,最初是以文字聊天服务为主,随后通过与全球最大的语音识别厂商Nuance合作,Siri实现了语音识别功能。编辑本段Siri 读音  Siri,读音为/siri./,更为体现其功能,汉语化,可以将其读为“C瑞”。编辑本段技术来源  Siri 技术来源于美国国防部高级研究规划局所公布的 CALO 计划:一个让军方简化处理一些繁复庶务,并具学习、组织以及认知能力的数字助理,其所衍生出来的民用版软件 Siri 虚拟个人助理。[1]编辑本段功能  Siri 能做的,听起来相当不一般,使用者可以通过声控、文字输入的方式,来搜寻餐厅、电影院等生活信息,同时也可以直接收看各项相关评论,甚至是直接订位、订票;另外其适地性(location based)服务的能力也相当强悍,能够依据用户默认的居家地址或是所在位置来判断、过滤搜寻的结果。
Siri功能升级(4张)  不过其最大的特,则是人机的互动方面,不仅有十分生动的对话接口,其针对用户询问所给予的回答,也不至于答非所问,有时候更是让人有种心有灵犀的惊喜,例如使用者如果在说出、输入的内容包括了『drunk』、『home』这些字(甚至不需要符合语法,相当人性化...),Siri 则会判断为喝醉酒、要回家,并自动建议是否要帮忙叫出租车。 [1]  相关支持:Siri 语音系统目前支持英语,中文,法语和德语以及日语  Siri 技术和语音控制的区别    说到语音控制识别技术,就不得不提 Android系统的 Voice Actions, 这也是一项伟大的语音控制技术,并已经被许多 Android 用户所熟知和使用。但是它和Siri完全不是一个级别的产品。  Voice Actions 提供了非常坚实可靠的声音识别引擎,它的高识别度令人称奇。不过,和过去的所有语音命令系统一样,它要求你说的话要具备严格的语法结构和格式,否则系统将
无法识别。  然而 Siri 和 Voice Actions 就有本质的不同了。你可以抛弃繁琐的语法结构,甚至思维模式也可以混乱,Siri会结合上下文结构去理解,它还会从人类语言史的角度出发,利用人工智能系统去分析,并在绝大多数情况下领会你的意思。  而更加人性化的特点是,一旦你开始和Siri进入一段对话,它甚至能理解许多含义模糊或者引申的语义。而Voice Actions 做不到这样的事情,因为它只是一个声控命令软件,而并非人工智能。  语音识别不是革命性的。多年前, IBM 的语音识别软件在 PC 上就有不错的识别率了。  基于语音识别,简单的智能分析和系统功能的调用也不算革命性的。无论是 Google 的 Voice Action ,还是 Vlingo 等独立的公司,做的都不错。  但是,从目前流出的视频看, Siri 并非这些已知技术的简单组合。  Siri 的智能程度更高  Vlingo 中你说 “Text Mike ,Messages How are you.” 。利用关键字的匹配就可以完成很多事情了。 Text 是命令, Messages 是关键字。匹配上这两个词,就知道给谁,发送什么内容了。  而 Siri 理解上下文。你问了北京的天气,再说:“ How about Shanghai ?” ,他知道你指的是上海的天气。  一个更惊人的例子出现在 Siri 被苹果并购前的演示里。你说“ I like a romantic place for Italian food near my office”。  Siri 回答:" I am looking for a Italian restaurants which reviews say are romantic near your work in San Jose…“  这个回答说明 Siri 听懂了 romantic 是个形容词。并且知道 near my office 是个地方。并且,到了以前存储的用户的工作地点。并且,他知道怎么判断一个
餐馆是否 romantic !  把同样的话对着 Android 的 Voice Action 或者 Vlingo 说一遍,你就知道 Siri 具有
超越现有 Apps 的智能。  Siri 和系统的整合更加紧密  Siri 在并购前的版本整合了大量网络服务的 APIs 。比如 OpenTable,Tickets,Taxi Magic 等等。  而 Siri 被苹果收购了之后, 他已经被整合为系统的一部分了。  在 iOS5 的 Siri 视频中,出现新短消息之后,交互由 Siri 发起。说明他已经常驻系统后台并且可以接管重要的系统功能了。(除了短消息还有天气,时钟,Maps 等等)[2]  Siri 支持的语言  Siri 目前支持的语言:英文,法文,德文,日语,中文(中国大陆),中文(),粤语,韩语,意大利文,西班牙文等。其中英文分美式,英式,澳大利亚式。编辑本段相关技术  Siri 所用到的技术,很多人会回答,人工智能以及云计算,的确,总体来说,是这两样技术,不过,这种概述感觉几乎没有任何意义,何不直接说“计算技术”(注意,不是计算机技术)呢。因此,在本文,我将介绍下我了解 Siri 可能采用的技术(由于有个人猜测,不一定准确)。  首先,在前端方面,即面向用户,和用户交互(User Interface,UI)的技术,主要是语音识别以及语音合成技术。语音识别技术是把用户的口语转化成文字,其中需要强大的语音知识库,因此需要用到所谓的“云计算”技术。而语音合成则是把返回的文字结果转化成语音输出,这个技术理论上本地就能完成,但不知道Siri是否如此,当然,在云端完成也并无不可,在当前无线带宽下,那点语音流量根本不算什么。[3]  其次,后台技术,这些其实才是真正的大角。这些技术的目的就是处理用户的请求,并返回最匹配的结果,这些请求类型很多,千奇百怪,要处理好并不简单。基本的结构猜测可能是分析用户的输入(已经通过语音转化),根据输入类型,分别采用合适的技术(合适的技术后台)进行处理。这些合适的后台技术包括,①以Google 为代表的网页搜索技术;②以 Wolfram Alpha 为代表的知识搜索技术(或者知识计算技术);③以Wikipedia 为代表的
知识库(和 Wolfram Alpha 不同的是,这些知识来自人类的手工编辑)技术(包括其他百科,如电影百科等);④以Yelp 为代表的问答以及推荐技术。  网页搜索技术[3]  这个我想没必要介绍,大家天天用的Google就是这个技术的代表。而国内的话,则以百度为代表。  知识计算(搜索)技术(Computational Knowledge)[3]  这个技术的代表是Wolfram|Alpha。  不同于搜索互联网信息,Wolfram|Alpha将从公众的(包括公开的网页等)和获得授权的资源中,发掘、建立起一个异常庞大的经过组织的数据库,再利用高级的自然语言算法进行处理,最终构造出一个类似于谷歌搜索的工具。  和网页搜索技术不同的是,在这个系统中,得到的答案结构化程度很高,比如搜索China,能得到和中国相关的各种参数以及资料,并以接近表格的方式呈现。Wolfram|Alpha也能理解部分自然语言,比如输出How old are you,其会回答Wolfram|Alpha的年龄。想测试这项技术的请移步Wolfram|Alpha。  这个技术国内做的应该有,但还没有产品,也许百度的框计算算是半个。所以机会大大的有。  知识库技术[3]  这名字是我自己起的,不知道有没有贻笑大方……这个技术的代表是,以及各种专门的百科网站。相比于网页搜索技术,基本以一个词条或者主题为单位,因此得到的数据价值高,知识量大,并且结构化程度好。相比于知识计算技术,这些技术需要人的参与,这有利也有弊,利就是,毕竟暂时人比机器聪明,编
辑出来的知识更丰富,准确;弊就是,人力有限,即使像维基那样,发动社区的力量,也不能产生足够的知识,而知识计算,理论上,只需要算法够牛叉,是可以产生“无限”的知识的。  另外,写到这里,我想起 Yahoo 和 Google 的故事,当年,Yahoo 是搜索老大,就像现在的 Wekipedia 在知识搜索领域一样,
而 Google 是小弟,就像 Wolfram|Alpha 在知识搜索领域一样。但后来,却反过来了,Googe 成了网页搜索老大,Yahoo 成了小弟,原因就是 Google 相信算法的结果,把所有事都交给算法做,而Yahoo,很多索引都是人工编辑的。我想,也许有一天,Wekipedia 和 Wolfram|Alpha也会出现这样的情况。  问答推荐技术  其实这不能称为一个技术,应该属于知识库的技术。不同的是,这个技术针对的是一些生活信息,这些信息的地域化程度很高,典型代表为 Yelp。由于这东西比较简单,就不仔细介绍了。  其实在国内,这方面的网站也有,那就是大众点评网这些。编辑本段相关信息  在 iPhone 4S 的苹果发布会中苹果称 Siri Voice  原Siri应用界面(现已下架)
[4]Assistant 将会成为 iOS 的一部分。Siri 原是一个第三方应用,是苹果在去年花费2亿美元购买所得的。虽然在收购后很长的一段时间里我们仍能在 App Store 上看到这一应用的身影,不过它将近有一年多的时间没有更新。而直到今天苹果在发布会上介绍Siri这一功能后,Siri 这一应用才正式下架。  大家可能没有注意到的是,Siri 下架是精心安排的:Siri 在苹果大会上第一次被提及的时候,这一应用还能在 App Store 上轻松的到。但在大会结束后,这一应用就再也不着了。看起来Siri这一应用是在大会结束的同时下架的。  为什么要下架呢?这是可能是因为苹果担心第三方应用若能够实现 iPhone 4S 的功能的话,会影响现有的 iPhone 用户购买新 iPhone 的欲望,从而影响销量。  目前 Siri 支持英文、法文和德文的语音识别,其中英文部分只支持美国、英国和澳大利亚的口音,对于其他国家和地区的英语口音在识别上还存在困难。  此外,被苹果定义为仍处在“测试阶段”的 Siri 目前支持在美国进行地图和本地搜
索,不过苹果的 Siri FAQ 页面也承诺,相关功能在2012年将拓展到其他国家。编辑本段Siri 十大功用  1.Siri 变身闹钟  这应该是用户最容易想到的Siri的“正经”用法了。按住“Home”键,告诉Siri,“早上7点15的时候叫醒我”;想打会儿小盹,就说“40分钟后叫醒我”。只要准确地报上时
间,Siri将是最好用的闹钟。  2.用 Siri 寻咖啡厅  喝咖啡是很多上班族的习惯,一杯咖啡能够迅速地将人调整成工作状态。出门在外的时候,想个咖啡厅?利用Siri就可以搞定这一切。告诉 Siri,寻离当前位置最近的咖啡厅即可。如果你没有附加更多的要求,Siri将反馈给还算不错的答案,很可能是告诉你最近的星巴克在哪。如果星巴克还不能满足你的要求,还是用更专业的应用Yelp吧,它会给你更详细的答案。  3.想去哪,Siri 告诉你  查出行路线的过程中往往要输入不少文字。想省事的话,还是用Siri完成这一切吧。报上要去的地点,Siri会调用 Google 地图来寻出行路线的方案。从测试过的这种用法的用户的反馈上看,Siri目前还没有出过什么差错,就像GPS那样好使。  4.用 Siri 播放随机音乐  如果你厌倦了固定顺序的音乐播放列表,可以试着用Siri播放随机音乐。首先,你需要将喜欢的音乐导入到一个名为“最爱”的播放列表中。开始听音乐的时候,告诉Siri”放皇后乐队的歌曲”。紧接
着,Siri就会在“最爱”列表中匹配皇后乐队的歌曲并将其播放。这样就实现了随机播放音乐的功能。
5.,Siri 代劳  还在边走路边发短信?行路不安全不说,发短信还费劲,以后用Siri代劳吧。走路的时候,将iPhone放在耳边,告诉Siri“用短信告诉她,我将晚点到家”。不用匆忙,告诉Siri你想表达的内容,即可轻轻松松地。
6.天气预报,Siri 知道  这也是Siri十分擅长的一项功能。关于气象信息的问题,Siri都能正确理解。想要知道明天的天气怎样,问问Siri就知道了。
7.用Siri提醒日程安排  既然能把Siri当闹钟用,你当然可以用它来提醒日程安排。很多人都有使用Google日历的习惯,用Google日历安排自己的各项日程。生活中的一些需要提醒的小事,完全没有必要一项项地加到Google日历中去,用Siri就可以搞定这个问题。比如说,“十点钟的时候,提醒我去刷牙”。
8.用 Siri 提醒地点  Siri 提醒地点的功能目前还不是很完善。除了“家”或“上班处”,Siri 对于一些位置称呼的理解能力不佳。但是,Siri 对“这里”的理解十分准确,即当前的GPS坐标位置。所以你可以这样用 Siri 的提醒功能,途径一家不错的小店时,可以将它的位置标记为“这里”并设置好提醒,以便日后有时间时再次光顾。
9.Siri 为你答疑解惑  珠穆朗玛峰现在多高?美国去年的GDP是多少?回答不上来的话,无需 Google,张嘴问问 Siri 吧。Siri 本身是不知道这些问题的答案的,它会从“知识问答引擎”Wolfram Alpha 中寻答案。所有的回答都会以自然语言的形式呈现。这也是 Siri 被认为将对 Google 重要威胁的原因。当然,Siri 在相当长的一段时间肯定不能取代Google,但对 Google 的威胁将是长远的。当 Siri 足够智能的时候,人们用它取代 Google 并不是没有可能。  10.用 Siri 发推  如果你是 Twitter 重度用户,怎么能错过这个用法呢?不过在使用 Siri 发推前,还得做一些必要的设置。编辑本段WWDC?2012  今年的 WWDC
大会上,苹果公司为我们展示了搭载在 iOS6 上的 Siri,新的 Siri 支持语言包括日语、意大利语、中国汉语、台湾、香港等地区语言,你可以用 Siri 查看当前的球赛信息,足球,篮球,排球等。包括比分和球员信息等;用它搜索最新的电影资讯,和附近的电影院;Siri 甚至可以帮你寻餐馆美食,价格,位置,甚至有评星功能编辑本段Siri被诉专利侵权  2012年7月3日,上海某法院确认,已经收到上海智臻网络科技有限公司(下称“智臻网络”)的诉状,被告正是苹果电脑贸易(上海)有限公司和美国的苹果公司。  智臻网络认为苹果公司iPhone 4S中的Siri侵犯了其发明专利权(ZL200410053749.9)。本报记者通过中国国家知识产权局的专利检索看到,这个名为“一种聊天机器人系统”的专利,申请日为2004年8月13日,公告日为2006年2月15日。  在该专利的公开说明中,注明专利权人为上海赢思软件技术有限公司和袁辉,后者也是智臻网络的法定代表人。他们都与一个使用MSN工具的人熟悉的应用“小i机器人”有关,在该上,袁辉被称为“中国网络机器人之父”、小i机器人董事长。此外,小i机器人的产品合作商,还包括联想智能电视、中国移动、京东商城及上海人力资源和社会保障局等公司、部门

本文发布于:2024-09-23 05:16:18,感谢您对本站的认可!

本文链接:https://www.17tex.com/xueshu/758144.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:技术   语音   用户
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议