一种语音助手的构建方法、执行方法及装置与流程



1.本发明实施例涉及自然语言处理领域,尤其涉及一种语音助手的构建方法、执行方法及装置。


背景技术:



2.近些年越来越多的应用和服务开始集成语音助手,帮助用户通过语音交互便捷地获取需要的信息或完成特定的任务。
3.但是在不同的垂直领域中往往需要从零开始开发语音助手,开发门槛高,耗时耗力,很难在短时间内开发出一款满足特定需求的语音助手。


技术实现要素



4.本技术实施例提供一种语音助手的构建方法、执行方法及装置,能够通过配置的方式为不同垂直领域生成对应的语音助手,降低语音助手的开发难度。
5.第一方面,本技术实施例提供了一种语音助手的构建方法,该方法包括:
6.基于用户配置得到待构建的语音助手的各业务场景及每个业务场景对应的意图;
7.通过语料信息库中所述语音助手对应的语料,进行意图识别模型和要素实体提取模型的训练;
8.针对每个意图,基于用户配置得到所述意图对应的任务,所述任务用于在通过语音对话获取的要素实体满足所述任务的要素实体配置信息后,触发执行并得到所述语音对话对应的响应配置;
9.将所述意图识别模型、所述要素实体提取模型及各任务对应的对话策略模型,构建为所述语音助手。
10.本技术实施例将语音助手的构建过程做成了可配置化,通过配置业务场景及每个业务场景对应的意图,来符合语音助手所使用的垂直领域;通过自动化训练完成意图识别模型和要素实体提取模型;通过为每个意图设置任务,实现了语音助手在使用时对语音对话的响应配置,从而完成了一个语音助手的构建。原本在不同的垂直领域需要基于业务进行软件开发,通过本技术实施例大部分都做成了可配置化,对接一项业务一般只需要在配置平台上进行简单的配置和训练就能得到一个语音助手而不需要做额外的开发。
11.可选的,所述意图识别模型和所述要素实体提取模型以组件方式存储至所述语音助手中。对定制化开发的功能进行抽象化,提供标准的组件开发模式和api调用接口等方式可快速地实现定制化开发且不需要修改核心代码,大大减少了软件的开发工作量,甚至实现无开发量。可选的,基于用户配置得到所述意图对应的任务,包括:
12.获取用户配置的任务激活阶段;所述任务激活阶段用于根据语音对话的意图启动任务;
13.获取用户配置的要素实体请求阶段;所述要素实体请求阶段用于触发从语音对话中获取要素实体;
14.获取用户配置的要素实体校验阶段;所述要素实体校验阶段用于确定要素实体满足实体要素配置信息;
15.获取用户配置的任务执行阶段;所述任务执行阶段用于执行所述语音对话指示的任务并得到对应的响应配置。
16.通过将对话过程分解成任务激活阶段、要素实体请求阶段、要素实体校验阶段以及任务执行阶段,使得每个阶段拥有相对固定和独立的流程控制,在对话的过程中可以根据历史对话和当前对话的状态进行各个对话阶段的切换,而每个阶段的执行逻辑和可干预内容以及各个阶段之间的切换逻辑都在代码中进行固化,在构建语音助手的过程中根据利用配置对对话策略模型进行干预而无需修改代码。
17.可选的,获取用户配置的要素实体校验阶段,包括:
18.获取用户对要素实体的以下至少一项的要素实体配置信息:可选必选项配置、追问语句配置、单值多值配置、实体类型配置及校验配置;
19.获取用户配置的任务执行阶段,包括:
20.获取用户对任务执行的以下至少一项的任务执行配置信息:执行方式配置、执行确认配置及关联任务配置。
21.通过对要素实体配置,可以让用户根据业务场景的不同来设置不同的信息选项,必选还是可选,单选还是多选,在用户输入的要素实体不明确或没有输入相应意图的要素实体后,语音助手还可以通过追问语句让用户完善信息,当用户输入的语句模糊时,还可以通过校验对语句或者词语进行自动更正。
22.通过对任务执行方式的配置,可以让语音助手在执行一个任务时返回一句话,或者调用相应的业务后台app完成任务后将结果返回给客户端,还可以决定在执行某个任务前是否向用户进行确认,以及执行后是否推荐关联任务。
23.第二方面,本技术实施例提供了一种语音助手的执行方法,所述语音助手具有设定的各业务场景及每个业务场景对应的意图;所述方法包括:
24.通过所述语音助手获取用户的语音对话;
25.通过所述语音助手对应的意图识别模型,确定所述语音对话的意图;
26.通过所述语音助手对应的要素实体提取模型获取所述意图对应的任务所需的要素实体;
27.通过所述语音助手对应的对话策略模型,在任务所需的要素实体满足所述任务的要素实体配置信息后,执行所述任务并反馈执行得到的响应配置。
28.可选的,通过所述语音助手对应的对话策略模型,在任务所需的要素实体满足所述任务的要素实体配置信息后,执行所述任务并反馈执行得到的响应配置,包括:
29.通过所述语音助手中配置的所述任务的任务激活阶段,确定不存在历史对话对应的任务或历史对话对应的任务与所述意图无关,则启动所述意图对应的任务;
30.通过所述语音助手中配置的所述任务的要素实体请求阶段,从交互的语音对话中获取任务所需的要素实体;
31.通过所述语音助手中配置的所述任务的要素实体校验阶段,确定获取的任务所需的要素实体是否满足所述任务的要素实体配置信息;
32.在满足所述任务的要素实体配置信息后,通过所述语音助手中配置的所述任务的
任务执行阶段,执行所述任务并反馈执行得到的响应配置。
33.可选的,通过所述语音助手中配置的所述任务的要素实体校验阶段,确定获取的任务所需的要素实体是否满足所述任务的要素实体配置信息,包括:
34.针对获取的任一要素实体,确定所述要素实体是否满足所述要素实体校验阶段中的要素实体配置信息;所述要素实体配置信息包括以下至少一项:可选必选项配置、追问语句配置、单值多值配置、实体类型配置及校验配置;
35.通过所述语音助手中配置的所述任务的任务执行阶段,执行所述任务并反馈执行得到的响应配置,包括:
36.按照所述任务执行阶段中的任务执行配置信息,执行所述任务并反馈执行得到的响应配置;所述任务执行配置信息包括以下至少一项:执行方式配置、执行确认配置及关联任务配置。
37.第三方面,本技术实施例提供了一种语音助手的构建装置,包括:
38.配置模块,用于基于用户配置得到待构建的语音助手的各业务场景及每个业务场景对应的意图;
39.训练单元,用于通过语料信息库中所述语音助手对应的语料,进行意图识别模型和要素实体提取模型的训练;
40.任务生成单元,用于针对每个意图,基于用户配置得到所述意图对应的任务,所述任务用于在通过语音对话获取的要素实体满足所述任务的要素实体配置信息后,触发执行并得到所述语音对话对应的响应配置。
41.构建单元,用于将所述意图识别模型、所述要素实体提取模型及各任务对应的对话策略模型,构建为所述语音助手。
42.第四方面,本技术实施例提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述第一方面或第一方面任意可能的方法,或者处理器执行所述程序时实现上述第二方面或第二方面任意可能的方法。
43.第五方面,本技术实施例提供了一种计算机可读存储介质,其存储有可由计算机设备执行的计算机程序,当所述程序在计算机设备上运行时,使得所述计算机设备执行上述第一方面或第一方面任意可能的方法,或者使得所述计算机设备执行上述第二方面或第二方面任意可能的方法。
附图说明
44.为了更清楚地说明本技术实施例中的技术方案,下面将对本技术实施例中所需要使用的附图作简要介绍,显而易见地,下面的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
45.图1为本技术实施例提供了一种构建语音助手的系统架构示意图;
46.图2为本技术实施例提供的一种人机交互界面;
47.图3为本技术实施例提供的一种构建语音助手的流程图;
48.图4为本技术实施例提供的一种对意图对应的任务进行配置的流程;
49.图5为本技术实施例提供的一种语音助手配置流程图;
50.图6为本技术实施例提供的一种执行语音助手的系统架构图;
51.图7为本技术实施例提供的一种语音助手的执行方法;
52.图8为本技术实施例提供的一种语音助手具体的执行过程;
53.图9为本技术实施例提供的一种语音助手要素实体校验阶段和任务执行阶段的具体过程;
54.图10为本技术实施例提供的一种语音助手装置;
55.图11为本技术实施例提供的一种计算机设备。
具体实施方式
56.针对现有技术中每个垂直领域都需要独自开发语音助手,如智能家电领域、出行领域、餐饮领域等,每个领域都有自己的语音交互方式,因而需要各自领域中不同的语料进行语音助手的生成,而每个语音助手的生成都需要研发人员进行针对性开发。基于此种情况,本技术通过提供一种用户配置的方式即可得到对应的语音助手,无需额外开发,大大减少了软件的开发工作量,甚至实现无开发量。
57.如下将对语音助手的生成过程进行介绍,如图1所示,为本技术实施例适用的一种构建语音助手的系统架构示意图,本技术实施例适用的系统架构包括配置平台、语料信息库、训练器以及模型管理平台。
58.配置平台可通过提供人机交互的界面,提示用户进行语音助手构建的各种配置信息。其实现方式可以为:进入语音助手构建界面后,提示用户进行该语音助手的设置,如图2所示。如针对业务场景的设置、业务场景下对应的意图设置、训练语料的选取、意图对应的任务的设置等。每个设置过程都可以在对应页面进行,也可以在同一个页面完成所有的设置。
59.语料信息库中存储有不同垂直领域的语料,任一语料中一般包括语音对话对应的语言文本以及对语言文本中识别对象的标签。语料信息库中的语料可以是将现有已知的各类语料集中存储,也可以是通过配置平台向语料信息库中注入语料。在语音助手的构建过程中,可以通过在配置平台进行语料选择,将选择的语料输入至训练器进行训练。
60.训练器用于根据配置平台的控制对设定模型进行训练。语音助手处理用户输入的语音对话一般分为自然语言理解部分和对话管理部分,而自然语言理解部分的处理流程一般是通过训练好的模型来实现。由于深度学习模型一般在不同的垂直领域是可以通用的,因而初始的设定模型可以为深度学习模型。
61.模型管理平台用于对训练后的各模型进行管理,支持对同一语音助手中的实体模型进行多个版本的管理,也支持对实体模型的动态加载、模型卸载、模型删除、模型状态的查询等操作。同时,多版本控制为开发和应用过程中进行ab测试和版本回滚提供了便利。
62.基于图1所示的系统架构图,本技术实施例提供了一种构建语音助手的流程,如图3所示包括:
63.s301、基于用户配置得到待构建的语音助手的各业务场景及每个业务场景对应的意图;
64.不同领域的语音助手会有不同的业务场景,业务场景可以理解为语音对话的使用
环境,如针对办公应用的语音助手,可以设置考勤、通讯录、收发邮箱、公文处理、待办等业务场景。在每个业务场景中又可以关联多个意图,意图可以理解为语音对话的交流目的,如在通讯录的业务场景中可以配置通讯录查询、打电话、发短信等意图。
65.s302、通过语料信息库中所述语音助手对应的语料,进行意图识别模型和要素实体提取模型的训练;
66.自然语言理解部分的处理流程一般都会包含意图识别过程和要素实体提取过程,这两个过程均可由深度学习模型完成,同时允许用规则模型进行辅助判断。在深度学习模型没有识别出意图或者没有抽取出实体要素时用规则模型进行辅助判断。
67.意图识别模型用于从语音对话中识别出意图,要素实体提取模型用于从语音对话中提取出要素实体,即意图关联的对象。如在打电话的业务场景中,在语音对话为“打电话给xxx”,则通过意图识别模型可以识别出语音对话的意图为“打电话”,通过要素实体提取模型可以识别出语音对话的要素实体为“xxx”。
68.为了实现对意图识别模型及要素实体提取模型的训练,就需要使用语料信息库中关于该业务场景的各种语料,而且每条语料都配置有对应的意图和要素实体的位置。如打电话的业务场景中某一条语料为“马上给xxx”,在该条语料中,会标记“打电话”为意图,“xxx”为要素实体。
69.s303、针对每个意图,基于用户配置得到所述意图对应的任务,所述任务用于在通过语音对话获取的要素实体满足所述任务的要素实体配置信息后,触发执行并得到所述语音对话对应的响应配置。
70.在识别出意图后,需要针对语音对话进行响应,因而需要为每个意图设置一个任务。如打电话的意图所对应的任务为打电话,发短信的意图所对应的任务为发短信。
71.为了实现任务的执行,需要在每个任务下配置任务关联的要素实体。当一个任务的关联要素实体都得到满足后任务便达到了可执行的条件。比如,在打电话的业务场景下,若语音对话为“马上打电话”,则在识别出“打电话”的意图后,启动对应的打电话任务。在执行打电话任务的流程中,首先需要确定打电话任务关联的要素实体—打电话对象,但从语音对话“马上打电话”中并没有到,则的任务还未达到可执行的条件。
72.响应配置是针对语音对话的响应,也可以认为是语音对话对应的意图的执行结果。执行结果可以是响应的语音信息,也可以是向用户展示的界面内容,也可以是任务执行的状态,如打电话的连接回音。
73.s304、将所述意图识别模型、所述要素实体提取模型及各任务对应的对话策略模型,构建为所述语音助手。
74.在上述实现过程中,通过训练得到的意图识别模型和要素实体提取模型完成了自然语音理解过程,将得到的用户输入语句的意图和要素实体这些关键信息为对话策略模型所使用。对话策略模型根据用户输入语句的意图和要素实体结合历史输入语句按照意图对应的任务做出相应的响应。
75.通过上述方式,将意图识别和要素实体抽取的深度学习模型的结构进行固化,而将训练使用的语料进行可配置化,实现了不同垂直领域通过对训练数据的配置和规则模型的规则配置来完成个性化的自然语言理解模块,无需对代码进行二次开发。同时,在构建语音助手的过程中利用配置对对话策略模型进行干预,实现了无需修改代码完成了对话管理
部分。
76.本技术实施例进一步提供一种对意图对应的任务进行配置的流程,如图4所示,包括:
77.s3031、获取用户配置的任务激活阶段;所述任务激活阶段用于根据语音对话的意图启动任务;
78.配置的每个意图的任务会涉及到任务激活阶段,任务激活阶段用于确定在合适的时候根据语音对话的意图来激活相应的任务。如根据历史对话的跟踪发现当前没有处于任何任务的对话流程中,或者处于某个任务的对话流程中但是用户没有做出预期的行为就会强制中断了这个任务的对话,根据新的意图激活对应的任务。
79.s3032、获取用户配置的要素实体请求阶段;所述要素实体请求阶段用于触发从语音对话中获取要素实体;
80.配置的要素实体请求阶段会对任务相关联的要素实体进行干预,当某个关联的必选要素实体没有从用户的输入语句和上下文中得到时会对相应的要素实体进行追问,追问的语句可以通过配置进行干预。
81.s3033、获取用户配置的要素实体校验阶段;所述要素实体校验阶段用于确定要素实体满足实体要素配置信息;
82.配置的要素实体校验阶段,在获取到关联的要素实体后,会对要素实体进行校验干预,比如单值确认和多选一等。当一个任务的相关联要素实体都得到满足后,任务便达到了可执行条件。
83.s3034、获取用户配置的任务执行阶段;所述任务执行阶段用于执行所述语音对话指示的任务并得到对应的响应配置。
84.配置的任务执行阶段在任务达到可执行条件后,执行所述语音对话指示的任务并得到对应的响应配置。如打电话的任务,就进行电话拨通;发邮件的任务,就进行邮件发送。响应配置可以为语音提示,如正在;也可以是界面显示提示,如“邮件发送成功”等。
85.上述实现过程中将对话过程抽象成任务激活阶段、要素实体请求阶段、要素实体校验阶段、任务执行阶段,可以适配大部分的对话场景和流程,无需针对不同的业务任务分别开发对话策略。每个阶段都可以通过配置进行灵活的干预,而每个阶段的执行逻辑和可干预内容以及各个阶段之间的切换逻辑都在代码中进行固化,在构建语音助手的过程中根据利用配置对对话策略模型进行干预而无需修改代码。
86.本技术实施例进一步对要素实体校验阶段及任务执行阶段的配置进行细化介绍,具体包括:
87.获取用户对要素实体的以下至少一项的要素实体配置信息:可选必选项配置、追问语句配置、单值多值配置、实体类型配置及校验配置;
88.获取用户对任务执行的以下至少一项的任务执行配置信息:执行方式配置、执行确认配置及关联任务配置。
89.以下将对上述提到的每项配置信息进行详述。
90.1、可选必选项配置:在可选必选项配置下,可以根据任务的具体情况来选择哪些要素实体是可选的,哪些要素实体是必选的。如用户在使用通讯录语音助手时,当任务为打
电话时,打电话的要素实体即为必选的配置。如“给张三打电话”,“张三”这个要素实体即为必选配置。
91.2、追问语句配置:对于缺失的要素实体,配置平台还可通过提前对缺失语句进行追问语句配置。在使用语音助手时,如果没有识别到必选的要素实体,那么语音助手就会发起追问语句。如在打电话意图下,当用户说出“我要打电话”语句时,追问语句为“请问您要给谁打电话”。
92.3、单值多值配置:在不同的任务中要素实体可以是一个也可以是多个,通过配置平台也可以进行配置。如在打电话的任务中,打给的要素实体(即对象)只能是一个人,要素实体人名只能配置为单值;但在发邮件的任务中可以同时发送给多人,要素实体人名就可以配置为多值。
93.4、实体类型配置:每个要素实体都有一个与之对应的实体类型,每种实体类型可以为该类型下所有的实体配置统一的校验方法。实体类型在实体继承中也有很大的帮助,如在邮件发送场景中语音助手向用户询问邮件收件人时,用户回复了一个人名,这时候要素实体提取模型识别出的要素实体是人名,而不是收件人,但是通过配置将邮件收件人和人名配置成同一种实体类型,那么在这种情况下语音助手会自动将抽取出的人名信息集成到收件人信息中去。
94.5、校验配置:配置完成后,部分要素实体可能需要对值进行校验。在配置平台中可以设置要素实体的词典,让要素实体只能在此词典中进行选择。如在请假的任务下,关联的要素实体有年假、事假、婚假、病假等,当提取到的要素实体为“四假”时,语音助手可以根据词典自动纠错为“事假”。除了利用词典对要素实体进行校验外,还允许通过配置调用第三方校验接口或者定制化开发的自定义校验方法对要素实体进行校验。
95.6、执行确认配置:任务执行阶段会根据配置确定是否向用户进行执行确认,如果有做这个配置,则会生成确认语句向用户询问是否执行,用户可以在这个阶段取消当前的任务。
96.7、执行方法配置:根据配置决定是生成一个文本对话还是调用业务后台并将业务后台处理结果传给用户。如果根据配置是生成一个文本那么就会导出配置好的对话生成模板,结合当前获取的所有相关的要素实体生成一个文本语句并返回给用户。配置的如果是调用业务后台,那么就会通过业务后台来进行执行。
97.8、关联任务配置:在一个任务执行完成后,如果有为这个任务配置关联任务,那么会向用户推荐他可能接下来想要执行的任务,用户在收到这个推荐消息后可以进行确认或选择(只配置一个关联任务时进行确认询问,配置了多个关联任务时进行选择询问)。如果用户确定了某个关联任务,那么会直接激活这个任务,同时上一个执行完成的任务的关联要素实体会的值会被这个关联任务直接利用。
98.比如用户在执行了通讯录查询的任务“一下张三的”后,根据配置查询到通讯录查询任务有一个关联任务为打电话,那么在完成通讯录查询任务后会生成任务推荐语句“您可能还想打电话”,用户回复确认意图的语句后激活打电话任务,同时直接利用通讯录查询任务中获取的人名信息“张三”直接打电话给“张三”。如果用户不想执行关联任务只需要回复否定意图的语句就可以取消关联任务的执行。
99.图5为本技术实施例提供的一种语音助手配置流程图,如图5所示,针对任一需要
配置生成的语音助手(即图中的语音助手实体1、语音助手实体2),需设置语音助手关联的业务场景,如语音助手实体1关联的业务场景1、业务场景2、业务场景3及业务场景4,语音助手实体2关联的业务场景4和业务场景5。可以看出业务场景4是共用的,意味着语料信息库中关于业务场景4的语料会应用到不同的语音助手上。每个业务场景下均需配置对应的意图,如业务场景3关联意图为意图1、意图2和意图3;而每个意图都有各自对应的任务,意图1对应配置有任务1、意图2对应配置有任务2和意图3对应配置有任务3。而具体到每个任务,任务的配置中又涉及到要素实体的配置(即针对任务关联的每个要素实体可以进行要素实体配置)及任务执行的配置(即任务执行方式相关的配置)。
100.为了满足定制化需求,本技术实施例以组件化或提供标准的api调用接口的方式进行扩展,每次定制化开发都无需对核心代码进行修改,保证稳定性。常需要定制化的功能一般在自然语言理解模块进行插入,本技术实施例对自然语言理解模块进行组件化,上述所提到的意图识别模块和要素实体抽取模型就是自然语言理解模块中的两个组件,可根据需要更换其他深度学习模型组件来实现意图识别的功能和要素实体的抽取,也可开发新的组件对用户输入的语句进行处理。在对话策略管理模型中对要素实体的校验逻辑也可根据标准的开发接口进行定制化开发或者通过标准的api接口进行对接(比如开发一个对身份证号码进行校验的标准api接口,系统会自动将识别为身份证号码的要素实体传输给这个接口进行校验和验真,并根据返回结果对用户做出相应的回应)。
101.针对一些经常需要根据业务进行定制化开发的功能进行抽象化,提供标准的组件开发模式和api调用接口等方式可快速地实现定制化开发且不需要修改核心代码,大大减少了软件的开发工作量,甚至实现无开发量。
102.通过以上方法实现了语音助手的可配置化,在满足可配置化的同时又允许开发者经过少量的代码开发进行定制化,基本上能满足各个垂直领域快速生成语音助手的需求。
103.如下针对上述构建的语音助手的使用执行过程进行阐述。如图6所示,提供了一种执行语音助手的系统架构图,包括:语音助手客户端、语音助手后台及业务后台。
104.具体来说,语音助手客户端可以理解为一个安装应用,可以是预先安装的客户端、网页版应用或嵌入在其他应用中的小程序等。语音助手客户端可以安装在任一具有执行功能的设备上,如智能手机、平板电脑、笔记本电脑、台式计算机等,但并不局限于此。语音助手客户端主要用于与用户进行语音交互。
105.语音助手后台实际上完成语音交互的真正执行者,通过模型管理平台加载了所需的语音助手,具体来说就是加载了语音助手中的意图识别模型、要素实体提取模型和对话策略模型。
106.业务后台,用于在语音助手后台的控制下来协助完成语音交互,即主要用于完成任务的执行。
107.图7为本技术实施例提供的一种语音助手的执行方法,包括:
108.s701、通过所述语音助手获取用户的语音对话;
109.此步骤可以通过上述的语音助手客户端来实现,如以差旅助手作为示例,用户可以通过装载在终端上的差旅助手客户端进行语音对话。
110.s702、通过所述语音助手对应的意图识别模型,确定所述语音对话的意图;
111.此步骤可以通过上述的语音助手后台来实现,如通过加载的差旅助手中的意图识
别模型对差旅助手客户端采集的语音对话进行意图识别。如用户说“帮我订一下下周一的机票”,则识别出意图为“订机票”。
112.s703、通过所述语音助手对应的要素实体提取模型获取所述意图对应的任务所需的要素实体;
113.此步骤可以通过上述的语音助手后台来实现,如通过加载的差旅助手中的要素实体提取模型来进行,针对用户说的“帮我订一下下周一的机票”,可提取此语音对话中的实体要素为“下周一”。
114.s704、通过所述语音助手对应的对话策略模型,在任务所需的要素实体满足所述任务的要素实体配置信息后,执行所述任务并反馈执行得到的响应配置。
115.此步骤可以通过上述的语音助手后台来实现,如通过加载的差旅助手中的对话策略来进行,对话策略模型确定启动“订机票”意图对应的任务后,会对得到的语音对话的要素实体进行处理,如“订机票”任务涉及的必选项要素实体包括出发时间、出发地、目的地,则针对缺少的要素实体会追加提问,如“请告知出发地和目的地”,从而在要素实体满足所述任务的要素实体配置信息后,执行所述任务并反馈执行得到的响应配置。
116.以下将对步骤704的具体执行过程进行详述,如图8所示,包括:
117.s801、通过所述语音助手中配置的所述任务的任务激活阶段,确定不存在历史对话对应的任务或历史对话对应的任务与所述意图无关,则启动所述意图对应的任务。
118.此步骤为一个对话流程的起始节点,在配置平台配置的每一个意图都对应着一个任务,如果根据历史对话发现当前没有处于所识别出的意图的任何任务的对话流程中,或者处于某个对话流程中但用户没有做出预期的行为那么就会中断这个任务的对话,根据新的意图激活新的任务。比如在差旅助手中,当用户说“帮我订机票”,语音助手会继续询问订机票的时间及出发地、目的地等信息,但用户又说“帮我订酒店”,那么语音助手会识别出“订酒店”这个意图激活新的任务。
119.s802、通过所述语音助手中配置的所述任务的要素实体请求阶段,从交互的语音对话中获取任务所需的要素实体。
120.在任务激活后,语音助手会根据用户的历史对话及当前的对话信息获取所需意图对应的要素实体,如在差旅助手中,在识别到意图为“订机票”时,语音助手会根“订机票”获取此任务所必要的实体要素,如出发地、目的地、时间等。
121.s803、通过所述语音助手中配置的所述任务的要素实体校验阶段,确定获取的任务所需的要素实体是否满足所述任务的要素实体配置信息。
122.此步骤为实体要素校验阶段,在获取到的要素实体中,语音助手还会判断是否获取到了必要的要素实体,如果没有则会发起询问语句,如当识别到“订机票”这个意图后,会根据其所对应的“订机票”任务对应的必要的实体要素来判断是否已获取所有必要的实体要素。进一步地,会对获得的各实体要素进行进一步地取值校验等。
123.s804、在满足所述任务的要素实体配置信息后,通过所述语音助手中配置的所述任务的任务执行阶段,执行所述任务并反馈执行得到的响应配置。
124.此步骤为语音助手执行阶段,在某个任务的对话过程中,当所有必选的要素实体的信息都已经收集完毕后就会进入任务执行阶段。
125.以下对语音助手的要素实体校验阶段和任务执行阶段做详细阐述,如图9所示:
126.s901通过所述语音助手中配置的所述任务的要素实体校验阶段,确定获取的任务所需的要素实体是否满足所述任务的要素实体配置信息,包括:
127.取的任一要素实体,确定所述要素实体是否满足所述要素实体校验阶段中的要素实体配置信息;所述要素实体配置信息包括以下至少一项:可选必选项配置、追问语句配置、单值多值配置、实体类型配置及校验配置。
128.此步骤为要素信息的具体校验阶段,当语音助手在识别到对话意图后会根据此意图对应的任务获取所必要的实体要素,以及实体要素是单值还是多值、实体要素的类型进行校验。如果没有获取到必要的实体要素,或者在单值多值及实体类型错误后,语音助手还会向用户继续询问,直到所有选项满足任务的要求后执行该任务。
129.如在差旅助手中,当只获取到“订机票”这个任务时,语音助手会继续询问,“目的地是哪里”、“出发地是哪里”等必选信息,当在获取到“订机票”的目的地是两个不同的地方时,语音助手会再让用户确认“目的地”的并告知用户目的地只能是一个,当语音助手让用户输入“乘机人”时,用户只说出一个人名即可,“乘机人”和人名配置为一个实体类型。
130.s902语音助手中配置的所述任务的任务执行阶段,执行所述任务并反馈执行得到的响应配置,包括:
131.按照所述任务执行阶段中的任务执行配置信息,执行所述任务并反馈执行得到的响应配置;所述任务执行配置信息包括以下至少一项:执行方式配置、执行确认配置及关联任务配置。
132.此步骤为执行的最后阶段,在所有必选的要素实体的信息收集完毕后,就会进入执行阶段,任务执行阶段会根据配置确定是否向用户进行执行确认,用户也可以在此阶段取消当前的任务。当用户在执行完一个任务后语音助手还会推荐这个任务的关联任务。
133.如“差旅助手”中,当语音助手获取到所有必要的要素实体后,会向用户发来确认执行的语句,当执行完“订机票”的任务后,语音助手还会推荐关联任务,如“订酒店”、“接机”等,用户可以根据需要激活相应的任务,也可以直接取消。
134.本发明将语音助手构建的过程做成可配置化,对接一项业务只需在配置和管理平台上进行简单的配置和训练就能得到一个语音助手而不需要做额外的开发。
135.针对一些经常需要根据业务进行定制化开发的地方进行抽象化,提供标准的组件开发模式和api调用接口方式,可快速的进行定制化开发而不需要修改核心代码,大大减少了软件的开发工作量,甚至实现无开发量。
136.基于相同的技术构思,本技术实施例提供了一种语音助手装置,如图10所示,语音助手装置1000包括:配置模块1001,用于基于用户配置得到待构建的语音助手的各业务场景及每个业务场景对应的意图。训练单元1002,用于通过语料信息库中所述语音助手对应的语料,进行意图识别模型和要素实体提取模型的训练。任务生成单元1003,用于针对每个意图,基于用户配置得到所述意图对应的任务,所述任务用于在通过语音对话获取的要素实体满足所述任务的要素实体配置信息后,触发执行并得到所述语音对话对应的响应配置。构建单元1004,用于将所述意图识别模型、所述要素实体提取模型及各任务对应的对话策略模型,构建为所述语音助手。
137.基于相同的技术构思,本技术实施例提供了一种计算机设备,计算机设备可以是终端或服务器,如图11所示,包括至少一个处理器1101,以及与至少一个处理器连接的存储
器1102,本技术实施例中不限定处理器1101与存储器1102之间的具体连接介质,图11中处理器1101和存储器1102之间通过总线连接为例。总线可以分为地址总线、数据总线、控制总线等。
138.在本技术实施例中,存储器1102存储有可被至少一个处理器1101执行的指令,至少一个处理器1101通过执行存储器1102存储的指令,可以执行上述语音助手构建方法、执行方法中所包括的步骤。
139.其中,处理器1101是计算机设备的控制中心,可以利用各种接口和线路连接计算机设备的各个部分,通过运行或执行存储在存储器1102内的指令以及调用存储在存储器1102内的数据,从而进行交通流溯源。可选的,处理器1101可包括一个或多个处理单元,处理器1101可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器1101中。在一些实施例中,处理器1101和存储器1102可以在同一芯片上实现,在一些实施例中,它们也可以在独立的芯片上分别实现。
140.处理器1101可以是通用处理器,例如中央处理器(cpu)、数字信号处理器、专用集成电路(application specific integrated circuit,asic)、现场可编程门阵列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件,可以实现或者执行本技术实施例中公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本技术实施例所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。
141.存储器1102作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块。存储器1102可以包括至少一种类型的存储介质,例如可以包括闪存、硬盘、多媒体卡、卡型存储器、随机访问存储器(random access memory,ram)、静态随机访问存储器(static random access memory,sram)、可编程只读存储器(programmable read only memory,prom)、只读存储器(read only memory,rom)、带电可擦除可编程只读存储器(electrically erasable programmable read-only memory,eeprom)、磁性存储器、磁盘、光盘等等。存储器1102是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。本技术实施例中的存储器1102还可以是电路或者其它任意能够实现存储功能的装置,用于存储程序指令和/或数据。
142.基于同一发明构思,本技术实施例提供了一种计算机可读存储介质,其存储有可由计算机设备执行的计算机程序,当程序在计算机设备上运行时,使得计算机设备执行上述语音助手构建方法、执行方法的步骤。
143.本领域内的技术人员应明白,本技术的实施例可提供为方法、系统、或计算机程序产品。因此,本技术可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本技术可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
144.本技术是参照根据本技术的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或
方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
145.这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
146.这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
147.显然,本领域的技术人员可以对本技术进行各种改动和变型而不脱离本技术的精神和范围。这样,倘若本技术的这些修改和变型属于本技术权利要求及其等同技术的范围之内,则本技术也意图包含这些改动和变型在内。

技术特征:


1.一种语音助手的构建方法,其特征在于,所述方法包括:基于用户配置得到待构建的语音助手的各业务场景及每个业务场景对应的意图;通过语料信息库中所述语音助手对应的语料,进行意图识别模型和要素实体提取模型的训练;针对每个意图,基于用户配置得到所述意图对应的任务,所述任务用于在通过语音对话获取的要素实体满足所述任务的要素实体配置信息后,触发执行并得到所述语音对话对应的响应配置;将所述意图识别模型、所述要素实体提取模型及各任务对应的对话策略模型,构建为所述语音助手。2.根据权利要求1所述的方法,其特征在于,所述意图识别模型和所述要素实体提取模型以组件方式存储至所述语音助手中。3.根据权利要求1所述的方法,其特征在于,基于用户配置得到所述意图对应的任务,包括:获取用户配置的任务激活阶段;所述任务激活阶段用于根据语音对话的意图启动任务;获取用户配置的要素实体请求阶段;所述要素实体请求阶段用于触发从语音对话中获取要素实体;获取用户配置的要素实体校验阶段;所述要素实体校验阶段用于确定要素实体满足实体要素配置信息;获取用户配置的任务执行阶段;所述任务执行阶段用于执行所述语音对话指示的任务并得到对应的响应配置。4.根据权利要求3所述的方法,其特征在于,获取用户配置的要素实体校验阶段,包括:获取用户对要素实体的以下至少一项的要素实体配置信息:可选必选项配置、追问语句配置、单值多值配置、实体类型配置及校验配置;获取用户配置的任务执行阶段,包括:获取用户对任务执行的以下至少一项的任务执行配置信息:执行方式配置、执行确认配置及关联任务配置。5.一种语音助手的执行方法,其特征在于,所述语音助手具有设定的各业务场景及每个业务场景对应的意图,所述方法包括:通过所述语音助手获取用户的语音对话;通过所述语音助手对应的意图识别模型,确定所述语音对话的意图;通过所述语音助手对应的要素实体提取模型获取所述意图对应的任务所需的要素实体;通过所述语音助手对应的对话策略模型,在任务所需的要素实体满足所述任务的要素实体配置信息后,执行所述任务并反馈执行得到的响应配置。6.根据权利要求5所述的方法,其特征在于,通过所述语音助手对应的对话策略模型,在任务所需的要素实体满足所述任务的要素实体配置信息后,执行所述任务并反馈执行得到的响应配置,包括:通过所述语音助手中配置的所述任务的任务激活阶段,确定不存在历史对话对应的任
务或历史对话对应的任务与所述意图无关,则启动所述意图对应的任务;通过所述语音助手中配置的所述任务的要素实体请求阶段,从交互的语音对话中获取任务所需的要素实体;通过所述语音助手中配置的所述任务的要素实体校验阶段,确定获取的任务所需的要素实体是否满足所述任务的要素实体配置信息;在满足所述任务的要素实体配置信息后,通过所述语音助手中配置的所述任务的任务执行阶段,执行所述任务并反馈执行得到的响应配置。7.根据权利要求6所述的方法,其特征在于,通过所述语音助手中配置的所述任务的要素实体校验阶段,确定获取的任务所需的要素实体是否满足所述任务的要素实体配置信息,包括:针对获取的任一要素实体,确定所述要素实体是否满足所述要素实体校验阶段中的要素实体配置信息;所述要素实体配置信息包括以下至少以下:可选必选项配置、追问语句配置、单值多值配置、实体类型配置及校验配置;通过所述语音助手中配置的所述任务的任务执行阶段,执行所述任务并反馈执行得到的响应配置,包括:按照所述任务执行阶段中的任务执行配置信息,执行所述任务并反馈执行得到的响应配置;所述任务执行配置信息包括以下至少一项:执行方式配置、执行确认配置及关联任务配置。8.一种语音助手的构建装置,其特征在于,包括:配置模块,用于基于用户配置得到待构建的语音助手的各业务场景及每个业务场景对应的意图;训练单元,用于通过语料信息库中所述语音助手对应的语料,进行意图识别模型和要素实体提取模型的训练;任务生成单元,用于针对每个意图,基于用户配置得到所述意图对应的任务,所述任务用于在通过语音对话获取的要素实体满足所述任务的要素实体配置信息后,触发执行并得到所述语音对话对应的响应配置;构建单元,用于将所述意图识别模型、所述要素实体提取模型及各任务对应的对话策略模型,构建为所述语音助手。9.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1-7任一所述方法的步骤。10.一种计算机可读存储介质,其特征在于,其存储有可由计算机设备执行的计算机程序,当所述程序在计算机设备上运行时,使得所述计算机设备执行权利要求1~7任一所述方法的步骤。

技术总结


本申请提供了一种语音助手的构建方法、执行方法及装置,主要方法包括:基于用户配置得到待构建的语音助手的各业务场景及每个业务场景对应的意图;通过语料信息库中所述语音助手对应的语料,进行意图识别模型和要素实体提取模型的训练;针对每个意图,基于用户配置得到所述意图对应的任务,所述任务用于在通过语音对话获取的要素实体满足所述任务的要素实体配置信息后,触发执行并得到所述语音对话对应的响应配置;将所述意图识别模型、所述要素实体提取模型及各任务对应的对话策略模型,构建为所述语音助手。通过上述方式将语音助手的构建做成了可配置化,只需要在配置平台上进行简单的配置和训练就能得到一个语音助手而不需要做额外的开发。需要做额外的开发。需要做额外的开发。


技术研发人员:

张杰 王莉 黄创光

受保护的技术使用者:

天翼云科技有限公司

技术研发日:

2022.07.25

技术公布日:

2022/11/3

本文发布于:2024-09-23 18:25:36,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/3/13664.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:所述   实体   要素   语音
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议