意图识别方法、装置、设备及存储介质与流程



1.本发明涉及计算机技术领域,尤其涉及一种意图识别方法、装置、设备及存储介质。


背景技术:



2.随着ai技术的发展,智能产品在感知层面的能力正在变强,它能感知人们的语音、肢体语言、手势动作、表情眼神等,实现了人机自然交互的可能性。未来智能产品的趋势是将拥有情感计算能力(affective computing),通过认知人类的语音信息、人脸表情、肢体动作等,从而调整自身的反馈来适应人们那一刻提出的需求,交互会变得越来越容易,它会更懂你。
3.智能交互技术的应用场景繁多,目前常见的场景有智能家居、智能音响、自助业务办理等。在各应用场景下,需先对客户的意图进行识别,进而根据意图识别结果进行进一步的交互。在进行意图识别时,目前一般是采用nlp(natural language processing,自然语言处理)意图识别算法进行识别。然而,已有的nlp意图识别算法基本上是针对特定行业、特定场景的语料文件进行训练得到的,不具有通用性,若直接使用现有的nlp算法进行意图识别,会导致意图识别结果的准确性较差。但是,若重新根据人工构造的训练样本训练得到适合的nlp意图识别算法,其人工和时间成本较高。


技术实现要素:



4.本发明的主要目的在于提供一种意图识别方法、装置、设备及存储介质,旨在实现在提高意图识别结果准确性的同时,节省人工和时间成本。
5.为实现上述目的,本发明提供一种意图识别方法,所述意图识别方法包括:
6.获取待识别音频文件
7.对所述待识别音频文件进行语音识别,得到音频识别结果;
8.执行预设意图识别过滤器链,以调用意图匹配器对所述音频识别结果进行意图匹配,得到第一意图识别结果。
9.优选地,所述对所述待识别音频文件进行语音识别,得到音频识别结果的步骤之前,所述意图识别方法还包括:
10.对所述待识别音频文件进行vad检测,得到检测结果;
11.根据所述检测结果判断所述待识别音频文件是否为空白音频;
12.若所述待识别音频文件不为空白音频,则执行步骤:对所述待识别音频文件进行语音识别,得到音频识别结果。
13.优选地,所述对所述待识别音频文件进行语音识别,得到音频识别结果的步骤之前,所述意图识别方法还包括:
14.根据所述检测结果判断所述待识别音频文件的开头和/或结尾是否存在静默片段;
15.若所述待识别音频文件的开头和/或结尾存在静默片段,则根据所述检测结果确定得到静默时间段;
16.根据所述静默时间段对所述待识别音频文件进行截取,得到目标音频文件;
17.所述对所述待识别音频文件进行语音识别,得到音频识别结果的步骤包括:
18.对所述目标识别音频文件进行语音识别,得到音频识别结果。
19.优选地,所述执行预设意图识别过滤器链,以调用意图匹配器对所述音频识别结果进行意图匹配,得到第一意图识别结果的步骤之前,所述意图识别方法还包括:
20.获取答案意图信息,其中,所述答案意图信息包括预期答案和意图类型;
21.根据有限状态机算法将所述预期答案构建成有限状态机的状态树,基于所述状态树得到各意图类型对应的意图匹配器;
22.根据预设过滤器顺序和所述意图类型对所述意图匹配器进行组装,得到所述预设意图识别过滤器链。
23.优选地,所述执行预设意图识别过滤器链,以调用意图匹配器对所述音频识别结果进行意图匹配,得到第一意图识别结果的步骤包括:
24.执行预设意图识别过滤器链,以按预设过滤器顺序依次调用对应的意图匹配器对所述音频识别结果进行意图匹配,直至被调用的意图匹配器的状态树中的预期答案与所述音频识别结果匹配成功时停止匹配,输出第一意图识别结果。
25.优选地,所述意图识别方法还包括:
26.检测所述第一意图识别结果是否为空;
27.若所述第一意图识别结果为空,则将所述音频识别结果由汉字转换成拼音,得到第一拼音文本;
28.获取所述第一拼音文本中各拼音的相似拼音,根据所述第一拼音文本和所述相似拼音构建得到第二拼音文本;
29.执行预设意图识别过滤器链,以调用意图匹配器对所述第二拼音文本进行意图匹配,得到第二意图识别结果。
30.此外,为实现上述目的,本发明还提供一种意图识别装置,所述意图识别装置包括:
31.文件获取模块,用于获取待识别音频文件;
32.语音识别模块,用于对所述待识别音频文件进行语音识别,得到音频识别结果;
33.意图识别模块,用于执行预设意图识别过滤器链,以调用意图匹配器对所述音频识别结果进行意图匹配,得到第一意图识别结果。
34.此外,为实现上述目的,本发明还提供一种意图识别设备,所述意图识别设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如上所述的意图识别方法的步骤。
35.此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的意图识别方法的步骤。
36.此外,为实现上述目的,本发明还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上所述的意图识别方法的步骤。
37.本发明提供一种意图识别方法、装置、设备、存储介质及产品,先获取待识别音频文件,然后,对待识别音频文件进行语音识别,得到音频识别结果,进而执行预设意图识别过滤器链,以调用意图匹配器对音频识别结果进行意图匹配,得到第一意图识别结果。其中,该预设意图识别过滤器链是通过责任链模式构建得到的,意图匹配器是基于有限状态机构建的,本发明通过责任链模式+有限状态机组合模式,构建一个意图识别过滤器链,以用于完成意图的识别,相比于采用nlp意图识别算法进行识别,可大大提高意图识别结果的准确性,同时,本发明无需人工构建训练样本,也无需训练得到适合的nlp意图识别算法,因此可大大节省人工成本和时间成本。
附图说明
38.图1为本发明实施例方案涉及的硬件运行环境的设备结构示意图;
39.图2为本发明意图识别方法第一实施例的流程示意图;
40.图3为本发明意图识别装置第一实施例的功能模块示意图。
41.本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
42.应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
43.参照图1,图1为本发明实施例方案涉及的硬件运行环境的设备结构示意图。
44.本发明实施例意图识别设备可以是服务器,也可以是pc(personal computer,个人计算机)、平板电脑、便携计算机等终端设备。
45.如图1所示,该意图识别设备可以包括:处理器1001,例如cpu,通信总线1002,用户接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(display)、输入单元比如键盘(keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如wi-fi接口)。存储器1005可以是高速ram存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
46.本领域技术人员可以理解,图1中示出的意图识别设备结构并不构成对意图识别设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
47.如图1所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及计算机程序。
48.在图1所示的终端中,网络接口1004主要用于连接后台服务器,与后台服务器进行数据通信;用户接口1003主要用于连接客户端,与客户端进行数据通信;而处理器1001可以用于调用存储器1005中存储的计算机程序,并执行以下操作:
49.获取待识别音频文件;
50.对所述待识别音频文件进行语音识别,得到音频识别结果;
51.执行预设意图识别过滤器链,以调用意图匹配器对所述音频识别结果进行意图匹配,得到第一意图识别结果。
52.进一步地,处理器1001可以调用存储器1005中存储的计算机程序,还执行以下操作:
53.对所述待识别音频文件进行vad检测,得到检测结果;
54.根据所述检测结果判断所述待识别音频文件是否为空白音频;
55.若所述待识别音频文件不为空白音频,则对所述待识别音频文件进行语音识别,得到音频识别结果。
56.进一步地,处理器1001可以调用存储器1005中存储的计算机程序,还执行以下操作:
57.根据所述检测结果判断所述待识别音频文件的开头和/或结尾是否存在静默片段;
58.若所述待识别音频文件的开头和/或结尾存在静默片段,则根据所述检测结果确定得到静默时间段;
59.根据所述静默时间段对所述待识别音频文件进行截取,得到目标音频文件;
60.对所述目标识别音频文件进行语音识别,得到音频识别结果。
61.进一步地,处理器1001可以调用存储器1005中存储的计算机程序,还执行以下操作:
62.获取答案意图信息,其中,所述答案意图信息包括预期答案和意图类型;
63.根据有限状态机算法将所述预期答案构建成有限状态机的状态树,基于所述状态树得到各意图类型对应的意图匹配器;
64.根据预设过滤器顺序和所述意图类型对所述意图匹配器进行组装,得到所述预设意图识别过滤器链。
65.进一步地,处理器1001可以调用存储器1005中存储的计算机程序,还执行以下操作:
66.执行预设意图识别过滤器链,以按预设过滤器顺序依次调用对应的意图匹配器对所述音频识别结果进行意图匹配,直至被调用的意图匹配器的状态树中的预期答案与所述音频识别结果匹配成功时停止匹配,输出第一意图识别结果。
67.进一步地,处理器1001可以调用存储器1005中存储的计算机程序,还执行以下操作:
68.检测所述第一意图识别结果是否为空;
69.若所述第一意图识别结果为空,则将所述音频识别结果由汉字转换成拼音,得到第一拼音文本;
70.获取所述第一拼音文本中各拼音的相似拼音,根据所述第一拼音文本和所述相似拼音构建得到第二拼音文本;
71.执行预设意图识别过滤器链,以调用意图匹配器对所述第二拼音文本进行意图匹配,得到第二意图识别结果。
72.基于上述硬件结构,提出本发明意图识别方法的各实施例。
73.本发明提供一种意图识别方法。
74.参照图2,图2为本发明意图识别方法第一实施例的流程示意图。
75.在本实施例中,该意图识别方法包括:
76.步骤s10,获取待识别音频文件;
77.本实施例的意图识别方法是由意图识别设备实现的,该设备可以是服务器,也可以是pc(personal computer,个人计算机)、平板电脑、便携计算机等终端设备。
78.在本实施例中,首先获取待识别音频文件,该待识别音频文件为录好的音频文件,其内容为客户对于提问所作出的答复。
79.步骤s20,对所述待识别音频文件进行语音识别,得到音频识别结果;
80.在获取到待识别音频文件之后,对待识别音频文件进行语音识别,得到音频识别结果。在进行语音识别时,可采用asr(automatic speech recognition,自动语音识别技术)算法进行识别,可调用对应的接口进行语音识别,当然,在具体实施时,还可以将待识别音频文件发送至对应的专业平台进行语音识别,进而接收到专业平台返回的音频识别结果。该音频识别结果即为客户对于提问所作出的答复对应的文字文本。
81.步骤s30,执行预设意图识别过滤器链,以调用意图匹配器对所述音频识别结果进行意图匹配,得到第一意图识别结果。
82.在进行语音识别得到音频识别结果之后,执行预设意图识别过滤器链,该预设意图识别过滤器链是预先组装好的,具体的组装过程可参照下述第四实施例,此处不作赘述。
83.该预设意图识别过滤器链中包含多种意图类型对应的过滤器和意图匹配器,执行该预设意图识别过滤器链时,可按预设过滤器顺序依次进入各意图类型对应的过滤器,进入到对应的过滤器后,可调用对应的意图匹配器、以将被调用的意图匹配器的状态树中的预期答案与音频识别结果进行意图匹配,直至被调用的意图匹配器的意图匹配器的状态树中的预期答案与音频识别结果匹配成功时停止匹配,输出意图识别结果(为与后续的基于第二拼音文本得到的意图识别结果进行区分,将此处的意图识别结果记为第一意图识别结果),即为该匹配成功的意图匹配器所对应的意图类型。
84.例如,若预设意图识别过滤器链包括n个过滤器,对应的意图类型依次为:否定意图、循环意图、肯定意图、
……
、其他意图,在进行意图识别时,则先进入否定意图对应的过滤器,当否定意图对应的过滤器进行工作时,会动态获取对应的否定意图的意图匹配器进行匹配;若否定意图的意图匹配器未匹配成功,则会进入循环意图对应的过滤器,当循环意图对应的过滤器进行工作时,会动态获取对应的循环意图的意图匹配器进行匹配;若循环意图的意图匹配器匹配成功时,则输出第一意图识别结果为循环意图;若循环意图的意图匹配器匹配失败,则进入下一过滤器(即肯定过滤器),依此类推,直至匹配成功。若全部匹配失败,则输入第一意图识别结果为空。
85.本发明实施例提供一种意图识别方法,先获取待识别音频文件,然后,对待识别音频文件进行语音识别,得到音频识别结果,进而执行预设意图识别过滤器链,以调用意图匹配器对音频识别结果进行意图匹配,得到第一意图识别结果。其中,该预设意图识别过滤器链是通过责任链模式构建得到的,意图匹配器是基于有限状态机构建的,本发明通过责任链模式+有限状态机组合模式,构建一个意图识别过滤器链,以用于完成意图的识别,相比于采用nlp意图识别算法进行识别,可大大提高意图识别结果的准确性,同时,本发明无需人工构建训练样本,也无需训练得到适合的nlp意图识别算法,因此可大大节省人工成本和时间成本。
86.进一步地,基于上述第一实施例,提出本发明意图识别方法的第二实施例。
87.在本实施例中,在上述步骤s20之前,该意图识别方法还包括:
88.步骤a,对所述待识别音频文件进行vad检测,得到检测结果;
89.在本实施例中,在获取到待识别音频文件之后,调用算法进行语音识别之前,先对待识别音频文件进行vad(voice activity detection,语音活动检测,又称语音端点检测、语音边界检测)检测,得到检测结果,以从声音信号流中识别到静默片段。
90.步骤b,根据所述检测结果判断所述待识别音频文件是否为空白音频;
91.若所述待识别音频文件不为空白音频,则执行步骤s20:对所述待识别音频文件进行语音识别,得到音频识别结果。
92.在得到vad检测结果之后,根据检测结果判断待识别音频文件是否为空白音频,即,根据检测结果检测待识别音频文件的静默片段的总时长是否大于或等于总时长与预设比例(可根据实际需要具体设定)的乘积值,若静默片段的总时长大于或等于该乘积值,则判定待识别音频文件为空白音频;若静默片段的总时长小于该乘积值,则判定待识别音频文件不为空白音频。
93.进一步地,若待识别音频文件不为空白音频,则继续执行步骤:对待识别音频文件进行语音识别,得到音频识别结果。具体的执行过程可参照上述第一实施例,此处不作赘述。
94.进一步地,若待识别音频文件为空白音频,则停止执行后续步骤,生成错误提示信息,以提示该待识别音频文件为空白音频,无需检测,以避免浪费算法资源。
95.本实施例中,通过对待识别音频文件进行vad检测,可以在检测到空白音频时,不执行后续的检测,只有当检测到待识别音频文件不为空白音频时,方会进行后续的检测,通过上述方式,可在降低算法资源的浪费的同时减少企业因调用语音识别算法而造成的成本。
96.进一步地,基于上述第二实施例,提出本发明意图识别方法的第三实施例。
97.在本实施例中,在上述步骤s20之前,所述意图识别方法还包括:
98.步骤c,根据所述检测结果判断所述待识别音频文件的开头和/或结尾是否存在静默片段;
99.在本实施例中,在得到vad检测结果,并进行空白音频的检测之后,若所述待识别音频文件不为空白音频,进一步地,可根据检测结果判断待识别音频文件的开头和/或结尾是否存在静默片段。
100.步骤d,若所述待识别音频文件的开头和/或结尾存在静默片段,则根据所述检测结果确定得到静默时间段;
101.步骤e,根据所述静默时间段对所述待识别音频文件进行截取,得到目标音频文件;
102.此时,步骤s20可以包括:
103.对所述目标识别音频文件进行语音识别,得到音频识别结果。
104.若待识别音频文件的开头和/或结尾存在静默片段,则根据检测结果确定得到静默时间段,即开头的静默片段和/或结尾的静默片段所对应的时间段。然后,根据静默时间段对待识别音频文件进行截取,即去掉开头和/或结尾的静默片段、保留中间部分的非静默片段,以得到目标音频文件。进而,对该目标识别音频文件进行语音识别,得到音频识别结
果,并进一步执行后续的步骤,具体的执行过程可参照上述第一实施例,此处不作赘述。
105.通过上述方式,检测待识别音频文件的开头和/或结尾是否存在静默片段,如果存在,则将静默片段切分出去,从而进一步避免一部分算法资源的浪费,同时也进一步避免企业调用语音识别算法的费用浪费,从而可节省企业成本。
106.进一步地,基于上述第一至第三实施例,提出本发明意图识别方法的第四实施例。
107.在本实施例中,在上述步骤s30之前,所述意图识别方法还包括:
108.步骤f,获取答案意图信息,其中,所述答案意图信息包括预期答案和意图类型;
109.步骤g,根据有限状态机算法将所述预期答案构建成有限状态机的状态树,基于所述状态树得到各意图类型对应的意图匹配器;
110.步骤h,根据预设过滤器顺序和所述意图类型对所述意图匹配器进行组装,得到所述预设意图识别过滤器链。
111.在本实施例中,获取答案意图信息,其中,答案意图信息包括预期答案和意图类型,答案意图信息的表达方式可以为规则数组的形式。例如,答案意图信息可以为:
[0112][0113][0114]
需要说明的是,answer即为预期答案,预期答案可以包括一个或多个,当预期答案为多个时,可以用/(反斜线)进行分隔;purposetype即为意图类型,可以为不同的意图类型设置不同的编号,例如1表示肯定,2表示否定,3表示循环,4表示静默。
[0115]
在获取到答案意图信息后,可根据有限状态机算法将预期答案构建成有限状态机的状态树,基于状态树得到各过滤器对应的意图匹配器。
[0116]
具体的,可以先将预期答案按照反斜线切分成数组,然后将数组中的元素构建成一个意图匹配树,根节点是root,各预期答案就是意图匹配器对应的状态树上的叶子节点。
[0117]
进一步地,为降低方言或口音对意图识别结果准确性的影响,可在构建意图匹配器时,除了基于预期答案构建意图匹配器的状态树外,还可以将所有预期答案对应数组中的所有元素转换成拼音,然后,将所有元素的拼音构建到意图匹配器的状态树上。通过上述方式构建意图匹配器,可进一步提高后续意图识别结果的准确性。
[0118]
在构建得到意图匹配器后,根据预设过滤器顺序和意图类型对意图匹配器按照责任链模式进行组装,得到预设意图识别过滤器链,最终,该预设意图识别过滤器链中包含多
种意图类型对应的过滤器和意图匹配器。
[0119]
需要说明的是,责任链模式(chain ofresponsibility),是为了避免请求发送者与多个请求处理者耦合在一起,于是将所有请求的处理者通过前一对象记住其下一个对象的引用而连成一条链;当有请求发生时,可将请求沿着这条链传递,直到有对象处理它为止。责任链模式是一种对象行为型模式,在责任链模式中,客户只需要将请求发送到责任链上即可,无须关心请求的处理细节和请求的传递过程,请求会自动进行传递。所以责任链将请求的发送者和请求的处理者解耦了。
[0120]
进一步地,步骤s30可以包括:
[0121]
步骤a31,执行预设意图识别过滤器链,以按预设过滤器顺序依次调用对应的意图匹配器对所述音频识别结果进行意图匹配,直至被调用的意图匹配器的状态树中的预期答案与所述音频识别结果匹配成功时停止匹配,输出第一意图识别结果。
[0122]
在本实施例中,在对基于语音识别得到的音频识别结果进行意图识别时,其具体识别过程如下:执行预设意图识别过滤器链,从而按预设过滤器顺序依次进入各意图类型对应的过滤器,进入到对应的过滤器后,可调用对应的意图匹配器、以将被调用的意图匹配器的状态树中的预期答案与音频识别结果进行意图匹配,直至被调用的意图匹配器的意图匹配器的状态树中的预期答案与音频识别结果匹配成功时停止匹配,输出意图识别结果(为与后续的基于第二拼音文本得到的意图识别结果进行区分,将此处的意图识别结果记为第一意图识别结果),即为该匹配成功的意图匹配器所对应的意图类型。
[0123]
本实施例中,通过责任链模式,动态构建意图识别过滤器链;再通过有限状态机算法,将欲匹配的预期答案构建成状态树,进行逐一意图匹配,直至匹配成功得到意图识别结果。通过责任链模式+有限状态机组合模式,构建一个意图识别过滤器链,以用于完成意图的识别,相比于采用nlp意图识别算法进行识别,可大大提高意图识别结果的准确性,同时,本发明无需人工构建训练样本,也无需训练得到适合的nlp意图识别算法,因此可大大节省人工成本和时间成本。
[0124]
此外,通过运用责任链模式和有限状态机组合模式结合形成的意图识别过滤器链,是一个可扩展的过滤器链,可用于加载多种意图识别规则,进行动态意图识别,从而可以达到兼容不同行业、不通业务的意图识别需求。即,上述意图识别方式,其适用性更广。
[0125]
进一步地,基于上述第一至第三实施例,提出本发明意图识别方法的第五实施例。
[0126]
在本实施例中,在上述步骤s30之后,所述意图识别方法还包括:
[0127]
步骤i,检测所述第一意图识别结果是否为空;
[0128]
在本实施例中,在得到第一意图识别结果之后,检测该第一意图识别结果是否为空,即检测意图识别是否成功。
[0129]
步骤j,若所述第一意图识别结果为空,则将所述音频识别结果由汉字转换成拼音,得到第一拼音文本;
[0130]
步骤k,获取所述第一拼音文本中各拼音的相似拼音,根据所述第一拼音文本和所述相似拼音构建得到第二拼音文本;
[0131]
步骤l,执行预设意图识别过滤器链,以调用意图匹配器对所述第二拼音文本进行意图匹配,得到第二意图识别结果。
[0132]
若第一意图识别结果为空,则说明此次意图识别失败了,可能是由于方言或口音
的影响,导致语音识别结果不准确,此时,可以将音频识别结果由汉字转换成拼音,得到第一拼音文本,进一步地,获取第一拼音文本中各拼音的相似拼音,具体的,可根据预设的拼音相似音列表确定得到第一拼音文本中各拼音的相似拼音,然后,根据第一拼音文本和相似拼音构建得到第二拼音文本,接着,执行预设意图识别过滤器链,以调用意图匹配器对第二拼音文本进行意图匹配,得到第二意图识别结果。具体的意图识别过程与上述过程相似,此处不做赘述。
[0133]
本实施例中,通过将音频识别结果由汉字转换成拼音,得到第一拼音文本,然后获取对应的相似拼音,以扩展得到第二拼音文本,最终执行预设意图识别过滤器链,以对第二拼音文本进行意图识别,得到第二意图识别结果。通过上述方式,可进一步提高意图识别结果的准确性。
[0134]
本发明还提供一种意图识别装置。
[0135]
参照图3,图3为本发明意图识别装置第一实施例的功能模块示意图。
[0136]
如图3所示,所述意图识别装置包括:
[0137]
文件获取模块10,用于获取待识别音频文件;
[0138]
语音识别模块20,用于对所述待识别音频文件进行语音识别,得到音频识别结果;
[0139]
意图识别模块30,用于执行预设意图识别过滤器链,以调用意图匹配器对所述音频识别结果进行意图匹配,得到第一意图识别结果。
[0140]
进一步地,所述意图识别装置还包括:
[0141]
vad检测模块,用于对所述待识别音频文件进行vad检测,得到检测结果;
[0142]
第一判断模块,用于根据所述检测结果判断所述待识别音频文件是否为空白音频;
[0143]
所述语音识别模块20,具体用于若所述待识别音频文件不为空白音频,则对所述待识别音频文件进行语音识别,得到音频识别结果。
[0144]
进一步地,所述意图识别装置还包括:
[0145]
第二判断模块,用于根据所述检测结果判断所述待识别音频文件的开头和/或结尾是否存在静默片段;
[0146]
时间段确定模块,用于若所述待识别音频文件的开头和/或结尾存在静默片段,则根据所述检测结果确定得到静默时间段;
[0147]
音频截取模块,用于根据所述静默时间段对所述待识别音频文件进行截取,得到目标音频文件;
[0148]
所述语音识别模块20,还具体用于:
[0149]
对所述目标识别音频文件进行语音识别,得到音频识别结果。
[0150]
进一步地,所述意图识别装置还包括:
[0151]
信息获取模块,用于获取答案意图信息,其中,所述答案意图信息包括预期答案和意图类型;
[0152]
构建模块,用于根据有限状态机算法将所述预期答案构建成有限状态机的状态树,基于所述状态树得到各意图类型对应的意图匹配器;
[0153]
组装模块,用于根据预设过滤器顺序和所述意图类型对所述意图匹配器进行组装,得到所述预设意图识别过滤器链。
[0154]
进一步地,所述意图识别模块30具体用于:
[0155]
执行预设意图识别过滤器链,以按预设过滤器顺序依次调用对应的意图匹配器对所述音频识别结果进行意图匹配,直至被调用的意图匹配器的状态树中的预期答案与所述音频识别结果匹配成功时停止匹配,输出第一意图识别结果。
[0156]
进一步地,所述意图识别装置还包括:
[0157]
结果检测模块,用于检测所述第一意图识别结果是否为空;
[0158]
结果转换模块,用于若所述第一意图识别结果为空,则将所述音频识别结果由汉字转换成拼音,得到第一拼音文本;
[0159]
相似拼音获取模块,用于获取所述第一拼音文本中各拼音的相似拼音,根据所述第一拼音文本和所述相似拼音构建得到第二拼音文本;
[0160]
所述意图识别模块30,还用于执行预设意图识别过滤器链,以调用意图匹配器对所述第二拼音文本进行意图匹配,得到第二意图识别结果。
[0161]
其中,上述意图识别装置中各个模块的功能实现与上述意图识别方法实施例中各步骤相对应,其功能和实现过程在此处不再一一赘述。
[0162]
本发明还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如以上任一项实施例所述的意图识别方法的步骤。
[0163]
本发明计算机可读存储介质的具体实施例与上述意图识别方法各实施例基本相同,在此不作赘述。
[0164]
本发明还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如以上任一项所述的意图识别方法的步骤。
[0165]
本发明计算机程序产品的具体实施例与上述意图识别方法各实施例基本相同,在此不作赘述。
[0166]
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
[0167]
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
[0168]
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如rom/ram、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
[0169]
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

技术特征:


1.一种意图识别方法,其特征在于,所述意图识别方法包括:获取待识别音频文件;对所述待识别音频文件进行语音识别,得到音频识别结果;执行预设意图识别过滤器链,以调用意图匹配器对所述音频识别结果进行意图匹配,得到第一意图识别结果。2.如权利要求1所述的意图识别方法,其特征在于,所述对所述待识别音频文件进行语音识别,得到音频识别结果的步骤之前,所述意图识别方法还包括:对所述待识别音频文件进行vad检测,得到检测结果;根据所述检测结果判断所述待识别音频文件是否为空白音频;若所述待识别音频文件不为空白音频,则执行步骤:对所述待识别音频文件进行语音识别,得到音频识别结果。3.如权利要求2所述的意图识别方法,其特征在于,所述对所述待识别音频文件进行语音识别,得到音频识别结果的步骤之前,所述意图识别方法还包括:根据所述检测结果判断所述待识别音频文件的开头和/或结尾是否存在静默片段;若所述待识别音频文件的开头和/或结尾存在静默片段,则根据所述检测结果确定得到静默时间段;根据所述静默时间段对所述待识别音频文件进行截取,得到目标音频文件;所述对所述待识别音频文件进行语音识别,得到音频识别结果的步骤包括:对所述目标识别音频文件进行语音识别,得到音频识别结果。4.如权利要求1至3中任一项所述的意图识别方法,其特征在于,所述执行预设意图识别过滤器链,以调用意图匹配器对所述音频识别结果进行意图匹配,得到第一意图识别结果的步骤之前,所述意图识别方法还包括:获取答案意图信息,其中,所述答案意图信息包括预期答案和意图类型;根据有限状态机算法将所述预期答案构建成有限状态机的状态树,基于所述状态树得到各意图类型对应的意图匹配器;根据预设过滤器顺序和所述意图类型对所述意图匹配器进行组装,得到所述预设意图识别过滤器链。5.如权利要求4所述的意图识别方法,其特征在于,所述执行预设意图识别过滤器链,以调用意图匹配器对所述音频识别结果进行意图匹配,得到第一意图识别结果的步骤包括:执行预设意图识别过滤器链,以按预设过滤器顺序依次调用对应的意图匹配器对所述音频识别结果进行意图匹配,直至被调用的意图匹配器的状态树中的预期答案与所述音频识别结果匹配成功时停止匹配,输出第一意图识别结果。6.如权利要求1至3中任一项所述的意图识别方法,其特征在于,所述意图识别方法还包括:检测所述第一意图识别结果是否为空;若所述第一意图识别结果为空,则将所述音频识别结果由汉字转换成拼音,得到第一拼音文本;获取所述第一拼音文本中各拼音的相似拼音,根据所述第一拼音文本和所述相似拼音
构建得到第二拼音文本;执行预设意图识别过滤器链,以调用意图匹配器对所述第二拼音文本进行意图匹配,得到第二意图识别结果。7.一种意图识别装置,其特征在于,所述意图识别装置包括:文件获取模块,用于获取待识别音频文件;语音识别模块,用于对所述待识别音频文件进行语音识别,得到音频识别结果;意图识别模块,用于执行预设意图识别过滤器链,以调用意图匹配器对所述音频识别结果进行意图匹配,得到第一意图识别结果。8.一种意图识别设备,其特征在于,所述意图识别设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1至6中任一项所述的意图识别方法的步骤。9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至6中任一项所述的意图识别方法的步骤。

技术总结


本发明公开了一种意图识别方法、装置、设备及存储介质。该意图识别方法包括:获取待识别音频文件;对所述待识别音频文件进行语音识别,得到音频识别结果;执行预设意图识别过滤器链,以调用意图匹配器对所述音频识别结果进行意图匹配,得到第一意图识别结果。本发明能够实现在提高意图识别结果准确性的同时,节省人工和时间成本。人工和时间成本。人工和时间成本。


技术研发人员:

张鹏飞 曲玉妹 沈耀飞 张磊 夏溧 井绪海

受保护的技术使用者:

北京中关村科金技术有限公司

技术研发日:

2022.04.08

技术公布日:

2023/3/28

本文发布于:2024-09-22 23:28:00,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/4/81959.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:意图   所述   音频文件   过滤器
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议