一种基于用户交互动态纠错的语音控制系统和方法与流程



1.本发明涉及智能语音控制领域,更具体的说,涉及一种基于用户交互动态纠错的语音控制系统和方法。


背景技术:



2.目前,语音控制已经广泛应用在日常生活中常见的各种电子设备上,比如手机、车机、智能音箱等。
3.语音控制包括自动语音识别(asr,automatic speech recognition)、自然语言理解(nlu,natural language understanding)、对nlu结果进行语音控制等几个阶段。
4.自动语音识别技术asr,是一种将人的语音转换为文本的技术。asr的准确率将直接影响智能产品的使用效果。
5.自然语言理解nlu,是使用自然语言同计算机进行通讯的技术,使计算机理解自然语言(人类语言文字)等,实现人机对话。
6.其中,自动语音识别是语音控制的非常重要的一个环节,如果识别出错,后续的自然语言理解和语音控制结果必然是错误的。
7.目前,受限于技术发展,asr还无法做到100%的正确识别语音,经常出现识别错误的情况,导致最终语音控制的结果不是用户想要的。
8.另外,由于对asr进行纠错是一个连续且持久的过程,不可能每次纠正一个asr错误就通过系统ota方式更新asr模型或者app,特别在诸如车联网使用场景下,对车机进行ota是风险很大的。


技术实现要素:



9.本发明的目的是提供一种基于用户交互动态纠错的语音控制系统和方法,解决现有技术中asr识别率不高以及难以升级或个性化设置的问题。
10.为了实现上述目的,本发明提供了一种基于用户交互动态纠错的语音控制系统,包括语音解析模块和功能控制模块:
11.所述功能控制模块,与语音解析模块连接,采集输入语音数据并发送至语音解析模块,接收语音解析模块发送的语义控制指令,执行对应的控制动作;
12.所述语音解析模块,将输入语音数据根据asr模型进行识别,并解析为对应的语义控制指令后发送至功能控制模块,所述asr模型根据外界交互信息对识别结果进行纠正更新或自定义设置。
13.在一实施例中,所述语音解析模块,包括asr模块和nlu模块:
14.所述asr模块,与功能控制模块连接,将输入语音数据根据asr模型进行识别,转换为文本数据发送至nlu模块;
15.所述nlu模块,与功能控制模块、asr模块连接,将文本数据解析为对应的语义控制指令发送至功能控制模块。
16.在一实施例中,所述功能控制模块,包括拾音模块和控制单元:
17.所述拾音模块,采集记录输入语音数据并发送至asr模块;
18.所述控制单元,接收nlu模块发送的语义控制指令,执行对应的控制动作。
19.在一实施例中,所述语音解析模块包括在线语音解析模块,所述在线语音解析模块包括在线asr模块和在线nlu模块:
20.所述在线asr模块,在云端进行asr操作,将输入语音数据根据在线asr模型进行识别,转换为文本数据发送至在线nlu模块;
21.所述在线nlu模块,在云端进行nlu操作,将文本数据解析为对应的语义控制指令发送至控制单元;
22.所述控制单元包括在线控制单元:
23.所述在线控制单元,接收在线nlu模块解析的语义控制指令,并执行对应的控制动作。
24.在一实施例中,所述语音解析模块包括离线语音解析模块,所述离线语音解析模块包括离线asr模块和离线nlu模块:
25.所述离线asr模块,在本地端进行asr操作,将输入语音数据根据离线asr模型进行识别,转换为文本数据发送至离线nlu模块;
26.所述离线nlu模块,在本地端进行nlu操作,将文本数据解析为对应的语义控制指令发送至控制单元;
27.所述控制单元包括离线控制单元:
28.所述离线控制单元,接收离线nlu模块解析的语义控制指令,并执行对应的控制动作。
29.在一实施例中,所述功能控制模块还包括tts模块,将文本数据通过语音进行播放;
30.所述tts模块,播放语音提示输入需纠正的话术;
31.所述拾音模块,采集记录所需纠正的输入语音数据;
32.所述asr模块,将输入语音数据进行识别,转换为文本数据并输出;
33.所述asr模块,接收外界交互的纠正后的文本数据作为识别结果,更新asr模型,调整输入语音与识别结果的判定关系。
34.在一实施例中,所述功能控制模块还包括tts模块,将文本数据通过语音进行播放;
35.所述tts模块,播放语音提示输入需自定义的话术;
36.所述拾音模块,采集记录所需自定义的输入语音数据;
37.所述离线asr模块,将输入语音数据进行识别,转换为文本数据并输出;
38.所述离线asr模块,接收外界交互的自定义编辑后的文本数据作为识别结果,更新离线asr模型,调整输入语音与识别结果的判定关系。
39.在一实施例中,所述asr模块包括asr引擎单元和asr模型单元:
40.所述asr引擎单元,将输入语音数据进行预处理后发送至asr模型单元;
41.所述asr模型单元,将预处理后的语音数据,根据asr模型进行识别,转换为文本数据发送至nlu模块,根据外界交互信息对asr模型的识别结果进行纠正更新或自定义设置。
42.为了实现上述目的,本发明提供了一种基于用户交互动态纠错的语音控制方法,包括以下步骤:
43.步骤s1、根据外界交互信息对asr模型的识别结果进行纠正更新或自定义设置;
44.步骤s2、根据更新后的asr模型,对输入语音数据进行识别,并解析为对应的语义控制指令,执行对应的控制动作。
45.在一实施例中,通过在线方式或离线方式,在云端或本地端对输入语音数据进行识别与解析。
46.在一实施例中,所述步骤s1,进一步包括:
47.步骤s101、播放语音提示输入需纠正的话术;
48.步骤s102、采集记录所需纠正的输入语音数据;
49.步骤s103、将所需纠正的输入语音数据进行识别,转换为文本数据并输出;
50.步骤s104、接收外界交互的纠正后的文本数据作为识别结果,更新asr模型,调整输入语音与识别结果的判定关系。
51.在一实施例中,所述步骤s1,进一步包括:
52.步骤s111、播放语音提示输入需自定义的话术;
53.步骤s112、采集记录所需自定义的输入语音数据;
54.步骤s113、将所需自定义的输入语音数据进行离线识别,转换为文本数据并输出;
55.步骤s114、接收外界交互的自定义编辑后的文本数据作为识别结果,更新离线asr模型,调整输入语音与识别结果的判定关系。
56.本发明提供的一种基于用户交互动态纠错的语音控制系统和方法,用户可以对asr内容做自定义修改,通过用户主动更新asr识别率,动态增强asr识别准确率,正确率高、实时性高,且无需对软件做版本升级,避免系统频繁升级带来的安全性等问题。
附图说明
57.本发明上述的以及其他的特征、性质和优势将通过下面结合附图和实施例的描述而变的更加明显,在附图中相同的附图标记始终表示相同的特征,其中:
58.图1揭示了根据本发明一实施例的基于用户交互动态纠错的语音控制系统框架图;
59.图2揭示了根据本发明一实施例的基于用户交互动态纠错的语音控制系统的控制流程图;
60.图3揭示了根据本发明一实施例的基于用户交互动态纠错的语音控制方法流程图;
61.图4揭示了根据本发明一实施例的动态纠正错误流程图;
62.图5揭示了根据本发明一实施例的离线语音自定义流程图。
63.图中各附图标记的含义如下:
64.100 语音控制系统;
65.200 语音解析模块;
66.210 在线语音解析模块;
67.211 在线asr模块;
68.212 在线nlu模块;
69.220 离线语音解析模块;
70.221 离线asr模块;
71.222 离线nlu模块;
72.300 功能控制模块;
73.310 拾音模块;
74.320 tts模块;
75.330 在线控制单元;
76.340 离线控制单元。
具体实施方式
77.为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释发明,并不用于限定发明。
78.本发明提供的一种基于用户交互动态纠错的语音控制系统和方法,其目的是在识别错误的时候,通过用户的参与交互来纠正asr识别结果,在下一次用户再说出同样语音的时候,给出正确的asr识别结果。
79.图1揭示了根据本发明一实施例的基于用户交互动态纠错的语音控制系统框架图,如图1所示的动态纠正自动语音识别错误的语音控制系统100,包括语音解析模块200和功能控制模块300。
80.所述功能控制模块300,与语音解析模块200连接,采集输入语音数据并发送至语音解析模块200,接收语音解析模块200发送的语义控制指令,执行对应的控制动作;
81.所述语音解析模块200,将输入语音数据根据asr模型进行识别,并解析为对应的语义控制指令后发送至功能控制模块300,所述asr模型根据外界交互信息对识别结果进行纠正更新或自定义设置。
82.在图1所述的实施例中,语音解析模块200,包括在线语音解析模块210和离线语音解析模块220。
83.在图1所述的实施例中,输入语音数据为pcm(脉冲编码调制)格式。
84.在图1所述的实施例中,功能控制模块300包括拾音模块310、tts模块320以及在线控制单元330和离线控制单元340。
85.离线和在线是可选的,也是可以分别单独存在的。比如说,某个厂家的车联网产品,可以在没有网络的情况下使用语音,那么这里就使用离线语音控制功能;如果可以使用网络,就可以使用在线语音控制功能,或者离线和在线控制功能同时存在,根据返回的结果快慢来决定使用离线还是在线,本发明对于不同的使用场景均可以支持。
86.在图1所述的实施例中,在线语音解析模块210,包括在线asr模块211和在线nlu模块212。
87.所述在线asr模块211,在云端进行asr操作,将输入语音数据根据在线asr模型进行识别,转换为文本数据发送至在线nlu模块212;
88.所述在线nlu模块212,在云端进行nlu操作把文字解析成可以理解的语义,将文本
数据解析为对应的语义控制指令发送至在线控制单元330;
89.所述在线控制单元330,接收在线nlu模块212解析的语义控制指令,并执行对应的控制动作。
90.本实施例中,云端包括服务器、云服务器和云主机等在线服务端。
91.更进一步的,在线asr模块211包括在线asr引擎单元和在线asr模型单元:
92.所述在线asr引擎单元,将输入语音数据进行预处理后发送至在线asr模型单元,作为对外提供输入语音数据转文字的功能模块,把外部传入的pcm音频流经过校验处理和降噪等预处理。
93.所述在线asr模型单元,将预处理后的语音数据,根据在线asr模型进行识别,转换为文本数据发送至在线nlu模块212,根据外界交互信息对在线asr模型的识别结果进行纠正更新或自定义设置。
94.本实施例中,在线asr模型可以理解为人的耳朵,负责把声音转换成文本内容。所述在线nlu模块212,为在线nlu引擎。
95.在图1所述的实施例中,离线语音解析模块220,包括离线asr模块221和离线nlu模块222。
96.所述离线asr模块221,在本地端进行asr操作,将输入语音数据根据离线asr模型进行识别,转换为文本数据发送至离线nlu模块222;
97.所述离线nlu模块222,在本地端进行nlu操作把文字解析成可以理解的语义,将文本数据解析为对应的语义控制指令发送至离线控制单元340;
98.所述离线控制单元340,接收离线nlu模块222解析的语义控制指令,并执行对应的控制动作。
99.在图1所述的实施例中,本地端为车机设备。
100.更进一步的,离线asr模块221包括离线asr引擎单元和离线asr模型单元:
101.所述离线asr引擎单元,将输入语音数据进行预处理后发送至离线asr模型单元,作为对外提供输入语音数据转文字的功能模块,把外部传入的pcm音频流经过校验处理和降噪等预处理。
102.所述离线asr模型单元,将预处理后的语音数据,根据离线asr模型进行识别,转换为文本数据发送至离线nlu模块222,根据外界交互信息对离线asr模型的识别结果进行纠正更新或自定义设置。
103.本实施例中,离线asr模型可以理解为人的耳朵,负责把声音转换成文本内容。
104.所述离线nlu模块222,为离线nlu引擎。
105.在图1所述的实施例中,功能控制模块300包括拾音模块310、tts模块320以及在线控制单元330和离线控制单元340。
106.拾音模块310,采集记录输入语音数据并发送至在线asr模块211和/或离线asr模块221。
107.tts模块320,负责把文本内容通过语音播报出来,可以与用户进行对话。
108.tts是text to speech的缩写,即“从文本到语音”,是人机对话的一部分,让机器能够说话,通过神经网络的设计,把文字智能地转化为自然语音流。
109.在线控制单元330,负责接收在线nlu模块212所发送的语义控制指令,并执行对应
的控制动作。
110.离线控制单元340,负责接收离线nlu模块222所发送的语义控制指令,并执行对应的控制动作。
111.图2揭示了根据本发明一实施例的基于用户交互动态纠错的语音控制系统的控制流程图,结合图2对本发明提出的基于用户交互动态纠错的语音控制系统的控制流程的离线流程进行说明。
112.拾音模块310,采集记录输入语音数据,在获取到用户的语音之后,并发送至离线asr引擎单元;
113.离线asr引擎单元,将输入语音数据进行预处理后发送到离线asr模型;
114.离线asr模型,把预处理后输入语音数据进行识别,转换为文本内容,并送到离线nlu引擎;
115.离线nlu引擎,把文本内容解析为离线语义结果,对应的语义控制指令,控制执行回调接口对应的控制动作,从而完成语音控制。
116.在线流程与离线流程类似,不再复述。
117.针对语音识别出错,导致无法正确执行语音控制以及无法通过及时ota升级用户版本解决asr错误的场景,本发明提出的基于用户交互动态纠错的语音控制系统包括动态纠正自动语音识别错误流程。
118.纠错流程包括离线自动语音识别纠错和在线语音识别纠错。
119.离线自动语音识别纠错流程,具体如下:
120.所述tts模块320,播放语音提示输入需纠正的话术;
121.所述拾音模块310,采集记录所需纠正的输入语音数据;
122.所述离线asr模块221,将输入语音数据进行识别,转换为文本数据并输出;
123.所述离线asr模块221,接收外界交互的纠正后的文本数据作为识别结果,更新离线asr模型,调整输入语音与识别结果的判定关系。
124.在线自动语音识别纠错流程,具体如下:
125.所述tts模块320,播放语音提示输入需纠正的话术;
126.所述拾音模块310,采集记录所需纠正的输入语音数据;
127.所述在线asr模块211,将输入语音数据进行识别,转换为文本数据并输出;
128.所述在线asr模块211,接收外界交互的纠正后的文本数据作为识别结果,更新在线asr模型,调整输入语音与识别结果的判定关系。
129.针对个别用户的asr功能问题,本发明提出的基于用户交互动态纠错的语音控制系统,包括离线语音自定义流程,增加个性化asr识别功能。比如:用户说的内容识别出来是“太热了”,用户可以对其进行调整为“打开空调制冷”,这样就会执行“打开空调并制冷”的操作。
130.离线语音自定义流程,具体如下:
131.所述tts模块320,播放语音提示输入需自定义的话术;
132.所述拾音模块310,采集记录所需自定义的输入语音数据;
133.所述离线asr模块221,将输入语音数据进行识别,转换为文本数据并输出;
134.所述离线asr模块221,接收外界交互的自定义编辑后的文本数据作为识别结果,
更新离线asr模型,调整输入语音与识别结果的判定关系。
135.图3揭示了根据本发明一实施例的基于用户交互动态纠错的语音控制方法流程图,如图3所示,本发明提供了一种基于用户交互动态纠错的语音控制方法,包括以下步骤:
136.步骤s1、根据外界交互信息对asr模型的识别结果进行纠正更新或自定义设置;
137.步骤s2、根据更新后的asr模型,对输入语音数据进行识别,并解析为对应的语义控制指令,执行对应的控制动作。
138.在一些实施例中,可以通过在线方式或离线方式,在云端或本地端对输入语音数据进行识别与解析。
139.针对语音识别出错,导致无法正确执行语音控制以及无法通过及时ota升级用户版本解决asr错误的场景,本发明提出的基于用户交互动态纠错的语音控制方法包括动态纠正自动语音识别错误流程。
140.纠错流程包括离线自动语音识别纠错和在线自动语音识别纠错。
141.本发明提供了一种基于用户交互动态纠错的语音控制方法,针对动态纠正自动语音识别错误流程,所述步骤s1,进一步包括:
142.步骤s101、播放语音提示输入需纠正的话术;
143.步骤s102、采集记录所需纠正的输入语音数据;
144.步骤s103、将所需纠正的输入语音数据进行识别,转换为文本数据并输出;
145.步骤s104、接收外界交互的纠正后的文本数据作为识别结果,更新asr模型,调整输入语音与识别结果的判定关系。
146.针对个别用户的asr功能问题,本发明提出的基于用户交互动态纠错的语音控制方法,包括离线语音自定义流程,增加个性化asr识别功能,比如:用户说的内容识别出来是“太热了”,用户可以对其进行调整为“打开空调制冷”,这样就会执行“打开空调并制冷”的操作。
147.本发明提供了一种基于用户交互动态纠错的语音控制方法,针对离线语音自定义流程,所述步骤s1,进一步包括:
148.步骤s111、播放语音提示输入需自定义的话术;
149.步骤s112、采集记录所需自定义的输入语音数据;
150.步骤s113、将所需自定义的输入语音数据进行离线识别,转换为文本数据并输出;
151.步骤s114、接收外界交互的自定义编辑后的文本数据作为识别结果,更新离线asr模型,调整输入语音与识别结果的判定关系。
152.下面结合图1所示的语音控制系统,对本发明提出的基于用户交互动态纠错的语音控制方法进行详细说明。
153.图4揭示了根据本发明一实施例的动态纠正错误流程图,结合图4对动态纠正自动语音识别错误流程进行说明,用户可以通过手动点击功能按键或者通过语音控制的方式启动纠错流程。
154.纠错流程包括离线自动语音识别纠错和在线语音识别纠错。
155.对于离线纠错流程具体如下:
156.tts模块320,播放语音提示输入需纠正的话术,例如tts播报提示语音为“请输出需要纠正的话术”;
157.用户说出需要纠正的话术,例如需要纠正的话术为“打开暖蓝的氛围灯”。
158.拾音模块310,采集记录所需纠正的输入语音数据;
159.离线asr模块221,将输入语音数据进行识别,转换为文本数据并输出,例如离线asr识别结果是“打卡蓝的氛围灯”;
160.用户可以对该asr识别结果进行文字编辑,例如文本数据修改为“打开暖蓝的氛围灯”,然后保存编辑结果,反馈至离线asr模块221;
161.离线asr模块221,接收外界交互的纠正后的文本数据作为识别结果,更新离线asr模型,调整输入语音与识别结果的判定关系,优先匹配到保存的文本内容,完成纠错流程。
162.在线语音识别纠错与离线类似,不再复述。
163.图5揭示了根据本发明一实施例的离线语音自定义流程图,结合图5对离线语音自定义流程进行说明,用户可以通过手动点击功能按键或者通过语音控制的方式启动离线自定义流程。
164.启动自定义流程后,tts模块320,播放语音提示输入需自定义的话术,例如tts播报提示语音为“请输出需要自定义的话术”。
165.用户说出需要自定义的话术,例如需要自定义的话术为“太热了”。
166.拾音模块310,采集记录所需自定义的输入语音数据;
167.离线asr模块221,将输入语音数据进行离线asr识别,转换为文本数据并输出;
168.用户可以对该离线asr识别结果进行文字编辑,例如文本数据修改为“打开空调制冷”,然后保存编辑结果,反馈至离线asr模块221;
169.离线asr模块221,接收外界交互的自定义编辑后的文本数据作为识别结果,更新离线asr模型,调整输入语音与识别结果的判定关系,优先匹配到保存的文本内容,完成自定义语音识别流程。
170.后续当用户说“太热了”,系统会识别成“打开空调制冷”,并通过语音控制执行打开空调并制冷的操作。
171.本发明提供的一种基于用户交互动态纠错的语音控制系统和方法,具体具有以下有益效果:
172.1)通过用户参与来纠正asr错误,正确率高、实时性高;
173.2)可作为离线使用,仅对用户单人可见,用户可以对一个话术做任意的asr纠正,甚至是纠正为完全不相关的asr内容,又可作为在线更新,对所有用户生效,一个用户提高了asr识别率,所有用户的asr识别都会提高;
174.3)轻量级的asr模型升级,用户无感,避免了系统ota方式带来的流量开销,以及升级失败,安全性等方面的问题。
175.尽管为使解释简单化将上述方法图示并描述为一系列动作,但是应理解并领会,这些方法不受动作的次序所限,因为根据一个或多个实施例,一些动作可按不同次序发生和/或与来自本文中图示和描述或本文中未图示和描述但本领域技术人员可以理解的其他动作并发地发生。
176.如本技术和权利要求书中所示,除非上下文明确提示例外情形,“一”、“一个”、“一种”和/或“该”等词并非特指单数,也可包括复数。一般说来,术语“包括”与“包含”仅提示包括已明确标识的步骤和元素,而这些步骤和元素不构成一个排它性的罗列,方法或者设备
也可能包含其他的步骤或元素。
177.本领域技术人员将可理解,信息、信号和数据可使用各种不同技术和技艺中的任何技术和技艺来表示。例如,以上描述通篇引述的数据、指令、命令、信息、信号、位(比特)、码元、和码片可由电压、电流、电磁波、磁场或磁粒子、光场或光学粒子、或其任何组合来表示。
178.本领域技术人员将进一步领会,结合本文中所公开的实施例来描述的各种解说性逻辑板块、模块、电路、和算法步骤可实现为电子硬件、计算机软件、或这两者的组合。为清楚地解说硬件与软件的这一可互换性,各种解说性组件、框、模块、电路、和步骤在上面是以其功能性的形式作一般化描述的。此类功能性是被实现为硬件还是软件取决于具体应用和施加于整体系统的设计约束。技术人员对于每种特定应用可用不同的方式来实现所描述的功能性,但这样的实现决策不应被解读成导致脱离了本发明的范围。
179.结合本文所公开的实施例描述的各种解说性逻辑模块、和电路可用通用处理器、数字信号处理器(dsp)、专用集成电路(asic)、现场可编程门阵列(fpga)或其它可编程逻辑器件、分立的门或晶体管逻辑、分立的硬件组件、或其设计成执行本文所描述功能的任何组合来实现或执行。通用处理器可以是微处理器,但在替换方案中,该处理器可以是任何常规的处理器、控制器、微控制器、或状态机。处理器还可以被实现为计算设备的组合,例如dsp与微处理器的组合、多个微处理器、与dsp核心协作的一个或多个微处理器、或任何其他此类配置。
180.结合本文中公开的实施例描述的方法或算法的步骤可直接在硬件中、在由处理器执行的软件模块中、或在这两者的组合中体现。软件模块可驻留在ram存储器、闪存、rom存储器、eprom存储器、eeprom存储器、寄存器、硬盘、可移动盘、cd-rom、或本领域中所知的任何其他形式的存储介质中。示例性存储介质耦合到处理器以使得该处理器能从/向该存储介质读取和写入信息。在替换方案中,存储介质可以被整合到处理器。处理器和存储介质可驻留在asic中。asic可驻留在用户终端中。在替换方案中,处理器和存储介质可作为分立组件驻留在用户终端中。
181.上述实施例是提供给熟悉本领域内的人员来实现或使用本发明的,熟悉本领域的人员可在不脱离本发明的发明思想的情况下,对上述实施例做出种种修改或变化,因而本发明的保护范围并不被上述实施例所限,而应该是符合权利要求书提到的创新性特征的最大范围。

技术特征:


1.一种基于用户交互动态纠错的语音控制系统,其特征在于,包括语音解析模块和功能控制模块:所述功能控制模块,与语音解析模块连接,采集输入语音数据并发送至语音解析模块,接收语音解析模块发送的语义控制指令,执行对应的控制动作;所述语音解析模块,将输入语音数据根据自动语音识别模型进行识别,并解析为对应的语义控制指令后发送至功能控制模块,所述自动语音识别模型根据外界交互信息对识别结果进行纠正更新或自定义设置。2.根据权利要求1所述的基于用户交互动态纠错的语音控制系统,所述语音解析模块,包括自动语音识别模块和自然语言理解模块:所述自动语音识别模块,与功能控制模块连接,将输入语音数据根据自动语音识别模型进行识别,转换为文本数据发送至自然语言理解模块;所述自然语言理解模块,与功能控制模块、自动语音识别模块连接,将文本数据解析为对应的语义控制指令发送至功能控制模块。3.根据权利要求2所述的基于用户交互动态纠错的语音控制系统,所述功能控制模块,包括拾音模块和控制单元:所述拾音模块,采集记录输入语音数据并发送至自动语音识别模块;所述控制单元,接收自然语言理解模块发送的语义控制指令,执行对应的控制动作。4.根据权利要求3所述的基于用户交互动态纠错的语音控制系统,所述语音解析模块包括在线语音解析模块,所述在线语音解析模块包括在线自动语音识别模块和在线自然语言理解模块:所述在线自动语音识别模块,在云端进行自动语音识别操作,将输入语音数据根据在线自动语音识别模型进行识别,转换为文本数据发送至在线自然语言理解模块;所述在线自然语言理解模块,在云端进行自然语言理解操作,将文本数据解析为对应的语义控制指令发送至控制单元;所述控制单元包括在线控制单元:所述在线控制单元,接收在线自然语言理解模块解析的语义控制指令,并执行对应的控制动作。5.根据权利要求3所述的基于用户交互动态纠错的语音控制系统,所述语音解析模块包括离线语音解析模块,所述离线语音解析模块包括离线自动语音识别模块和离线自然语言理解模块:所述离线自动语音识别模块,在本地端进行自动语音识别操作,将输入语音数据根据离线自动语音识别模型进行识别,转换为文本数据发送至离线自然语言理解模块;所述离线自然语言理解模块,在本地端进行自然语言理解操作,将文本数据解析为对应的语义控制指令发送至控制单元;所述控制单元包括离线控制单元:所述离线控制单元,接收离线自然语言理解模块解析的语义控制指令,并执行对应的控制动作。6.根据权利要求3所述的基于用户交互动态纠错的语音控制系统,所述功能控制模块还包括tts模块,将文本数据通过语音进行播放;
所述tts模块,播放语音提示输入需纠正的话术;所述拾音模块,采集记录所需纠正的输入语音数据;所述自动语音识别模块,将输入语音数据进行识别,转换为文本数据并输出;所述自动语音识别模块,接收外界交互的纠正后的文本数据作为识别结果,更新自动语音识别模型,调整输入语音与识别结果的判定关系。7.根据权利要求5所述的基于用户交互动态纠错的语音控制系统,所述功能控制模块还包括tts模块,将文本数据通过语音进行播放;所述tts模块,播放语音提示输入需自定义的话术;所述拾音模块,采集记录所需自定义的输入语音数据;所述离线自动语音识别模块,将输入语音数据进行识别,转换为文本数据并输出;所述离线自动语音识别模块,接收外界交互的自定义编辑后的文本数据作为识别结果,更新离线自动语音识别模型,调整输入语音与识别结果的判定关系。8.根据权利要求2所述的基于用户交互动态纠错的语音控制系统,所述自动语音识别模块包括自动语音识别引擎单元和自动语音识别模型单元:所述自动语音识别引擎单元,将输入语音数据进行预处理后发送至自动语音识别模型单元;所述自动语音识别模型单元,将预处理后的语音数据,根据自动语音识别模型进行识别,转换为文本数据发送至自然语言理解模块,根据外界交互信息对自动语音识别模型的识别结果进行纠正更新或自定义设置。9.一种基于用户交互动态纠错的语音控制方法,其特征在于,包括以下步骤:步骤s1、根据外界交互信息对自动语音识别模型的识别结果进行纠正更新或自定义设置;步骤s2、根据更新后的自动语音识别模型,对输入语音数据进行识别,并解析为对应的语义控制指令,执行对应的控制动作。10.根据权利要求9所述的基于用户交互动态纠错的语音控制方法,通过在线方式或离线方式,在云端或本地端对输入语音数据进行识别与解析。11.根据权利要求9所述的基于用户交互动态纠错的语音控制方法,所述步骤s1,进一步包括:步骤s101、播放语音提示输入需纠正的话术;步骤s102、采集记录所需纠正的输入语音数据;步骤s103、将所需纠正的输入语音数据进行识别,转换为文本数据并输出;步骤s104、接收外界交互的纠正后的文本数据作为识别结果,更新自动语音识别模型,调整输入语音与识别结果的判定关系。12.根据权利要求9所述的基于用户交互动态纠错的语音控制方法,所述步骤s1,进一步包括:步骤s111、播放语音提示输入需自定义的话术;步骤s112、采集记录所需自定义的输入语音数据;步骤s113、将所需自定义的输入语音数据进行离线识别,转换为文本数据并输出;步骤s114、接收外界交互的自定义编辑后的文本数据作为识别结果,更新离线自动语
音识别模型,调整输入语音与识别结果的判定关系。

技术总结


本发明涉及智能语音控制领域,更具体的说,涉及一种基于用户交互动态纠错的语音控制系统和方法。本发明提出的基于用户交互动态纠错的语音控制系统,包括功能控制模块,与语音解析模块连接,采集输入语音数据并发送至语音解析模块,接收语音解析模块发送的语义控制指令,执行对应的控制动作;语音解析模块,将输入语音数据根据ASR模型进行识别,并解析为对应的语义控制指令后发送至功能控制模块,所述ASR模型根据外界交互信息对识别结果进行纠正更新或自定义设置。本发明提供的基于用户交互动态纠错的语音控制系统和方法,用户可以对ASR内容做自定义修改,通过用户主动更新ASR识别率,动态增强ASR识别准确率,正确率高、实时性高。性高。性高。


技术研发人员:

周力为

受保护的技术使用者:

上海擎感智能科技有限公司

技术研发日:

2021.04.30

技术公布日:

2022/11/1

本文发布于:2024-09-23 02:32:35,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/3/18910.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:语音   离线   模块   在线
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议