一种基于深度学习的中文语音识别系统及方法与流程



1.本发明涉及语音识别技术领域,特别涉及一种基于深度学习的中文语音识别系统及方法。


背景技术:



2.目前,随着计算机处理能力的迅速提高,语音识别技术得到了飞速发展,语音识别技术的应用正在日益改变人类的生产和生活方式,被广泛应用于诸如语音输入系统、语音控制系统和智能对话查询系统等领域;
3.但是,目前大多数的语音识别系统只能对待识别语音进行简单的识别,且无法针对中文的语义对识别到的语音文本进行校验,从而导致识别结果中存在逻辑错误或是语法错误,同时,并不能对识别结果中的错别字进行有效纠正,从而极大的降低了语音识别效果;
4.因此,本发明提供了一种基于深度学习的中文语音识别系统及方法。


技术实现要素:



5.本发明提供一种基于深度学习的中文语音识别系统及方法,用以通过构建中文语音识别模型依次对获取到的待识别中文语音段进行识别,并根据中文语法对识别到的语音文本进行修正,从而确保对中文语音识别的准确率,提高了对中文语音识别的效果。
6.本发明提供了一种基于深度学习的中文语音识别系统,包括:
7.语音获取模块,用于实时接收待识别中文语音段,并基于时间序列对所述待识别中文语音段进行排序;
8.语音识别模块,用于构建中文语音识别模型,并基于排序结果依次将获取到的待识别中文语音段输入中文语音识别模型进行语音识别,得到语音文本;
9.修正模块,用于基于预设中文语法对得到的语音文本进行语法修正,得到最终的语音识别文本。
10.优选的,一种基于深度学习的中文语音识别系统,所述语音获取模块包括:
11.语音获取单元,用于实时监测用户当前的声学特点,并基于所述声学特点确定用户当前的语音状态,其中,所述语音状态包括出声和未出声;
12.语音收录单元,用于当所述语音状态为出声时,对用户发出的中文语音进行获取,并将获取到的中文语音进行存储,得到待识别中文语音段。
13.优选的,一种基于深度学习的中文语音识别系统,所述语音收录单元包括:
14.语音处理子单元,用于获取得到的待识别中文语音段,并对所述待识别中文语音段进行频谱分析,得到所述待识别中文语音段对应的音频图谱;
15.语音筛选子单元,用于基于所述音频图谱确定待识别中文语音段在各时刻对应的第一峰值频点,同时,获取噪声信号对应的噪声音频图谱,并基于噪声音频图谱确定噪声信号的第二峰值频点;
16.所述语音筛选子单元,用于将所述第一峰值频点与所述第二峰值频点进行比对,筛选出所述第一峰值频点大于第二峰值频点的目标峰值频点,并将所述目标峰值频点对应的待识别中文语音段判定为有效待识别中文语音段。
17.优选的,一种基于深度学习的中文语音识别系统,所述语音获取模块包括:
18.时间确定单元,用于获取得到的待识别中文语音段,并将所述待识别中文语音段进行处理,得到各帧对应的语音信号;
19.所述时间确定单元,还用于基于各帧对应的语音信号确定所述待识别中文语音段的时域信息,并将所述时域信息与各帧对应的语音信号进行匹配;
20.排序单元,用于基于匹配结果确定所述待识别中文语音段对应的时间序列,并基于时间序列递增的顺序将所述待识别中文语音段进行排序,其中,所述待识别中文语音段至少为一段。
21.优选的,一种基于深度学习的中文语音识别系统,所述排序单元包括:
22.结果获取子单元,用于获取对待识别中文语音段的排序结果,并基于排序结果确定所述待识别中文语音段的目标数量;
23.标签获取子单元,用于提取所述待识别中文语音段的声学特征,并基于所述声学特征确定所述待识别中文语音段的语音类型;
24.标记子单元,用于基于所述语音类型从预设标签数据库中获取目标数量的标记标签,并基于所述目标数量的标记标签对所述待识别中文语音段进行标记。
25.优选的,一种基于深度学习的中文语音识别系统,所述语音识别模块包括:
26.数据获取单元,用于获取语音训练文本,并从预设语音库中调用不同声的口音对所述语音训练文本进行读取,得到不同声的口音对所述语音训练文本的音频数据;
27.数据处理单元,用于对所述音频数据进行预处理,并基于预处理结果将所述音频数据转换为对应的语谱图,且基于所述语谱图确定所述音频数据中的有效区域;
28.模型构建单元,用于基于所述有效区域确定所述音频数据的特征参数,同时,获取中文汉语拼音与汉字的对应关系,并基于所述对应关系对所述特征参数进行训练,且基于训练结果构建中文语音识别模型;
29.语音识别单元,用于将获取到的待识别中文语音段依次输入所述中文语音识别模型,并基于所述中文语音识别模型中的预设语法分析树对接收到的待识别中文语音段进行分析,确定所述待识别中文语音段中每一句的起始点和结束点;
30.所述语音识别单元,用于基于所述起始点和结束点对每一所述待识别中文语音段进行第一拆分,且基于第一拆分结果得到每一所述待识别中文语音段的语句集合,并提取所述语句集合中每一句中文语音中包含的音节属性;
31.所述语音识别单元,用于基于所述音节属性对每一句中文语音进行第二拆分,并基于第二拆分结果得到每一句中文语音中包含的中文词汇;
32.所述语音识别单元,还用于提取所述中文词汇的发音特征,并基于所述中文汉语拼音与汉字的对应关系对所述发音特征进行处理,得到所述中文词汇对应的词汇文本;
33.文本拼接单元,用于将每一句中文语音中包含的中文词汇对应的词汇文本进行拼接,得到所述待识别中文语音段对应的语音文本。
34.优选的,一种基于深度学习的中文语音识别系统,所述语音识别单元包括:
35.语音识别子单元,用于获取基于第一拆分结果得到的每一所述待识别中文语音段的语句集合,同时构建声学模型,并基于所述声学模型对所述语句集合中每一句中文语音进行声学识别;
36.身份确定子单元,用于基于声学识别结果确定相邻句子的中文语音对应的声音特征,并将所述相邻句子的中文语音对应的声音特征进行比对;
37.结果确定子单元,用于当比对结果判定相邻句子的中文语音对应的声音特征一致时,判定相邻句子的中文语音对应的用户相同,并将相邻句子的中文语音对应的语音文本进行统一标注,否则,判定相邻句子的中文语音对应的用户不同,并相邻句子的中文语音对应的语音文本进行区分标注。
38.优选的,一种基于深度学习的中文语音识别系统,所述修正模块包括:
39.文本获取单元,用于获取待识别中文语音段,同时,构建发音变化识别模型,并将所述待识别中文语音段输入所述发音变化识别模型进行处理,得到所述待识别中文语音段的语调信息;
40.意图确定单元,用于获取对所述待识别中文语音段进行识别后得到的语音文本,并将所述语调信息与语音文本相结合确定所述待识别中文语音段的目标意图;
41.语义确定单元,用于基于所述目标意图对所述语音文本进行语义分析,得到语义分析结果,同时,获取预设中文语法校验规则,并基于语义分析结果对所述语音文本进行语法校验;
42.语法修正单元,用于当语法校验结果判定所述语音文本中存在错误语法时,确定异常语音文本在语音文本中的目标位置,并基于所述目标位置确定所述异常语音文本上下文的逻辑关系;
43.所述语法修正单元,用于将所述目标位置处的异常语音文本进行拆分,得到n个文本关键词,并基于所述逻辑关系以及预设中文语法规则对所述n个文本关键词进行重新整理,得到修正后的语音文本;
44.文本校验单元,用于基于所述目标意图对所述修正后的语音文本进行文字校验,并基于校验结果确定所述语音文本中的差异文字,且确定所述差异文字的目标拼音;
45.文字替换单元,用于将所述目标拼音与预设名词库中各预设名词进行一一映射,并基于映射结果确定目标替换文字;
46.所述文字替换单元,还用于基于所述目标替换文字对所述差异文字进行替换,并基于替换结果得到最终的语音识别文本。
47.优选的,一种基于深度学习的中文语音识别系统,所述修正模块包括:
48.语音识别文本获取单元,用于获取最终的语音识别文本,并确定所述最终的语音识别文本的文本大小;
49.容量分配单元,用于基于所述文本大小在预设存储区域分配目标存储空间,将所述最终的语音识别文本在所述目标存储空间进行存储。
50.本发明提供了一种基于深度学习的中文语音识别方法,包括:
51.步骤1:实时接收待识别中文语音段,并基于时间序列对所述待识别中文语音段进行排序;
52.步骤2:构建中文语音识别模型,并基于排序结果依次将获取到的待识别中文语音
段输入中文语音识别模型进行语音识别,得到语音文本;
53.步骤3:基于预设中文语法对得到的语音文本进行语法修正,得到最终的语音识别文本。
54.本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
55.下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
56.附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
57.图1为本发明实施例中一种基于深度学习的中文语音识别系统的结构图;
58.图2为本发明实施例中一种基于深度学习的中文语音识别系统种语音获取模块的结构图;
59.图3为本发明实施例中一种基于深度学习的中文语音识别方法的流程图。
具体实施方式
60.以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
61.实施例1:
62.本实施例提供了一种基于深度学习的中文语音识别系统,如图1所示,包括:
63.语音获取模块,用于实时接收待识别中文语音段,并基于时间序列对所述待识别中文语音段进行排序;
64.语音识别模块,用于构建中文语音识别模型,并基于排序结果依次将获取到的待识别中文语音段输入中文语音识别模型进行语音识别,得到语音文本;
65.修正模块,用于基于预设中文语法对得到的语音文本进行语法修正,得到最终的语音识别文本。
66.该实施例中,待识别中文语音段指的是接收到的用于进行语音识别的语句集合,每一句即为一条语音段。
67.该实施例中,时间序列是用于表征不同待识别中文语音段发生的先后顺序,即不同待识别中文语音段被说出的先后情况。
68.该实施例中,基于时间序列对所述待识别中文语音段进行排序指的是根据时间先后顺序对获取到的待识别语音段进行排序。
69.该实施例中,语音文本指的是对接收到的待识别中文语音段进行识别后得到的文本信息,即待识别中文语音段对应的汉字信息。
70.该实施例中,预设中文语法是提前设定好的,包括对主语以及动词的所处的位置以及逻辑关系进行限定。
71.上述技术方案的有益效果是:通过构建中文语音识别模型依次对获取到的待识别中文语音段进行识别,并根据中文语法对识别到的语音文本进行修正,从而确保对中文语
音识别的准确率,提高了对中文语音识别的效果。
72.实施例2:
73.在实施例1的基础上,本实施例提供了一种基于深度学习的中文语音识别系统,如图2所示,所述语音获取模块包括:
74.语音获取单元,用于实时监测用户当前的声学特点,并基于所述声学特点确定用户当前的语音状态,其中,所述语音状态包括出声和未出声;
75.语音收录单元,用于当所述语音状态为出声时,对用户发出的中文语音进行获取,并将获取到的中文语音进行存储,得到待识别中文语音段。
76.该实施例中,声学特点是用于判断用户当前是否存在说话行为。
77.上述技术方案的有益效果是:通过对用户当前的说话行为进行准确判断,实现当用户说话时及时对产生的中文语音进行获取并存储,为实现对用户的中文语音进行准确有效的识别提供了便利。
78.实施例3:
79.在实施例2的基础上,本实施例提供了一种基于深度学习的中文语音识别系统,所述语音收录单元包括:
80.语音处理子单元,用于获取得到的待识别中文语音段,并对所述待识别中文语音段进行频谱分析,得到所述待识别中文语音段对应的音频图谱;
81.语音筛选子单元,用于基于所述音频图谱确定待识别中文语音段在各时刻对应的第一峰值频点,同时,获取噪声信号对应的噪声音频图谱,并基于噪声音频图谱确定噪声信号的第二峰值频点;
82.所述语音筛选子单元,用于将所述第一峰值频点与所述第二峰值频点进行比对,筛选出所述第一峰值频点大于第二峰值频点的目标峰值频点,并将所述目标峰值频点对应的待识别中文语音段判定为有效待识别中文语音段。
83.该实施例中,音频图谱指的是将待识别中文语音段转换为相应的音频形式,目的是为了将待识别中文语音段中的有效语音信号与噪声信号进行区分。
84.该实施例中,第一峰值频点指的是待识别中文语音段在时域中各帧对应的音频取值大小。
85.该实施例中,噪声音频图谱指的是各种噪声对应的音频形式。
86.该实施例中,第二峰值频点指的是噪声对应的音频取值大小情况。
87.该实施例中,目标峰值频点指的是第一峰值频点大于第二峰值频点的中文语音信号。
88.该实施例中,有效待识别中文语音段指的是将待识别中文语音段中的噪声信号进行剔除后,得到的无其他干扰因素的语音信号。
89.上述技术方案的有益效果是:通过将获取到的待识别中文语音段转换为对应的音频图谱,同时获取噪声信号对应的音频图谱,从而实现通过音频图谱对待识别中文语音段中的噪声信号进行剔除,从而保障了待识别中文语音段的有效性,提高了对待识别中文语音段的识别效果。
90.实施例4:
91.在实施例1的基础上,本实施例提供了一种基于深度学习的中文语音识别系统,所
述语音获取模块包括:
92.时间确定单元,用于获取得到的待识别中文语音段,并将所述待识别中文语音段进行处理,得到各帧对应的语音信号;
93.所述时间确定单元,还用于基于各帧对应的语音信号确定所述待识别中文语音段的时域信息,并将所述时域信息与各帧对应的语音信号进行匹配;
94.排序单元,用于基于匹配结果确定所述待识别中文语音段对应的时间序列,并基于时间序列递增的顺序将所述待识别中文语音段进行排序,其中,所述待识别中文语音段至少为一段。
95.该实施例中,时域信息指的是接收到的待识别中文语音段所涉及的时间范围。
96.该实施例中,时间序列是用来表征各个待识别中文语音段所对应的具体时间
97.上述技术方案的有益效果是:通过确定待识别中文语音段所涉及的时域信息,实现对各个待识别中文语音段的具体时间顺序进行确认,从而便于通过具体时间顺序对获取到的待识别中文语音段进行排序,提高了对待识别中文语音段的识别效率,保障了对待识别中文语音段的识别效果。
98.实施例5:
99.在实施例4的基础上,本实施例提供了一种基于深度学习的中文语音识别系统,所述排序单元包括:
100.结果获取子单元,用于获取对待识别中文语音段的排序结果,并基于排序结果确定所述待识别中文语音段的目标数量;
101.标签获取子单元,用于提取所述待识别中文语音段的声学特征,并基于所述声学特征确定所述待识别中文语音段的语音类型;
102.标记子单元,用于基于所述语音类型从预设标签数据库中获取目标数量的标记标签,并基于所述目标数量的标记标签对所述待识别中文语音段进行标记。
103.该实施例中,目标数量是用来表征获取到的待识别中文语音段的具体数量。
104.该实施例中,声学特征指的是待识别中文语音段的声音特点,包括声以及语调等。
105.该实施例中,预设标签数据库是提前设定好的,用于存储不同语音类型对应的标记标签。
106.该实施例中,标记标签指的是可以用于对不同待识别中文语音段进行区分的标记符号,通过该标记标签可快速将不同待识别中文语音段进行区分,同时也便于确定待识别中文语音段的语音类型。
107.上述技术方案的有益效果是:通过确定待识别中文语音段的声学特征,并根根声学特征实现对待识别语音段的语音类型进行准确有效的判断,从而便于实现根据语音类型选用合适的标记标签对不同的待识别中文语音段进行标记,保障了在对待识别中文语音段识别的有序性,同时也便于提高识别效率以及准确率。
108.实施例6:
109.在实施例1的基础上,本实施例提供了一种基于深度学习的中文语音识别系统,所述语音识别模块包括:
110.数据获取单元,用于获取语音训练文本,并从预设语音库中调用不同声的口音
对所述语音训练文本进行读取,得到不同声的口音对所述语音训练文本的音频数据;
111.数据处理单元,用于对所述音频数据进行预处理,并基于预处理结果将所述音频数据转换为对应的语谱图,且基于所述语谱图确定所述音频数据中的有效区域;
112.模型构建单元,用于基于所述有效区域确定所述音频数据的特征参数,同时,获取中文汉语拼音与汉字的对应关系,并基于所述对应关系对所述特征参数进行训练,且基于训练结果构建中文语音识别模型;
113.语音识别单元,用于将获取到的待识别中文语音段依次输入所述中文语音识别模型,并基于所述中文语音识别模型中的预设语法分析树对接收到的待识别中文语音段进行分析,确定所述待识别中文语音段中每一句的起始点和结束点;
114.所述语音识别单元,用于基于所述起始点和结束点对每一所述待识别中文语音段进行第一拆分,且基于第一拆分结果得到每一所述待识别中文语音段的语句集合,并提取所述语句集合中每一句中文语音中包含的音节属性;
115.所述语音识别单元,用于基于所述音节属性对每一句中文语音进行第二拆分,并基于第二拆分结果得到每一句中文语音中包含的中文词汇;
116.所述语音识别单元,还用于提取所述中文词汇的发音特征,并基于所述中文汉语拼音与汉字的对应关系对所述发音特征进行处理,得到所述中文词汇对应的词汇文本;
117.文本拼接单元,用于将每一句中文语音中包含的中文词汇对应的词汇文本进行拼接,得到所述待识别中文语音段对应的语音文本。
118.该实施例中,预设语音库时提前设定好的,用于存储不同声的口音,从而便于对中文语音识别模型进行准确有效的训练。
119.该实施例中,语音训练文本是提前设定好的,且已知语音对应的文本信息。
120.该实施例中,预处理可以是是对音频数据进行去噪等处理。
121.该实施例中,语谱图指的是频谱分析视图,其横坐标是时间,纵坐标是频率,坐标点值为语音数据能量。
122.该实施例中,有效区域指的是对获取到的音频数据进行筛选,提取其中具有关键表征信息的语音片段。
123.该实施例中,特征参数指的是音频数据的取值情况以及语调对应的波动范围等。
124.该实施例中,预设语法分析树是提前设定好的,用于根据中文语法对获取到的待识别中文语音段进行识别,从而便于提高识别的准确率以及效率。
125.该实施例中,起始点和结实点是用来表征每一句话的开头和结尾。
126.该实施例中,第一拆分指的是将是待识别中文语音段拆分为以句为单位的多个语句。
127.该实施例中,语句集合指的是将待识别中文语音段拆分为多个语句后得到的集合。
128.该实施例中,音节属性指的是每一语句中包含的词汇的单音节与双音节。
129.该实施例中,第二拆分指的是将每一句中文语音拆分为以词汇为单位的多个中文词汇。
130.该实施例中,发音特征指的是每个中文词汇的发音特点。
131.该实施例中,词汇文本指的是每一句中文语音中词汇语音对应的汉字。
132.该实施例中,基于所述中文语音识别模型中的预设语法分析树对接收到的待识别中文语音段进行分析,包括:
133.获取得到的待识别中文语音段,并将所述待识别中文语音段转换为对应的特征向量,且基于所述特征向量确定所述待识别中文语音段对应的特征序列;
134.基于所述特征序列计算中文语音识别模型对所述待识别中文语音段识别到的词序列,并基于所述词序列计算对待识别中文语音段的识别准确率,具体步骤包括:
135.根据如下公式计算对所述待识别中文语音段识别到的词序列:
136.m=argmax[log
2 p(α|m)+η*log
2 p(m)];
[0137]
其中,m表示对所述待识别中文语音段识别到的词序列;p(α|m)表示声学模型,表征在预设词序列为m的情况下,输出声学特征为特征序列α的概率,且取值范围为(0,1);p(m)表示语言模型,表征预设词序列m在特征序列中出现的概率值,且取值范围为(0,1);η表示可调参数,且取值范围为(0,1);argmax[
·
]表示对函数求集合的函数,具体表征在满足声学模型和语言模型对待识别中文语音段识别的条件时,获取到的最大词汇集合;
[0138]
基于所述词序列m确定对所述待识别中文语音段识别到的词汇总数k;
[0139]
根据如下公式计算对待识别中文语音段的识别准确率:
[0140][0141]
其中,表示对待识别中文语音段的识别准确率,且取值范围为(0,1);ω表示误差因子,且取值范围为(0.02,0.05);k表示对所述待识别中文语音段识别到的词汇总数k;δ表示对所述待识别中文语音段错误识别的词汇个数;σ表示所述待识别中文语音段被遗漏识别的词汇个数;
[0142]
将计算得到的识别准确率与预设准确率进行比较;
[0143]
若所述识别准确率大于或等于所述预设准确率,判定对所述待识别中文语音段的识别合格;
[0144]
否则,判定对所述待识别中文语音段的识别不合格,并重新对所述待识别中文语音段进行语音识别,直至所述识别准确率大于或等于所述预设准确率。
[0145]
上述特征向量指的是将待识别中文语音段进行向量化处理后,得到的关于待识别中文语音段的语句向量。
[0146]
上述特征序列指的是每一特征向量对应的词汇序列。
[0147]
上述预设准确率是提前设定好的,用于衡量对待识别中文语音段的识别准确率是否满足预设要求。
[0148]
上述技术方案的有益效果是:通过获取语音训练文本,并通过不同声的口音对语音训练文本进行读取,从而实现对不同声的口音进行有效获取,其次,对语音训练文本对应的音频数据进行处理并训练,实现对中文语音识别模型进行准确可靠的构建,最后通过中文语音识别模型对获取到的待识别中文语音段进行拆分并识别,从而保障了对待识别中文语音段的识别准确率以及识别效果,确保得到的语音文本准确有效。
[0149]
实施例7:
[0150]
在实施例6的基础上,本实施例提供了一种基于深度学习的中文语音识别系统,所述语音识别单元包括:
[0151]
语音识别子单元,用于获取基于第一拆分结果得到的每一所述待识别中文语音段的语句集合,同时构建声学模型,并基于所述声学模型对所述语句集合中每一句中文语音进行声学识别;
[0152]
身份确定子单元,用于基于声学识别结果确定相邻句子的中文语音对应的声音特征,并将所述相邻句子的中文语音对应的声音特征进行比对;
[0153]
结果确定子单元,用于当比对结果判定相邻句子的中文语音对应的声音特征一致时,判定相邻句子的中文语音对应的用户相同,并将相邻句子的中文语音对应的语音文本进行统一标注,否则,判定相邻句子的中文语音对应的用户不同,并相邻句子的中文语音对应的语音文本进行区分标注。
[0154]
该实施例中,声学模型是用来对待识别中文语音段的声音特点进行分析,包括声以及声调等。
[0155]
该实施例中,声音特征可以是相邻句子的中文语音对应的声音的粗细等。
[0156]
该实施例中,统一标注指的是将相邻句子的中文语音标注为同一用户,从而便于对得到的语音文本进行区分。
[0157]
该实施例中,区分标注指的是是将相邻句子的中文语音标注为不同用户,从而便于对得到的语音文本进行区分。
[0158]
上述技术方案的有益效果是:通过构建声学模型,并通过声学模型对待识别中文语音段中相邻句子的中文语音进行声学特征识别,从而便于对待识别中文语音段中不同句子对应的用户进行准确判断,从而便于对识别得到的语音文本进行有序的管理,提高了对待识别中文语音段的识别效果。
[0159]
实施例8:
[0160]
在实施例1的基础上,本实施例提供了一种基于深度学习的中文语音识别系统,所述修正模块包括:
[0161]
文本获取单元,用于获取待识别中文语音段,同时,构建发音变化识别模型,并将所述待识别中文语音段输入所述发音变化识别模型进行处理,得到所述待识别中文语音段的语调信息;
[0162]
意图确定单元,用于获取对所述待识别中文语音段进行识别后得到的语音文本,并将所述语调信息与语音文本相结合确定所述待识别中文语音段的目标意图;
[0163]
语义确定单元,用于基于所述目标意图对所述语音文本进行语义分析,得到语义分析结果,同时,获取预设中文语法校验规则,并基于语义分析结果对所述语音文本进行语法校验;
[0164]
语法修正单元,用于当语法校验结果判定所述语音文本中存在错误语法时,确定异常语音文本在语音文本中的目标位置,并基于所述目标位置确定所述异常语音文本上下文的逻辑关系;
[0165]
所述语法修正单元,用于将所述目标位置处的异常语音文本进行拆分,得到n个文本关键词,并基于所述逻辑关系以及预设中文语法规则对所述n个文本关键词进行重新整理,得到修正后的语音文本;
[0166]
文本校验单元,用于基于所述目标意图对所述修正后的语音文本进行文字校验,并基于校验结果确定所述语音文本中的差异文字,且确定所述差异文字的目标拼音;
[0167]
文字替换单元,用于将所述目标拼音与预设名词库中各预设名词进行一一映射,并基于映射结果确定目标替换文字;
[0168]
所述文字替换单元,还用于基于所述目标替换文字对所述差异文字进行替换,并基于替换结果得到最终的语音识别文本。
[0169]
该实施例中,发音变化识别模型是用于对待识别中文语音段的发音变化情况进行识别。
[0170]
该实施例中,语调信息指的是待识别中文语音段对应的声调变化情况,从而便于确定用户的语音意图。
[0171]
该实施例中,目标意图指的是待识别中文语音段对应的表达目的。
[0172]
该实施例中,语义分析指的是对获取到的语音文本进行分析,确定语音文本表达的意思。
[0173]
该实施例中,预设中文语法校验规则是提前设定好的,用于对待识别中文语音段的语法进行校验。
[0174]
该实施例中,异常语音文本指的是获取到的语音文本中存在的错误语法对应的文本信息。
[0175]
该实施例中,目标位置指的是异常语音文本在得到的语音文本中的位置情况。
[0176]
该实施例中,文本关键词指的是异常语音文本所在的语句包含的中文词汇。
[0177]
该实施例中,预设中文语法规则是提前设定好的。
[0178]
该实施例中,文字校验指的是对得到的语音文本中的文字进行校验,从而便于确定其中是否存在错误文字。
[0179]
该实施例中,差异文字指的是得到的语音文本中存在的错误文字。
[0180]
该实施例中,目标拼音指的是差异文字对应的发音情况。
[0181]
该实施例中,预设名词库是提前设定好的,用于存储不同的文字。
[0182]
该实施例中,目标替换文字指的是与差异文字同音但是字体不一致的汉字。
[0183]
上述技术方案的有益效果是:通过对得到的语音文本进行语法校验,从而实现在存在语法错误时,及时对语音文本中的错误语法进行修正,其次在语法修正后对语音文本中的汉字形式进行校验,确保了最终得到的语音识别文本的准确率,保障了对待识别中文语音段的识别效果。
[0184]
实施例9:
[0185]
在实施例1的基础上,本实施例提供了一种基于深度学习的中文语音识别系统,所述修正模块包括:
[0186]
语音识别文本获取单元,用于获取最终的语音识别文本,并确定所述最终的语音识别文本的文本大小;
[0187]
容量分配单元,用于基于所述文本大小在预设存储区域分配目标存储空间,将所述最终的语音识别文本在所述目标存储空间进行存储。
[0188]
该实施例中,预设存储区域是提前设定好的,包括不同大小的存储空间。
[0189]
该实施例中,目标存储空间指的是用于对获取到的最终的语音识别文本进行存储的存储区域。
[0190]
上述技术方案的有益效果是:通过确定最终得到的语音识别文本的文件大小,从
而便于为语音识别文本分配相应的存储空间,并对语音识别文本进行存储,提高了对待识别中文语音段的识别结果的保存效果,从而保障了对待识别中文语音段的识别效果。
[0191]
实施例10:
[0192]
本实施例提供了一种基于深度学习的中文语音识别方法,如图3所示,包括:
[0193]
步骤1:实时接收待识别中文语音段,并基于时间序列对所述待识别中文语音段进行排序;
[0194]
步骤2:构建中文语音识别模型,并基于排序结果依次将获取到的待识别中文语音段输入中文语音识别模型进行语音识别,得到语音文本;
[0195]
步骤3:基于预设中文语法对得到的语音文本进行语法修正,得到最终的语音识别文本。
[0196]
上述技术方案的有益效果是:通过构建中文语音识别模型依次对获取到的待识别中文语音段进行识别,并根据中文语法对识别到的语音文本进行修正,从而确保对中文语音识别的准确率,提高了对中文语音识别的效果。
[0197]
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

技术特征:


1.一种基于深度学习的中文语音识别系统,其特征在于,包括:语音获取模块,用于实时接收待识别中文语音段,并基于时间序列对所述待识别中文语音段进行排序;语音识别模块,用于构建中文语音识别模型,并基于排序结果依次将获取到的待识别中文语音段输入中文语音识别模型进行语音识别,得到语音文本;修正模块,用于基于预设中文语法对得到的语音文本进行语法修正,得到最终的语音识别文本。2.根据权利要求1所述的一种基于深度学习的中文语音识别系统,其特征在于,所述语音获取模块包括:语音获取单元,用于实时监测用户当前的声学特点,并基于所述声学特点确定用户当前的语音状态,其中,所述语音状态包括出声和未出声;语音收录单元,用于当所述语音状态为出声时,对用户发出的中文语音进行获取,并将获取到的中文语音进行存储,得到待识别中文语音段。3.根据权利要求2所述的一种基于深度学习的中文语音识别系统,其特征在于,所述语音收录单元包括:语音处理子单元,用于获取得到的待识别中文语音段,并对所述待识别中文语音段进行频谱分析,得到所述待识别中文语音段对应的音频图谱;语音筛选子单元,用于基于所述音频图谱确定待识别中文语音段在各时刻对应的第一峰值频点,同时,获取噪声信号对应的噪声音频图谱,并基于噪声音频图谱确定噪声信号的第二峰值频点;所述语音筛选子单元,用于将所述第一峰值频点与所述第二峰值频点进行比对,筛选出所述第一峰值频点大于第二峰值频点的目标峰值频点,并将所述目标峰值频点对应的待识别中文语音段判定为有效待识别中文语音段。4.根据权利要求1所述的一种基于深度学习的中文语音识别系统,其特征在于,所述语音获取模块包括:时间确定单元,用于获取得到的待识别中文语音段,并将所述待识别中文语音段进行处理,得到各帧对应的语音信号;所述时间确定单元,还用于基于各帧对应的语音信号确定所述待识别中文语音段的时域信息,并将所述时域信息与各帧对应的语音信号进行匹配;排序单元,用于基于匹配结果确定所述待识别中文语音段对应的时间序列,并基于时间序列递增的顺序将所述待识别中文语音段进行排序,其中,所述待识别中文语音段至少为一段。5.根据权利要求4所述的一种基于深度学习的中文语音识别系统,其特征在于,所述排序单元包括:结果获取子单元,用于获取对待识别中文语音段的排序结果,并基于排序结果确定所述待识别中文语音段的目标数量;标签获取子单元,用于提取所述待识别中文语音段的声学特征,并基于所述声学特征确定所述待识别中文语音段的语音类型;标记子单元,用于基于所述语音类型从预设标签数据库中获取目标数量的标记标签,
并基于所述目标数量的标记标签对所述待识别中文语音段进行标记。6.根据权利要求1所述的一种基于深度学习的中文语音识别系统,其特征在于,所述语音识别模块包括:数据获取单元,用于获取语音训练文本,并从预设语音库中调用不同声的口音对所述语音训练文本进行读取,得到不同声的口音对所述语音训练文本的音频数据;数据处理单元,用于对所述音频数据进行预处理,并基于预处理结果将所述音频数据转换为对应的语谱图,且基于所述语谱图确定所述音频数据中的有效区域;模型构建单元,用于基于所述有效区域确定所述音频数据的特征参数,同时,获取中文汉语拼音与汉字的对应关系,并基于所述对应关系对所述特征参数进行训练,且基于训练结果构建中文语音识别模型;语音识别单元,用于将获取到的待识别中文语音段依次输入所述中文语音识别模型,并基于所述中文语音识别模型中的预设语法分析树对接收到的待识别中文语音段进行分析,确定所述待识别中文语音段中每一句的起始点和结束点;所述语音识别单元,用于基于所述起始点和结束点对每一所述待识别中文语音段进行第一拆分,且基于第一拆分结果得到每一所述待识别中文语音段的语句集合,并提取所述语句集合中每一句中文语音中包含的音节属性;所述语音识别单元,用于基于所述音节属性对每一句中文语音进行第二拆分,并基于第二拆分结果得到每一句中文语音中包含的中文词汇;所述语音识别单元,还用于提取所述中文词汇的发音特征,并基于所述中文汉语拼音与汉字的对应关系对所述发音特征进行处理,得到所述中文词汇对应的词汇文本;文本拼接单元,用于将每一句中文语音中包含的中文词汇对应的词汇文本进行拼接,得到所述待识别中文语音段对应的语音文本。7.根据权利要求6所述的一种基于深度学习的中文语音识别系统,其特征在于,所述语音识别单元包括:语音识别子单元,用于获取基于第一拆分结果得到的每一所述待识别中文语音段的语句集合,同时构建声学模型,并基于所述声学模型对所述语句集合中每一句中文语音进行声学识别;身份确定子单元,用于基于声学识别结果确定相邻句子的中文语音对应的声音特征,并将所述相邻句子的中文语音对应的声音特征进行比对;结果确定子单元,用于当比对结果判定相邻句子的中文语音对应的声音特征一致时,判定相邻句子的中文语音对应的用户相同,并将相邻句子的中文语音对应的语音文本进行统一标注,否则,判定相邻句子的中文语音对应的用户不同,并相邻句子的中文语音对应的语音文本进行区分标注。8.根据权利要求1所述的一种基于深度学习的中文语音识别系统,其特征在于,所述修正模块包括:文本获取单元,用于获取待识别中文语音段,同时,构建发音变化识别模型,并将所述待识别中文语音段输入所述发音变化识别模型进行处理,得到所述待识别中文语音段的语调信息;意图确定单元,用于获取对所述待识别中文语音段进行识别后得到的语音文本,并将
所述语调信息与语音文本相结合确定所述待识别中文语音段的目标意图;语义确定单元,用于基于所述目标意图对所述语音文本进行语义分析,得到语义分析结果,同时,获取预设中文语法校验规则,并基于语义分析结果对所述语音文本进行语法校验;语法修正单元,用于当语法校验结果判定所述语音文本中存在错误语法时,确定异常语音文本在语音文本中的目标位置,并基于所述目标位置确定所述异常语音文本上下文的逻辑关系;所述语法修正单元,用于将所述目标位置处的异常语音文本进行拆分,得到n个文本关键词,并基于所述逻辑关系以及预设中文语法规则对所述n个文本关键词进行重新整理,得到修正后的语音文本;文本校验单元,用于基于所述目标意图对所述修正后的语音文本进行文字校验,并基于校验结果确定所述语音文本中的差异文字,且确定所述差异文字的目标拼音;文字替换单元,用于将所述目标拼音与预设名词库中各预设名词进行一一映射,并基于映射结果确定目标替换文字;所述文字替换单元,还用于基于所述目标替换文字对所述差异文字进行替换,并基于替换结果得到最终的语音识别文本。9.根据权利要求1所述的一种基于深度学习的中文语音识别系统,其特征在于,所述修正模块包括:语音识别文本获取单元,用于获取最终的语音识别文本,并确定所述最终的语音识别文本的文本大小;容量分配单元,用于基于所述文本大小在预设存储区域分配目标存储空间,将所述最终的语音识别文本在所述目标存储空间进行存储。10.一种基于深度学习的中文语音识别方法,其特征在于,包括:步骤1:实时接收待识别中文语音段,并基于时间序列对所述待识别中文语音段进行排序;步骤2:构建中文语音识别模型,并基于排序结果依次将获取到的待识别中文语音段输入中文语音识别模型进行语音识别,得到语音文本;步骤3:基于预设中文语法对得到的语音文本进行语法修正,得到最终的语音识别文本。

技术总结


本发明提供了一种基于深度学习的中文语音识别系统及方法,涉及语音识别技术领域,其系统包括:语音获取模块,用于实时接收待识别中文语音段,并基于时间序列对所述待识别中文语音段进行排序;语音识别模块,用于构建中文语音识别模型,并基于排序结果依次将获取到的待识别中文语音段输入中文语音识别模型进行语音识别,得到语音文本;修正模块,用于基于预设中文语法对得到的语音文本进行语法修正,得到最终的语音识别文本。通过构建中文语音识别模型依次对获取到的待识别中文语音段进行识别,并根据中文语法对识别到的语音文本进行修正,从而确保对中文语音识别的准确率,提高了对中文语音识别的效果。对中文语音识别的效果。对中文语音识别的效果。


技术研发人员:

张年乾

受保护的技术使用者:

深圳市灵镜技术有限公司

技术研发日:

2022.07.19

技术公布日:

2022/10/25

本文发布于:2024-09-23 01:37:40,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/1/21213.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:语音   中文   所述   文本
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议