语音识别的方法、装置、设备和存储介质与流程



1.本公开的示例实施例总体涉及计算机领域,特别地涉及用于语音识别的方法、装置、设备和计算机可读存储介质。


背景技术:



2.随着计算机技术的发展,语音识别技术已经被广泛地应用于人们生活中的各个方面。例如,人们可以利用语音识别技术来执行文本输入,或者会议记录等。
3.然而,语音识别技术在一些语言的识别方面却受到较大的限制。例如,语音识别技术只能够将方言语音识别成与发音对应的文本,这将使得不理解该方言的用户无法理解文本所表达的含义。


技术实现要素:



4.在本公开的第一方面,提供了一种语音识别的方法。该方法包括生成与输入语音对应的第一文本;确定第一文本中特定于第一语言的至少一个专用词汇;通过将至少一个专用词汇替换为第二语言的对应词汇,以生成第二文本;以及提供经生成的第二文本。
5.在本公开的第二方面,提供了一种用于语音识别的装置。该装置包括生成模块,被配置为生成与输入语音对应的第一文本;确定模块,被配置为确定第一文本中特定于第一语言的至少一个专用词汇;替换模块,被配置为通过将至少一个专用词汇替换为第二语言的对应词汇,以生成第二文本;以及提供模块,被配置为提供经生成的第二文本。
6.在本公开的第三方面,提供了一种电子设备。该设备包括至少一个处理单元;以及至少一个存储器,至少一个存储器被耦合到至少一个处理单元并且存储用于由至少一个处理单元执行的指令。指令在由至少一个处理单元执行时使设备执行第一方面的方法。
7.在本公开的第四方面,提供了一种计算机可读存储介质。介质上存储有计算机程序,程序被处理器执行时实现第一方面的方法。
8.应当理解,该内容部分中所描述的内容并非旨在限定本公开的实施例的关键特征或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的描述而变得容易理解。
附图说明
9.结合附图并参考以下详细说明,本公开各实施例的上述和其他特征、优点及方面将变得更加明显。在附图中,相同或相似的附图标记表示相同或相似的元素,其中:
10.图1示出了本公开的实施例能够在其中实现的示例环境的示意图;
11.图2示出了根据本公开的一些实施例的语音识别的示例过程的流程图;
12.图3示出了根据本公开的一些实施例的识别和替换专用词汇的示例过程的示意图;
13.图4示出了根据本公开的一些实施例的生成转换表的示例过程的示意图;
14.图5示出了根据本公开的一些实施例的用于配置语音识别的装置的框图;以及
15.图6示出了能够实施本公开的多个实施例的设备的框图。
具体实施方式
16.可以理解的是,在使用本公开各实施例公开的技术方案之前,均应当依据相关法律法规通过恰当的方式对本公开所涉及个人信息的类型、使用范围、使用场景等告知用户并获得用户的授权。
17.例如,在响应于接收到用户的主动请求时,向用户发送提示信息,以明确地提示用户,其请求执行的操作将需要获取和使用到用户的个人信息。从而,使得用户可以根据提示信息来自主地选择是否向执行本公开技术方案的操作的电子设备、应用程序、服务器或存储介质等软件或硬件提供个人信息。
18.作为一种可选的但非限定性的实现方式,响应于接收到用户的主动请求,向用户发送提示信息的方式例如可以是弹窗的方式,弹窗中可以以文字的方式呈现提示信息。此外,弹窗中还可以承载供用户选择“同意”或者“不同意”向电子设备提供个人信息的选择控件。
19.可以理解的是,上述通知和获取用户授权过程仅是示意性的,不对本公开的实现方式构成限定,其它满足相关法律法规的方式也可应用于本公开的实现方式中。
20.可以理解的是,本技术方案所涉及的数据(包括但不限于数据本身、数据的获取或使用)应当遵循相应法律法规及相关规定的要求。
21.下面将参照附图更详细地描述本公开的实施例。虽然附图中示出了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反,提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。
22.在本公开的实施例的描述中,术语“包括”及其类似用语应当理解为开放性包含,即“包括但不限于”。术语“基于”应当理解为“至少部分地基于”。术语“一个实施例”或“该实施例”应当理解为“至少一个实施例”。术语“一些实施例”应当理解为“至少一些实施例”。下文还可能包括其他明确的和隐含的定义。
23.在语音识别过程中,将语音转换为对应的文本是基础的识别任务。在一些地区,可能会存在多种方言,这样的方言通常具有一些专用词汇。在对方言语音进行识别的过程中,将这样的专用词汇的语音转换为对应的文本通常也难以理解其含义。
24.例如,以北京话为例,北京话语音识别系统虽然能够将“逗闷子”的语音转换为对应的文字,但是不理解北京话的用户可能无法理解这样的特定词汇的含义。这使得这样的方言语音识别系统难以提供可用的语音识别结果。
25.本公开的实施例提出了一种用于语音识别的方案。在该方案中,首先,可以生成与输入语音对应的第一文本。进一步地,可以确定第一文本中特定于第一语言(例如,方言)的至少一个专用词汇(例如,方言中专用的表达)。
26.进一步地,可以通过将至少一个专用词汇替换为第二语言(例如,普通话)的对应词汇以生成第二文本,并提供经生成的第二文本。
27.以此方式,本公开的实施例能够识别第一文本中影响理解的词汇,并通过将其替
换为第二语言的词汇。基于这样的方式,本公开的实施例能够在保证语音识别的准确性的情况,进一步提高语音识别结果的可理解性。
28.以下进一步结合附图来详细描述该方案的各种示例实现。为了阐释本公开实施例的原理和思想,下文的某些描述将会参考中文的方言和普通话来进行描述。然而将会理解,这仅仅是示例性,无意以任何方式限制本公开的范围。本公开的实施例可以应用于其它任何类似语言的处理。
29.示例环境
30.首先参见图1,其示意性示出了其中可以实施根据本公开的示例性实现方式的示例环境100的示意图。如图1所示,示例环境100可以包括识别设备120。
31.如图1所示,识别设备120可以获取输入语音110。在一些实施例中,输入语音110可以对应于第一语言,例如,特定的方言。示例性地,输入语音110例如可以是对应于北京话的语音数据。
32.在一些实施例中,输入语音110可以由适当的音频采集器所获取。这样的音频采集器可以集成在识别设备120处。或者,音频采集器可以独立于识别设备120,并且可以通过有线或无线网络而将输入语音110发送至识别设备120。
33.在一些实施例中,识别设备120可以利用适当的语音识别模型来将输入语音110转换为第一文本130。这样的第一文本130例如与输入语音110中的文字具有对应的发音。以图1作为示例,第一文本130例如可以是对应于方言(例如,北京话)的文本。
34.进一步地,识别设备120可以识别第一文本130中特定于第一语言的专用词汇。例如,识别设备120可以识别专用词汇135(例如,“逗闷子”)是特定于第一语言(例如,北京话)的专用词汇。
35.如图1所示,识别设备120可以进一步将该专用词汇135替换为第二语言的对应词汇145。例如,识别设备120可以将北京话的“逗闷子”替换为普通话的“开玩笑”。
36.进一步地,基于替换后的对应词汇145,识别设备120可以生成对应于第二语言的第二文本140。例如,第二文本140可以是对应于普通话的文本,并且具有明确的语义。
37.下文将详细介绍识别专用词汇和生成第二文本的具体过程。
38.基于专用词汇的语音识别
39.图2示出了根据本公开的一些实施例的语音识别的过程200的流程图。示例性地,过程200可以由图1的识别设备120独立实现,或者由识别设备120与其他计算设备的组合来实现。为了方便讨论,将结合图1来描述过程200。
40.如图2所示,在框202,识别设备120生成与输入语音110对应的第一文本130。
41.在一些实施例中,识别设备120可以利用与第一语言对应的语音识别模型来处理输入语音110,以将输入语音110转换为对应的第一文本130。
42.以图1作为示例,识别设备120例如可以利用部署的“北京话语音识别模型”来处理输入语音110,以生成第一文本130,例如“没事儿别在这儿逗闷子”。
43.继续参考图2,在框204,识别设备120确定第一文本130中特定于第一语言的至少一个专用词汇135。
44.以下将参考图3来描述框204的具体过程。图3示出了根据本公开的实施例的识别和替换专用词汇的示例过程的示意图300。
45.如图3所示,在生成第一文本130后,识别设备120可以将第一文本130切分为多个词汇310。示例性地,识别设备120可以利用适当的切词工具来将第一文本130切分为多个词汇,这样的切词工具的示例可以包括但不限于:sentence piece等。
46.进一步地,识别设备120可以确定多个词汇310中与第一语言的专用词汇集匹配的至少一个专用词汇135。在一些实施例中,识别设备120可以获取转换表320(也可以称为转换词典320),其用于指示特定于第一语言的多个词汇,以及第二语言中与该多个词汇对应的词汇。由此,转换表320中的特定于第一语言的多个词汇可以构成第一语言的专用词汇集。关于转换表320和专用词汇集的构建过程将在下文参考图4详细描述。
47.继续图3的示例,识别设备120例如可以确定多个词汇310中的词汇135与第一语言的专用词汇集匹配,并可以确定词汇135(例如,“逗闷子”)是特定于“北京话”的专用词汇。
48.在一些实施例中,识别设备120对第一文本130的切分可能不够准确。例如,识别设备120可能将“在这儿逗闷子”整体切分为一个词汇,并且该词汇可能无法与第一语言的专用词汇集匹配,这可能导致某些专用词汇无法被有效地翻译。
49.为了避免这种情况,在利用切分工具将第一文本130首次切分为一组中间词汇后,识别设备120还可以基于专用词集来重新切分该组中间词汇,从而确定多个词汇310。
50.例如,识别设备120可能从第一文本130中切分出“在这儿逗闷子”这个词汇。进一步地,识别设备120可以基于第一语言的专用词汇集中包括“逗闷子”这个词汇,而进一步将“在这儿逗闷子”进一步切分为“在这儿”和“逗闷子”两个词汇。
51.基于这样的方式,本公开的实施例可以避免由于切分不准确而导致第一语言的专用词汇无法被准确识别。
52.继续参考图2,在框206,识别设备120通过将至少一个专用词汇135替换为第二语言的对应词汇145,以生成第二文本140。
53.以图3作为示例,识别设备120可以获取第一语言的专用词汇集的转换表320。如上文所介绍的,转换表320可以至少指示专用词汇集中的词汇与第二语言的词汇的对应性。例如,转换表320可以指示北京话的词汇“逗闷子”对应于普通话的词汇“开玩笑”。
54.进一步地,识别设备120可以基于转换表320来确定至少一个专用词135对应于第二语言的对应词汇145。例如,识别设备120可以确定专用词汇135(例如,“逗闷子”)的对应词汇145为“开玩笑”。
55.附加地,识别设备120可以利用对应词汇145替换第一文本130中的至少一个专用词汇135,以生成第二文本140。如图3所示,在将“逗闷子”替换为“开玩笑”后,识别设备120可以生成第二文本140。
56.继续参考图2,在框208,识别设备120提供经生成的第二文本140。在一些实施例中,第二文本140例如可以提供作为输入语音110的语音识别结果。备选地,第一文本130和第二文本140可以同时被提供。
57.在一些实施例中,识别设备120例如可以以适当地方式呈现第二本140,以作为输入语音110的语音识别结果。
58.在一个示例场景中,输入语音110可以为会议中的发言音频,识别设备120例如可以使得第二文本140被实时呈现,以作为发言音频对应的字幕。
59.在另一个示例场景中,输入语音110可以为会议中的发言音频,识别设备120例如
可以使得第二文本140与会议的音视频文件相关联地呈现,以作为会议的音频转录文本。
60.在又一个示例中,输入语音110例如可以是用于文本编辑,识别设备120可以使得第二文本140被添加到待被输入的应用或界面中。
61.基于上文所描述的语音识别方法,本公开的实施例能够准确地识别第一语言中的专用词汇,并将其替换为第二语言的第二词汇。通过这样的方式,本公开的实施例能够在保证语音识别准确性的情况下,大大提高识别结果的可理解程度,从而提高语音识别可用性。
62.在一些实施例中,识别设备120还可以确定对应词汇145的附加信息。示例性地,识别设备120可以确定对应词汇145的时间信息。
63.通常,在诸如会议记录等场景中,识别设备120可以构建每个词汇或词汇中的每个字与音视频时间之间的关联。相应地,识别设备120可以首先确定至少一个专用词汇135在输入语音110中的时间信息。该时间信息例如可以指示专用词汇135在输入语音110中的起始时间和结束时间。
64.进一步地,识别设备120可以基于第一时间信息来确定第二文本140中的对应词汇145的第二时间信息,其中第二时间信息指示对应词汇中的每个字的开始时间和结束时间。
65.示例性,识别设备120可以将专用词汇135的时间信息赋予给对应词汇145。例如,专用词汇135在输入语音110中的时间例如可以是“50秒至53秒”,识别设备120可以确定替换的对应的词汇145的时间同样为“50秒至53秒”。
66.在一些实施例中,识别设备120还可以基于对应词汇145的时间信息来进一步确定对应词汇145中每个字的时间信息。例如,以图3作为示例,对应词汇145例如可以对应于“50秒至53秒”,并且其包括3个字,则识别设备120可以确定每个字的平均时间长度,例如,可以确定每个字分别对应于“1秒”。
67.在一些实施例中,识别设备120还可以确定对应词汇145的置信度。示例性地,识别设备120可以确定专用词汇135中各个字的识别置信度,其例如可以表示每个字的语音识别的准确程度。
68.进一步地,识别设备120可以基于各个字的识别置信度来确定专用词汇135的识别置信度。例如,识别设备120可以基于各个字的识别置信度的平均值来确定专用词汇135的识别置信度。
69.进一步地,识别设备120可以基于专用词汇135的识别置信度来确定对应词汇145的识别置信度。例如,识别设备120可以将专用词汇135的识别置信度直接作为对应词汇145中每个字的置信度。
70.在一些实施例中,识别设备120还可以生成关于第二文本140的评价信息。在一些示例中,评价信息例如可以指示第二文本140的流畅性,以表征第二文本140本身是否流畅可理解。
71.示例性地,识别设备120可以利用适当的语言模型来确定第二文本140的流畅性。备选地,识别设备120也可以接收关于第二文本140的流畅性的标注信息,其例如可以是由标注人员仅基于第二文本140本身而标注获得。
72.在又一些示例中,评价信息例如还可以指示第二文本140与输入语音110的匹配性。示例性地,识别设备120可以接收关于匹配性的标注信息。该标注信息例如可以是由标注人员基于第二文本140和输入语音110两者而标注获得,其用于指示第二文本140与输入
语音110的语义是否匹配。
73.在一些实施例中,这样的评价信息例如可以用于提供作第一语言的语音识别模型和/或转换表320的反馈,以用于进一步优化语音识别模型和/或转换表320。
74.示例性地,对于评价信息指示第二文本140的流畅性或匹配性低于阈值的情况下,识别设备120可以基于输入语音110来构建新的训练数据,并利用该训练数据来重新训练第一语言的语音识别模型。
75.备选地,识别设备120还可以基于评价数据来确定转换表320中的特定对应性可能存在错误,并可以基于评价数据来优化转换表320中的词汇对应性。
76.专用词汇集及转换表的构建
77.以上结合图2和图3介绍了语音识别的过程,如上文所讨论的,识别设备120可以结合转换表320来实现专用词汇的识别和替换。下文将结合图4来描述专用词汇集和转换表的构建过程。
78.图4示出了根据本公开的一些实施例的生成转换表的示例过程的示意图400。应当理解,图4所示出的构建专用词汇集440和转换表320的过程可以由与识别设备120相同或不同的计算设备来执行。为了方便描述,以下将以识别设备120作为示例来进行描述。
79.如图4所示,识别设备120可以获取第一样本语音405和第二样本语音410,其中第一样本语音405对应于第一语言,第二样本语音410对应于第二语言。在一些实施例中,第一样本语音405和第二样本语音410可以是针对相同场景。例如,第一样本语音405和第二样本语音410可以都是室内场景中。
80.进一步地,识别设备120可以基于第一样本语音405和第二样本语音410来分别生成第一样本文本415和第二样本文本420。示例性地,识别设备120例如可以利用第一语言的语音识别模型来处理第一样本语音405,以生成第一样本文本415;并可以利用第二语言的语音识别模型来处理第二样本语音410,以生成第二样本文本420。
81.进一步地,识别设备120可以利用切词工具来确定与第一样本文本415对应的第一词汇集425和与第二样本文本420对应的第二词汇集430。
82.附加地,识别设备120还可以基于第一词汇集425和第二词汇集430,生成第一语言的专用词汇集440,其中专用词汇集440包括属于第一词汇集425但不属于第二词汇集430的词汇。
83.以方言和普通话作为第一语言和第二语言的示例,一些方言的文本中还是可能有大量普通话的词汇,这样的词汇本身不构成方言词汇。由此,通过处理第一词汇集425和第二词汇集430,本公开的实施例可以高效地确定第一语言的专用词汇集。
84.在一些实施例中,在构建专用词汇440的过程中,识别设备120还可以考虑专用词汇被转换为第二语言的必要性。具体地,识别设备120可以首先基于第一词汇集和第二词汇集,生成候选词汇集。该候选词汇集包括属于第一词汇集但不属于第二词汇集的多个候选词汇。
85.进一步地,识别设备120可以确定候选词汇集中的候选词汇的标注信息,标注信息指示候选词汇被转换为第二语言的必要性。
86.在一些实施例中,标注信息可以指示候选词汇在不转换为第二语言的情况下的可理解程度。例如,标注信息可以包括“重要”,其例如可以指示第二语言中不常说此候选词
汇,且影响句子大意理解;标注信息例如还可以包括“一般”,其例如可以指示第二语言不常说此种表达,但不影响句子大意理解;标注信息例如还可以包括“低”,其例如可以表示第二语言存在相同或类似词汇,不影响理解。
87.在一些实施例中,标注信息还可以指示候选词汇在第一语言中是否具有固定含义。例如,标注信息可以表示某个候选词汇可能是在不同场景下具有不同含义的歧义词汇,其无法通过转换表的形式进行有效转换。
88.在一些实施例中,标注信息还可以表示该候选词汇是否是切词错误的词汇。例如,切词所获得的某个候选词汇可能是第一语言中不存在的表达。
89.在一些实施例中,标注信息还可以表示该候选词汇在第一训练设文本415或第一词汇集425中的频率。
90.进一步地,识别设备120可以基于候选词汇集中的多个候选词汇的标注信息,生成第一语言的专用词汇集440。
91.具体地,识别设备120可以基于候选词汇集中的多个候选词汇的标注信息,确定至少一个目标词汇,其中至少一个目标词汇在未被转换为第二语言时的可理解程度低于阈值程度、或者至少一个目标词汇在第一语言中具有固定含义、或者至少一个目标词汇在第一样本文本中的频率高于阈值频率。
92.示例性地,识别设备120例如可以抛弃重要程度标注为“一般”和“低”的候选词汇,而仅保留“重要”的候选词汇。备选地或附加地,识别设备120也可以抛弃被标注为歧义词汇的候选词汇。备选地或附加地,识别设备120也可以抛弃被标注为错误切分的词汇。备选地或附加地,识别设备120也可以抛弃频率低于阈值频率的词汇。
93.进一步地,识别设备120可以基于所确定的至少一个目标词汇来生成第一语言的专用词汇集440。基于这样的方式,本公开的实施例能够有效地筛选训练文本中较为重要的词汇,从而降低后续标注的人工成本或时间成本。
94.如图4所示,识别设备120还可以基于专用词汇表440来构建转换表320。具体地,识别设备120例如可以获取专用词汇表440中各词汇的、第二语言的对应词汇,从而构建转换表320。在一些实施例中,对应词汇例如可以是通过人工标注的方式所生成。
95.基于以上所讨论的过程,本公开的实施例能够有效地构建第一语言的专用词汇集,并降低标注成本。
96.示例装置和设备
97.本公开的实施例还提供了用于实现上述方法或过程的相应装置。图5示出了根据本公开的一些实施例的用于配置虚拟资源的装置500的示意性结构框图。
98.如图5所示,装置500包括生成模块510,被配置为生成与输入语音对应的第一文本。装置500还包括确定模块520,被配置为确定第一文本中特定于第一语言的至少一个专用词汇。装置500还包括替换模块530,被配置为通过将至少一个专用词汇替换为第二语言的对应词汇,以生成第二文本。此外,装置500还包括提供模块540,被配置为提供经生成的第二文本。
99.在一些实施例中,确定模块520还被配置为:将第一文本切分为多个词汇;以及确定多个词汇中与第一语言的专用词汇集匹配的至少一个专用词汇。
100.在一些实施例中,装置500还包括构建模块,被配置为:获取与相同场景相关联的
第一样本文本和第二样本文本,第一样本文本对应于第一语言,第二样本文本对应第二语言;确定与第一样本文本对应的第一词汇集和与第二样本文本对应的第二词汇集;以及基于第一词汇集和第二词汇集,生成第一语言的专用词汇集,其中专用词汇集包括属于第一词汇集但不属于第二词汇集的词汇。
101.在一些实施例中,构建模块还被配置为:获取与相同场景相关联的第一样本语音和第二样本语音;以及基于第一样本语音和第二样本语音,生成第一样本文本和第二样本文本。
102.在一些实施例中,构建模块还被配置为:基于第一词汇集和第二词汇集,生成候选词汇集,候选词汇集包括属于第一词汇集但不属于第二词汇集的多个候选词汇;确定候选词汇集中的候选词汇的标注信息,标注信息指示候选词汇被转换为第二语言的必要性;以及基于候选词汇集中的多个候选词汇的标注信息,生成第一语言的专用词汇集。
103.在一些实施例中,标注信息指示以下之一:候选词汇在不转换为第二语言的情况下的可理解程度;候选词汇在第一语言中是否具有固定含义;或者候选词汇在第一样本文本中的频率。
104.在一些实施例中,构建模块还被配置为:基于候选词汇集中的多个候选词汇的标注信息,确定至少一个目标词汇,其中至少一个目标词汇在未被转换为第二语言时的可理解程度低于阈值程度、或者至少一个目标词汇在第一语言中具有固定含义、或者候选词汇在第一样本文本中的频率高于阈值频率;以及基于至少一个目标词汇,生成第一语言的专用词汇集。
105.在一些实施例中,确定模块520还被配置为:将第一文本切分为一组中间词汇;以及基于专用词汇集,重新切分一组中间词汇,以确定多个词汇。
106.在一些实施例中,替换模块530还被配置为:获取第一语言的专用词汇集的转换表,转换表至少指示专用词汇集中的词汇与第二语言的词汇的对应性;基于转换表,确定至少一个专用词汇对应于第二语言的对应词汇;以及利用对应词汇替换第一文本中的至少一个专用词汇,以生成第二文本。
107.在一些实施例中,装置500还包括时间确定模块,被配置为:确定至少一个专用词汇在输入语音中的第一时间信息;以及基于第一时间信息,确定第二文本中的对应词汇的第二时间信息,第二时间信息指示对应词汇中的每个字的开始时间和结束时间。
108.在一些实施例中,装置500还包括置信度确定模块,被配置为:确定至少一个专用词汇中各个字的第一识别置信度;基于第一识别置信度,确定至少一个专用词汇的第二识别置信度;以及基于第二识别置信度,确定对应词汇的第三识别置信度。
109.在一些实施例中,装置500还包括评价模块,被配置为:生成关于第二文本的评价信息,评价信息指示:第二文本的流畅性和/或第二文本与输入语音的匹配性。
110.在一些实施例中,第一语言为方言,第二语言为普通话。
111.装置500中所包括的单元可以利用各种方式来实现,包括软件、硬件、固件或其任意组合。在一些实施例中,一个或多个单元可以使用软件和/或固件来实现,例如存储在存储介质上的机器可执行指令。除了机器可执行指令之外或者作为替代,装置500中的部分或者全部单元可以至少部分地由一个或多个硬件逻辑组件来实现。作为示例而非限制,可以使用的示范类型的硬件逻辑组件包括现场可编程门阵列(fpga)、专用集成电路(asic)、专
用标准品(assp)、片上系统(soc)、复杂可编程逻辑器件(cpld),等等。
112.图6示出了其中可以实施本公开的一个或多个实施例的计算设备/服务器600的框图。应当理解,图6所示出的计算设备/服务器600仅仅是示例性的,而不应当构成对本文所描述的实施例的功能和范围的任何限制。
113.如图6所示,计算设备/服务器600是通用计算设备的形式。计算设备/服务器600的组件可以包括但不限于一个或多个处理器或处理单元610、存储器620、存储设备630、一个或多个通信单元640、一个或多个输入设备660以及一个或多个输出设备660。处理单元610可以是实际或虚拟处理器并且能够根据存储器620中存储的程序来执行各种处理。在多处理器系统中,多个处理单元并行执行计算机可执行指令,以提高计算设备/服务器600的并行处理能力。
114.计算设备/服务器600通常包括多个计算机存储介质。这样的介质可以是计算设备/服务器600可访问的任何可以获得的介质,包括但不限于易失性和非易失性介质、可拆卸和不可拆卸介质。存储器620可以是易失性存储器(例如寄存器、高速缓存、随机访问存储器(ram))、非易失性存储器(例如,只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、闪存)或它们的某种组合。存储设备630可以是可拆卸或不可拆卸的介质,并且可以包括机器可读介质,诸如闪存驱动、磁盘或者任何其他介质,其可以能够用于存储信息和/或数据(例如用于训练的训练数据)并且可以在计算设备/服务器600内被访问。
115.计算设备/服务器600可以进一步包括另外的可拆卸/不可拆卸、易失性/非易失性存储介质。尽管未在图6中示出,可以提供用于从可拆卸、非易失性磁盘(例如“软盘”)进行读取或写入的磁盘驱动和用于从可拆卸、非易失性光盘进行读取或写入的光盘驱动。在这些情况中,每个驱动可以由一个或多个数据介质接口被连接至总线(未示出)。存储器620可以包括计算机程序产品625,其具有一个或多个程序模块,这些程序模块被配置为执行本公开的各种实施例的各种方法或动作。
116.通信单元640实现通过通信介质与其他计算设备进行通信。附加地,计算设备/服务器600的组件的功能可以以单个计算集或多个计算机器来实现,这些计算机器能够通过通信连接进行通信。因此,计算设备/服务器600可以使用与一个或多个其他服务器、网络个人计算机(pc)或者另一个网络节点的逻辑连接来在联网环境中进行操作。
117.输入设备650可以是一个或多个输入设备,例如鼠标、键盘、追踪球等。输出设备660可以是一个或多个输出设备,例如显示器、扬声器、打印机等。计算设备/服务器600还可以根据需要通过通信单元640与一个或多个外部设备(未示出)进行通信,外部设备诸如存储设备、显示设备等,与一个或多个使得用户与计算设备/服务器600交互的设备进行通信,或者与使得计算设备/服务器600与一个或多个其他计算设备通信的任何设备(例如,网卡、调制解调器等)进行通信。这样的通信可以经由输入/输出(i/o)接口(未示出)来执行。
118.根据本公开的示例性实现方式,提供了一种计算机可读存储介质,其上存储有一条或多条计算机指令,其中一条或多条计算机指令被处理器执行以实现上文描述的方法。
119.这里参照根据本公开实现的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本公开的各个方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机可读程序指令实现。
120.这些计算机可读程序指令可以提供给通用计算机、专用计算机或其他可编程数据
处理装置的处理单元,从而生产出一种机器,使得这些指令在通过计算机或其他可编程数据处理装置的处理单元执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中,这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作,从而,存储有指令的计算机可读介质则包括一个制造品,其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。
121.也可以把计算机可读程序指令加载到计算机、其他可编程数据处理装置、或其他设备上,使得在计算机、其他可编程数据处理装置或其他设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机、其他可编程数据处理装置、或其他设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。
122.附图中的流程图和框图显示了根据本公开的多个实现的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分,模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
123.以上已经描述了本公开的各实现,上述说明是示例性的,并非穷尽性的,并且也不限于所公开的各实现。在不偏离所说明的各实现的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实现的原理、实际应用或对市场中的技术的改进,或者使本技术领域的其他普通技术人员能理解本文公开的各实现。

技术特征:


1.一种语音识别的方法,包括:生成与输入语音对应的第一文本;确定所述第一文本中特定于第一语言的至少一个专用词汇;通过将所述至少一个专用词汇替换为第二语言的对应词汇,以生成第二文本;以及提供经生成的所述第二文本。2.根据权利要求1所述的方法,其中确定所述第一文本中特定于第一语言的至少一个专用词汇包括:将所述第一文本切分为多个词汇;以及确定所述多个词汇中与所述第一语言的专用词汇集匹配的所述至少一个专用词汇。3.根据权利要求2所述的方法,还包括:获取与相同场景相关联的第一样本文本和第二样本文本,所述第一样本文本对应于所述第一语言,所述第二样本文本对应所述第二语言;确定与所述第一样本文本对应的第一词汇集和与所述第二样本文本对应的第二词汇集;以及基于所述第一词汇集和所述第二词汇集,生成所述第一语言的所述专用词汇集,其中所述专用词汇集包括属于所述第一词汇集但不属于所述第二词汇集的词汇。4.根据权利要求3所述的方法,其中获取与相同场景相关联的第一样本文本和第二样本文本包括:获取与所述相同场景相关联的第一样本语音和第二样本语音;以及基于所述第一样本语音和所述第二样本语音,生成所述第一样本文本和所述第二样本文本。5.根据权利要求3所述的方法,其中生成所述第一语言的所述专用词汇集包括:基于所述第一词汇集和所述第二词汇集,生成候选词汇集,所述候选词汇集包括属于所述第一词汇集但不属于所述第二词汇集的多个候选词汇;确定所述候选词汇集中的候选词汇的标注信息,所述标注信息指示所述候选词汇被转换为所述第二语言的必要性;以及基于所述候选词汇集中的所述多个候选词汇的所述标注信息,生成所述第一语言的所述专用词汇集。6.根据权利要求5所述的方法,其中所述标注信息指示以下之一:所述候选词汇在不转换为所述第二语言的情况下的可理解程度;所述候选词汇在所述第一语言中是否具有固定含义;或者所述候选词汇在所述第一样本文本中的频率。7.根据权利要求6所述的方法,其中基于所述候选词汇集中的候选词汇的所述标注信息生成所述第一语言的所述专用词汇集包括:基于所述候选词汇集中的所述多个候选词汇的所述标注信息,确定至少一个目标词汇,其中所述至少一个目标词汇在未被转换为所述第二语言时的可理解程度低于阈值程度、或者所述至少一个目标词汇在所述第一语言中具有固定含义、或者所述至少一个目标词汇在所述第一样本文本中的所述频率高于阈值频率;以及基于所述至少一个目标词汇,生成所述第一语言的所述专用词汇集。
8.根据权利要求2所述的方法,其中将所述第一文本切分为多个词汇包括:将所述第一文本切分为一组中间词汇;以及基于所述专用词汇集,重新切分所述一组中间词汇,以确定所述多个词汇。9.根据权利要求1所述的方法,其中将所述至少一个专用词汇替换为第二语言的对应词汇以生成第二文本包括:获取所述第一语言的专用词汇集的转换表,所述转换表至少指示所述专用词汇集中的词汇与所述第二语言的词汇的对应性;基于所述转换表,确定所述至少一个专用词汇对应于所述第二语言的所述对应词汇;以及利用所述对应词汇替换所述第一文本中的所述至少一个专用词汇,以生成所述第二文本。10.根据权利要求1所述的方法,还包括:确定所述至少一个专用词汇在所述输入语音中的第一时间信息;以及基于所述第一时间信息,确定所述第二文本中的所述对应词汇的第二时间信息,所述第二时间信息指示所述对应词汇中的每个字的开始时间和结束时间。11.根据权利要求1所述的方法,还包括:确定所述至少一个专用词汇中各个字的第一识别置信度;基于所述第一识别置信度,确定所述至少一个专用词汇的第二识别置信度;以及基于所述第二识别置信度,确定所述对应词汇的第三识别置信度。12.根据权利要求1所述的方法,还包括:生成关于所述第二文本的评价信息,所述评价信息指示:所述第二文本的流畅性和/或所述第二文本与所述输入语音的匹配性。13.根据权利要求1至12中任一项所述的方法,其中所述第一语言为方言,所述第二语言为普通话。14.一种用于语音识别的装置,包括:生成模块,被配置为生成与输入语音对应的第一文本;确定模块,被配置为确定所述第一文本中特定于第一语言的至少一个专用词汇;替换模块,被配置为通过将所述至少一个专用词汇替换为第二语言的对应词汇,以生成第二文本;以及提供模块,被配置为提供经生成的所述第二文本。15.一种电子设备,包括:至少一个处理单元;以及至少一个存储器,所述至少一个存储器被耦合到所述至少一个处理单元并且存储用于由所述至少一个处理单元执行的指令,所述指令在由所述至少一个处理单元执行时使所述设备执行根据权利要求1至13中任一项所述的方法。16.一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现根据权利要求1至13中任一项所述的方法。

技术总结


根据本公开的实施例,提供了用于语音识别的方法、装置、设备和存储介质。该方法包括:生成与输入语音对应的第一文本;确定第一文本中特定于第一语言的至少一个专用词汇;通过将至少一个专用词汇替换为第二语言的对应词汇,以生成第二文本;以及提供经生成的第二文本。基于以上方式,本公开的实施例能够将第一语言(例如,方言)的语音直接输出为第二语言(例如,普通话)的文本,从而提高语音识别的效率。从而提高语音识别的效率。从而提高语音识别的效率。


技术研发人员:

陈智鹏 孙健 何怡 马泽君

受保护的技术使用者:

北京有竹居网络技术有限公司

技术研发日:

2022.08.18

技术公布日:

2022/11/18

本文发布于:2024-09-20 14:40:22,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/1/2486.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:词汇   所述   文本   设备
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议