语音识别方法与流程



1.本技术涉及语音识别技术领域,具体而言,涉及一种语音识别方法。


背景技术:



2.目前,在进行语音识别时,是将语音数据输入至语音识别系统中,语音识别系统内会采用诸如光束搜索策略等方法,先推算出若干个词网格,然后采用一个语言模型对词网格打分并将分数合并于词网格中,从而最终得到语音识别结果。
3.在现有技术中,对词网格打分的语言模型往往是采用一个固定的n元语言模型来实现,但是由于这个模型是固定的,因此可能存在与用户实际所在的场景匹配度不高的问题,从而影响最终的语音识别结果的准确性。


技术实现要素:



4.本技术实施例的目的在于提供一种语音识别方法,用以解决相关技术存在着的,对词网格打分的语言模型与用户实际所在的场景匹配度不高,影响最终的语音识别结果的准确性的问题。
5.本技术实施例提供了一种语音识别方法,包括:确定不同训练集与最新的用户语音数据集之间的相关度;根据相关度最高的t个训练集训练出的第一语言模型,得到目标语言模型;所述t为大于等于1的正整数;根据所述目标语言模型对最新输入的用户语音数据进行识别,得到识别结果。
6.在上述实现过程中,通过确定不同训练集与最新的用户语音数据集之间的相关度,从而选取相关度最高的t个训练集训练出的第一语言模型来得到目标语言模型,这就使得得到的目标语言模型与最新输入的用户语音数据集之间高度相关,使得目标语言模型与用户实际所在的场景具有较高的匹配度,进而使用目标语言模型对最新输入的用户语音数据进行识别,就可以使得最终得到的识别结果更为准确。
7.进一步地,确定不同训练集与最新的用户语音数据集之间的相关度,包括:获取所述最新的用户语音数据集训练出的第二语言模型,以及所述不同训练集训练出的多个第三语言模型;所述第二语言模型与所述第三语言模型为相同类型的语言模型;根据所述第二语言模型和各所述第三语言模型确定所述不同训练集与所述最新的用户语音数据集之间的相关度。
8.在上述实现过程中,通过由最新的用户语音数据集训练出第二语言模型,并由各训练集训练出与第二语言模型相同类型的第三语言模型,这就使得第二语言模型和各第三语言模型之间具有可比性,且可以第二语言模型和各第三语言模型之间的相关性可以反映出不同训练集与所述最新的用户语音数据集之间,在语言模型上的相关性,从而根据第二语言模型和第三语言模型,可以准确的确定出不同训练集与最新的用户语音数据集之间的相关度,保证方案的正确实施。
9.进一步地,根据所述第二语言模型和各所述第三语言模型确定所述不同训练集与
所述最新的用户语音数据集之间的相关度,包括:对所述第二语言模型进行查询扩展,得到扩展第二语言模型;确定所述扩展第二语言模型分别与所述不同训练集的所述第三语言模型之间的相关度;所述扩展第二语言模型与各所述第三语言模型之间的相关度为所述最新的用户语音数据集与各所述第三语言模型对应的训练集之间的相关度。
10.在上述实现过程中,通过对第二语言模型进行查询扩展,可以扩展第二语言模型所包含词语的广度,并提升最新的用户语音数据集中词语的概率,使得得到的相关度更能表征不同训练集与最新的用户语音数据集之间的相关性。
11.进一步地,对所述第二语言模型进行查询扩展,得到扩展第二语言模型,包括:根据背景模型θ
bg
和倒时序模型θ
tr
,确定出初始的扩展第二语言模型θ
sg
;其中:所述θ
bg
为根据所述不同训练集训练得到的概率模型,所述θ
bg
中各词语的概率值与各所述词语的重要性相关;所述θ
tr
为根据所述最新的用户语音数据集训练得到的概率模型,所述θ
tr
中各词语的概率值与各所述词语的先后顺序相关;根据所述θ
bg
、所述θ
tr
和所述θ
sg
确定预设的核函数的值;在确定预设的结束条件满足时,得到最终的所述扩展第二语言模型θ
sg

12.在上述实现过程中,通过背景模型θ
bg
体现词语的重要性,并通过倒时序模型θ
tr
体现最新的用户语音数据集中各词语出现时序,从而可以使得得到的扩展第二语言模型θ
sg
中,越重要的词语概率值越大,在最新的用户语音数据集中越晚出现的词语概率值越大,使得扩展第二语言模型θ
sg
可以更好地反映出用户实际所处的场景,使得得到的相关度更能表征不同训练集与用户实际所处场景的匹配度。
13.进一步地,根据所述θ
bg
和所述θ
tr
确定出所述θ
sg
的过程包括:按照下述公式确定出所述θ
sg

[0014][0015][0016][0017][0018]
其中:p(w|θ
bg
)表征θ
bg
中的第w个词语的概率值,c
train
(w)表征θ
bg
中的第w个词语在所述不同训练集中出现的总次数,v表征θ
bg
中的词语总数,g
train
(w

)表征θ
bg
中的第w

个词语在所述不同训练集中出现的总次数;p(w|θ
tr
)表征θ
tr
中的第w个词语的概率值,表征θ
tr
中的第w个词语在所述最新的用户语音数据集中出现的总次数,u
x
表征θ
tr
中的词语总数,表征θ
tr
中的第w

个词语在所述最新的用户语音数据集中出现的总次数,l表征所述最新的用户语音数据集中的词语总数;p(w|θ
sg
)表征θ
sg
中的第w个词语的概率值,e(w)表征p(w|θ
sg
)的期望估计,e(w

)表征p(w


sg
)的期望估计,p(w


sg
)表征θ
sg
中的第w

个词语的概率值,m(w)表征p(w|θ
sg
)的极大似然估计,cq(w)表征θ
sg
中的第w个词语在所述最新的用户语音数据集中出现的总次数,cq(w

)表征θ
sg
中的第w

个词语在所述最新的用户语音数
据集中出现的总次数,λm为θm的权重值。
[0019]
通过上述算法,背景模型θ
bg
中越重要的词语概率值越小,倒时序模型θ
tr
中越晚输入的词语概率值越小,则通过联立e(w)和m(w),可以使得得到的p(w|θ
sg
)中,越重要的词语概率值越大,越晚输入的词语概率值越大,并通过反向迭代不断更新p(w|θ
sg
),使得最终得到的p(w|θ
sg
)可以更好地反映出用户实际所处的场景。
[0020]
进一步地,所述核函数为:其中,f(θ)为所述核函数的值。
[0021]
通过上述核函数,可以同时关联背景模型θ
bg
、倒时序模型θ
tr
和扩展第二语言模型θ
sg
,使得基于该核函数进行是否需要继续迭代的判断时,可以综合关联背景模型θ
bg
、倒时序模型θ
tr
和扩展第二语言模型θ
sg
三者的情况,使得最终得到的p(w|θ
sg
)更符合预期。
[0022]
进一步地,所述第二语言模型与所述第三语言模型为一元语言模型,所述第一语言模型为n元语言模型。
[0023]
在上述实现方式中,通过一元语言模型进行关联度确定,由于一元语言模型的复杂度较n元语言模型更低,从而可以更为快速地确定出各训练集与最新的用户语音数据集之间的相关度。而使用n元语言模型来得到目标语言模型,从而可以使得目标语言模型的可靠度更高。
[0024]
进一步地,所述第一语言模型为n元语言模型;所述第三语言模型与所述第一语言模型为相同语言模型。
[0025]
在上述实现方式中,通过直接基于n元语言模型确定各训练集与最新的用户语音数据集之间的相关度,进而直接选取相关度最高的t个训练集训练出的n元语言模型得到目标语言模型,这就无需使用每一个训练集分别训练出两种不同类型的语言模型,对于每一个训练集而言,只需训练出一个n元语言模型即可,模型训练的工作量得以减少。
[0026]
进一步地,所述t为大于等于2的正整数;根据相关度最高的t个训练集训练出的第一语言模型,得到目标语言模型,包括:根据最高的t个相关度,确定相关度最高的t个训练集训练出的所述第一语言模型的权重;根据所述权重结合各所述第一语言模型,得到所述目标语言模型。
[0027]
在上述实现过程中,通过基于相关度确实选取的各第一语言模型的权重,从而使得相关度越高的训练集训练出的第一语言模型的权重越高,使得最终得到的目标语言模型可以与用户实际所在的场景更匹配,使得识别结果更准确。
[0028]
进一步地,根据所述目标语言模型对最新输入的用户语音数据进行识别,得到识别结果,包括:获取语音识别系统对所述最新输入的用户语音数据进行识别得到的词网格;通过所述目标语言模型对所述词网格重新打分,得到所述识别结果。
[0029]
进一步地,在确定不同训练集与最新的用户语音数据集之间的相关度之前,所述方法还包括:在最新输入了预设数量的用户语音数据时,将最新输入的所述用户语音数据加入用户语音数据集中,得到所述最新的用户语音数据集。
[0030]
在上述实现方式中,用户每输入了预设数量的用户语音数据,即可更新用户语音数据集并重新确定出目标语言模型,这就使得随着用户语音数据的不断输入,目标语言模型的可靠性会越来越高。且即使用于所在场景发生变化,通过用户语音数据集的不断更新,也可以自适应地将目标语言模型调整至与新的场景相匹配的目标语言模型,从而达到更好
的语音识别效果。
[0031]
本技术实施例还提供了一种语音识别装置,包括:相关度确定模块,用于确定不同训练集与最新的用户语音数据集之间的相关度;目标语言模型获得模块,用于根据相关度最高的t个训练集训练出的第一语言模型,得到目标语言模型;所述t为大于等于1的正整数;识别模块,用于根据所述目标语言模型对最新输入的用户语音数据进行识别,得到识别结果。
[0032]
本技术实施例还提供了一种电子设备,包括处理器和存储器;所述处理器用于执行所述存储器中存储的一个或者多个程序,以实现上述任一种的语音识别方法。
[0033]
本技术实施例中还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现上述任一种的语音识别方法。
附图说明
[0034]
为了更清楚地说明本技术实施例的技术方案,下面将对本技术实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本技术的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
[0035]
图1为本技术实施例提供的一种语音识别方法的流程示意图;
[0036]
图2为本技术实施例提供的一种对第二语言模型进行查询扩展得到扩展第二语言模型的流程示意图;
[0037]
图3为本技术实施例提供的一种语音识别装置的结构示意图;
[0038]
图4为本技术实施例提供的一种电子设备的结构示意图。
具体实施方式
[0039]
下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行描述。以下各实施例之间可以任意结合实施或单独实施,本技术不做限制。
[0040]
实施例一:
[0041]
为了解决相关技术存在着的,对词网格打分的语言模型与用户实际所在的场景匹配度不高,影响最终的语音识别结果的准确性的问题,本技术实施例中提供了一种语音识别方法。可以参见图1所示,图1为本技术实施例中提供的语音识别方法的流程示意图,包括:
[0042]
s101:确定不同训练集与最新的用户语音数据集之间的相关度。
[0043]
在本技术实施例中,可以预先设定好各种领域的训练集。例如,可以针对财经领域的语句或语音数据进行汇总,得到财经领域的训练集,对体育领域的语句或语音数据进行汇总,得到体育领域的训练集,对娱乐领域的语句或语音数据进行汇总,得到娱乐领域的训练集等。在本技术实施例中,对于领域的划分粒度不做限制,此外对于训练集中的语句或语音数据的获取方式也不做限制。
[0044]
在本技术实施例中,最新的用户语音数据集是指用户输入至语音识别系统中的语音数据的集合。
[0045]
在本技术实施例中,语音识别系统可以对接收到的语音数据进行统计,在每次检测到新输入了预设数量的用户语音数据时,即可将最新输入的用户语音数据加入用户语音数据集中,得到最新的用户语音数据集。而在每一次重新得到最新的用户语音数据集后,即可重新执行本技术实施例所提供的语音识别方法。其中,预设数量的取值可以由工程师根据实际需要设置,例如设置为50、100等,对此本技术实施例不做限制。
[0046]
在本技术实施例中,为了节约存储空间,还可以对用户语音数据集中用户语音数据进行定时老化,例如可以将用户语音数据集中已存在时长超过的用户语音数据进行删除。其中,预设时长可以是1天、1周、1个月等,具体时长可以由工程师根据实际需求确定。应理解,由于用户语音数据的输入时间离当前时间越久,则该用户语音数据对于用户实际所处场景的表征能力就越弱,且反而可能存在该用户语音数据与用户当前实际所处场景不符,影响得到的目标语言模型的可靠性的问题,因此删除这些已存在时长超过的语音数据,一方面可以避免用户语音数据集的无限膨胀,造成系统出现存储资源不足的问题,另一方面也可以提高用户语音数据集对于用户当前实际所处场景的表征能力,提高本技术实施例的方案可靠性。
[0047]
在本技术实施例中,可以基于最新的用户语音数据集训练出的第二语言模型,并分别基于各训练集训练出多个第三语言模型(具体而言,每个训练集训练出一个第三语言模型)。其中,第二语言模型与第三语言模型为相同类型的语言模型。例如,第二语言模型为一元语言模型,则第三语言模型也为一元语言模型,第二语言模型为二元语言模型,则第三语言模型也为二元语言模型。语言模型的训练方式可以采用已有的或未来将会出现的训练方式实现,对此本技术实施例中不做限制。
[0048]
在本技术实施例中,可以根据第二语言模型和各第三语言模型确定不同训练集与最新的用户语音数据集之间的相关度。
[0049]
在一种示例方式中,可以采用查询似然度检索等技术,分别计算第二语言模型和各第三语言模型之间的相关度p(mq|m
dn
),其中,p(mq|m
dn
)表征第二语言模型mq与第三语言模型m
dn
之间的相关度,m
dn
表征第n个第三语言模型,n的取值为1至n,n等于第三语言模型的总数,也等于训练集的总数。此时,第二语言模型与各第三语言模型之间的相关度,即为最新的用户语音数据集与各第三语言模型对应的训练集之间的相关度。
[0050]
例如,假设训练集有3个,分别为训练集1、训练集2和训练集3,则训练有3个第三语言模型,分别为m
d1
、m
d2
和m
d3
,则p(mq|m
d1
)为最新的用户语音数据集与训练集1之间的相关度,p(mq|m
d2
)为最新的用户语音数据集与训练集2之间的相关度,p(mq|m
d3
)为最新的用户语音数据集与训练集3之间的相关度。
[0051]
在另一种示例方式中,可以对第二语言模型进行查询扩展,得到扩展第二语言模型(所谓扩展第二语言模型是指扩展后得到的第二语言模型),然后确定该扩展第二语言模型分别与不同训练集的所述第三语言模型之间的相关度。此时,扩展第二语言模型与各第三语言模型之间的相关度,即为最新的用户语音数据集与各第三语言模型对应的训练集之间的相关度。
[0052]
与前文类似的,仍假设训练集有3个,分别为训练集1、训练集2和训练集3,则训练有3个第三语言模型,分别为m
d1
、m
d2
和m
d3
,记θ
sg
为扩展第二语言模型,则p(θ
sg
|m
d1
)为最新的用户语音数据集与训练集1之间的相关度,p(θ
sg
|m
d2
)为最新的用户语音数据集与训练集2
之间的相关度,p(θ
sg
|m
d3
)为最新的用户语音数据集与训练集3之间的相关度。
[0053]
类似的,在上述示例方式中,可以采用但不限于查询似然度检索等技术,确定扩展第二语言模型分别与不同训练集的所述第三语言模型之间的相关度。
[0054]
在上述示例方式中,为实现对第二语言模型进行查询扩展,得到扩展第二语言模型,一种可行的实施例中,可以参见图2所示,包括:
[0055]
s201:根据背景模型θ
bg
和倒时序模型θ
tr
,确定出初始的扩展第二语言模型θ
sg

[0056]
其中:θ
bg
为根据不同训练集训练得到的概率模型,θ
bg
中各词语的概率值与各词语的重要性相关。θ
tr
为根据最新的用户语音数据集训练得到的概率模型,θ
tr
中各词语的概率值与各词语的先后顺序相关。
[0057]
示例性的,θ
bg
的一种可选的具体表现形式可以是:
[0058]
其中:p(w|θ
bg
)表征θ
bg
中的第w个词语的概率值,c
train
(w)表征θ
bg
中的第w个词语在不同训练集中出现的总次数,v表征θ
bg
中的词语总数,c
train
(w

)表征θ
bg
中的第w

个词语在不同训练集中出现的总次数。
[0059]
示例性的,θ
tr
的一种可选的具体表现形式可以是:
[0060]
其中:p(w|θ
tr
)表征θ
tr
中的第w个词语的概率值,表征θ
tr
中的第w个词语在最新的用户语音数据集中出现的总次数,u
x
表征θ
tr
中的词语总数,表征θ
tr
中的第w

个词语在最新的用户语音数据集中出现的总次数,l表征最新的用户语音数据集中的词语总数。
[0061]
以上具体表现形式仅为本技术实施例中所示例出的θ
bg
和θ
tr
的具体表现形式,不作为对本技术实施例方案的限制。
[0062]
在本技术实施例中,可以基于最大期望算法,通过θ
bg
和θ
tr
确定出扩展第二语言模型θ
sg

[0063]
示例性的,可以根据公式和和计算出p(w|θ
sg
),其中,p(w|θ
sg
)表征θ
sg
中的第w个词语的概率值,p(w|θ
sg
)为扩展第二语言模型θ
sg
的具体表现形式。e(w)表征p(w|θ
sg
)的期望估计,e(w

)表征p(w


sg
)的期望估计,p(w


sg
)表征θ
sg
中的第w

个词语的概率值,m(w)表征p(w|θ
sg
)的极大似然估计,cq(w)表征θ
sg
中的第w个词语在所述最新的用户语音数据集中出现的总次数,cq(w

)表征θ
sg
中的第w

个词语在最新的用户语音数据集中出现的总次数,λm为θm的权重值,下标m为变量,取值为集合{bg,sg,tr}。
[0064]
应理解,背景模型θ
bg
、倒时序模型θ
tr
、扩展第二语言模型θ
sg
均为概率模型,模型的内容为模型中各词语的概率值,因此在某些文献中,也直接将p(w|θ
bg
)、p(w|θ
tr
)和p(w|θ
sg
)作为背景模型、倒时序模型、扩展第二语言模型,对此仅是在语言表达上与本技术做了区别,不存在实质区别。
[0065]
s202:根据背景模型θ
bg
、倒时序模型θ
tr
和扩展第二语言模型θ
sg
确定预设的核函数的值。
[0066]
示例性的,本技术实施例中的核函数可以为:
[0067][0068]
其中,f(θ)为核函数的值。
[0069]
应理解,以上仅为本技术实施例所示例的一种可选的核函数,不作为对本技术的限制。事实上,本技术中也可以设计其他核函数形式实现,只要该核函数能够反映扩展第二语言模型对背景模型和倒时序模型的吸收程度即可。
[0070]
s203:判断预设的结束条件是否满足。若满足,转至步骤s204。若不满足,转至步骤s201。
[0071]
s204:输出扩展第二语言模型θ
sg

[0072]
应理解,在本技术实施例中,公式中,p(w|θ
sg
)为上一次迭代过程中计算得到的扩展第二语言模型,初始值为第二语言模型。而通过公式即可计算出本次迭代得到的扩展第二语言模型,从而实现对于扩展第二语言模型的不断迭代更新,直至预设的结束条件满足。预设的结束条件满足时,输出的扩展第二语言模型θ
sg
即为最终的扩展第二语言模型。
[0073]
在本技术实施例中,结束条件可以包括以下至少之一:
[0074]
核函数的值收敛;
[0075]
核函数的值小于预设阈值;
[0076]
步骤s201和步骤s202的重复次数达到预设次数阈值。
[0077]
s102:根据相关度最高的t个训练集训练出的第一语言模型,得到目标语言模型。
[0078]
在本技术实施例中,t为大于等于1的正整数。t的取值可以由工程师根据实际需要进行设置。
[0079]
当t的取值为1时,即直接将相关度最高那一个训练集训练出的第一语言模型作为目标语言模型,无需进行额外的结合处理。但是,当t的取值为大于等于2的正整数时,则需要对选出的多个第一语言模型(选出的第一语言模型即为相关度最高的t个训练集训练出的第一语言模型)进行结合,以得到目标语言模型。
[0080]
可选的,本技术实施例中可以采用插补法对选出t个第一语言模型的相互结合,得到目标语言模型,但不作为限制。
[0081]
为实现对选出的t个第一语言模型进行结合,需要先确定出各第一语言模型的权重。为此,在本技术实施例中,可以根据最高的t个相关度,确定相关度最高的t个训练集训练出的第一语言模型的权重,使各第一语音模型的权重与对应的相关度正相关,进而使得最终得到的目标语言模型更符合预期。
[0082]
示例性的,可以按照公式示例性的,可以按照公式计算出各第一语言模型的权重。其中,g(t)表征第t个第一语言模型的权重,表征第t个第一语言模型对应的相关度。通过上述公式,第一语言模型对应的相关度越高,则该第一语言
模型的权重越大,且可以保证各第一语言模型的权重之和等于1。
[0083]
此后,即可按照公式此后,即可按照公式计算出目标语言模型md。其中,λm为第一语言模型mm的权重值。
[0084]
在本技术实施例的一种可行实施方式中,第二语言模型与第三语言模型可以采用一元语言模型,而第一语言模型可以采用n元语言模型(例如三元语言模型、四元语言模型等)实现。这样,由于一元语言模型的复杂度较n元语言模型更低,通过一元语言模型进行不同训练集与最新的用户语音数据集之间的相关度的确定,可以更为快速地确定出各训练集与最新的用户语音数据集之间的相关度。而n元语言模型的语言识别准确性较一元语言模型更高,通过使用n元语言模型得到目标语言模型,从而可以使得目标语言模型的可靠度更高。
[0085]
在上述可行实施方式中,每一个训练集需要训练出两种不同类型的语言模型(即一元语言模型和n元语言模型)。而在本技术实施例的另一种可行实施方式中,可以仅根据每一个训练集训练出一个n元语言模型,将该n元语言模型既作为本技术实施例中的第一语言模型,又作为第三语言模型。这样,即可直接基于n元语言模型确定各训练集与最新的用户语音数据集之间的相关度,进而直接选取相关度最高的t个训练集训练出的n元语言模型得到目标语言模型,对于每一个训练集而言,只需训练出一个n元语言模型即可,减少了语言模型训练的工作量。
[0086]
s103:根据目标语言模型对最新输入的用户语音数据进行识别,得到识别结果。
[0087]
在本技术实施例中,可以获取语音识别系统对最新输入的用户语音数据进行识别得到的词网格,进而通过目标语言模型对词网格重新打分,得到识别结果。其中,最新输入的用户语音数据可以是最新加入用户语音数据集中,使得用户语音数据集更新,使得本技术实施例的方法被重新执行的那部分预设数量的用户语音数据,此外最新输入的用户语音数据也可以是得到目标语言模型后输入至语音识别系统中的用户语音数据,对此本技术实施例中不做限制。
[0088]
语音识别系统本身具有将语音转换为文字进行输出的功能,可以将用户输入的语音数据转换为多个词语,进而将词语按照语言逻辑转换为语句进行输出。在该过程中,语音识别系统往往并不会直接输出一个识别结果,而是会采用光束搜索等策略,将词语按照语言逻辑转换为多个候选识别结果,这些候选识别结果集成在一起即形成词网格(对于词网格的具体说明可参考已有的相关文献,本技术中不做赘述)。本技术实施例中,通过目标语言模型对词网格重新进行打分,即可以对词网格中各候选识别结果进行重新打分,最终将词网格中打分最高的候选识别结果作为最终的识别结果进行输出。该过程中,由于目标语言模型是基于与最新输入的用户语音数据集相关度最高的t个第一语言模型结合得到的,因此目标语言模型与用户实际所在的场景以及用户的语言描述逻辑具有较高的匹配度,从而就可以使得最终的识别结果更用户的语言逻辑,使得最终得到的识别结果更为准确。
[0089]
本技术实施例所提供的语音识别方法,通过确定不同训练集与最新的用户语音数据集之间的相关度,从而选取相关度最高的t个训练集训练出的第一语言模型来得到目标语言模型,这就使得得到的目标语言模型与最新输入的用户语音数据集之间高度相关,使得目标语言模型与用户实际所在的场景具有较高的匹配度,进而使用目标语言模型对最新输入的用户语音数据进行识别,就可以使得最终得到的识别结果更为准确。
[0090]
实施例二:
[0091]
本实施例在实施例一的基础上,以一种第一语言模型为三元语言模型,第二语言模型和第三语言模型为一元语言模型的情况为例,为本技术做进一步示例说明。
[0092]
首先,预先准备不同领域的训练集。分别对不同训练集训练出各训练集对应的三元语言模型和一元语言模型m
d1

[0093]
然后,不断检测并统计用户输入的语音数据的数量。每当检测到用户新输入了k条语音数据后,即将这k条语音数据加入用户语音数据集中,并执行以下操作:
[0094]
将这k条语音数据经由语音识别系统转换为文字,将这些文字训练成一元语言模型m
q1

[0095]
采用以下公式对m
q1
进行查询扩展,得到扩展后的一元语言模型θ
sg

[0096][0097][0098][0099][0100][0101]
g(t)=f(θ)
t-f(θ)
t-1
,式子6
[0102]
其中,式子1为核函数,式子4中的p(w|θ
sg
)的初始值为一元语言模型m
q1
,通过式子5可计算出的本轮的扩展后的一元语言模型θ
sg
(表现形式为p(w|θ
sg
)),式子6为收敛判断函数,式子6中的t为迭代次数,当g(t)等于0或趋近于0,即表明核函数的值收敛。其余各式子中的参数含义参见实施例一的记载,在此不再赘述。
[0103]
方案执行时,先基于所有的训练集得到式子2中的p(w|θ
bg
),并基于用户语音数据集得到式子3中的p(w|θ
tr
),然后首轮计算时,将一元语言模型m
q1
作为p(w|θ
sg
)执行式子4,非首轮计算时,代入上一轮计算出的p(w|θ
sg
)执行式子4,接着执行式子5得到本轮计算得到的p(w|θ
sg
),然后计算式子1,并将式子1的计算结果和上一轮的计算结果代入式子6,判断是否收敛。若未收敛,重新执行式子4、式子5、式子1和式子6;若收敛,输出本轮计算得到的p(w|θ
sg
)。
[0104]
然后,采用查询似然度检索算法,计算得到的p(w|θ
sg
)和各一元语言模型m
d1
之间的相关度。
[0105]
取相关度最大的t个一元语言模型m
d1
对应的三元语言模型(一元语言模型m
d1
对应的三元语言模型即为同一训练集训练出的三元语言模型),按照公式计算出各三元语言模型的权重。其中,g(t)表
征第t个三元语言模型的权重,表征第t个三元语言模型对应的相关度(即该三元语言模型对应的一元语言模型m
d1
的相关度)。
[0106]
然后,按照公式md=∑
m∈{1,2,

,t}
λmmm,计算出目标语言模型md。其中,λm为三元语言模型mm的权重值。
[0107]
最后,利用目标语言模型md对经由语音识别系统处理得到的词网格进行重打分,得到最终的识别结果。词网格由语音识别系统对前文输入的k条语音数据进行语音识别处理而得到。
[0108]
上述实施方案中,由于目标语言模型是根据与最新的用户语音数据集之间的相关度最高的t个训练集训练出的语言模型得到的,目标语言模型与最新输入的用户语音数据集之间高度相关,使得目标语言模型与用户实际所在的场景具有较高的匹配度,进而使用目标语言模型对最新输入的用户语音数据进行识别,就可以使得最终得到的识别结果更为准确。此外,在上述方案中,可以随着用户语音数据的不断输入,而不断更新迭代目标语言模型,从而可以保证目标语言模型的准确性。
[0109]
实施例三:
[0110]
基于同一发明构思,本技术实施例中还提供了一种语音识别装置300。请参阅图3所示,图3示出了采用图1所示的方法的语音识别装置。应理解,装置300具体的功能可以参见上文中的描述,为避免重复,此处适当省略详细描述。装置300包括至少一个能以软件或固件的形式存储于存储器中或固化在装置300的操作系统中的软件功能模块。具体地:
[0111]
参见图3所示,装置300包括:相关度确定模块301,目标语言模型获得模块302和识别模块303。其中:
[0112]
相关度确定模块301,用于确定不同训练集与最新的用户语音数据集之间的相关度;
[0113]
目标语言模型获得模块302,用于根据相关度最高的t个训练集训练出的第一语言模型,得到目标语言模型;所述t为大于等于1的正整数;
[0114]
识别模块303,用于根据所述目标语言模型对最新输入的用户语音数据进行识别,得到识别结果。
[0115]
在本技术实施例的一种可行实施方式中,相关度确定模块301具体用于:获取所述最新的用户语音数据集训练出的第二语言模型,以及所述不同训练集训练出的多个第三语言模型,根据所述第二语言模型和各所述第三语言模型确定所述不同训练集与所述最新的用户语音数据集之间的相关度。所述第二语言模型与所述第三语言模型为相同类型的语言模型。
[0116]
在上述可行实施方式中,相关度确定模块301具体用于:对所述第二语言模型进行查询扩展,得到扩展第二语言模型;确定所述扩展第二语言模型分别与所述不同训练集的所述第三语言模型之间的相关度;所述扩展第二语言模型与各所述第三语言模型之间的相关度为所述最新的用户语音数据集与各所述第三语言模型对应的训练集之间的相关度。
[0117]
在上述可行实施方式中,相关度确定模块301具体用于:根据背景模型θ
bg
和倒时序模型θ
tr
,确定出扩展第二语言模型θ
sg
;根据所述θ
bg
、所述θ
tr
和所述θ
sg
确定预设的核函数的值;重复上述过程直至满足预设的结束条件。
[0118]
其中:所述θ
bg
为根据所述不同训练集训练得到的概率模型,所述θ
bg
中各词语的概
率值与各所述词语的重要性相关;所述θ
tr
为根据所述最新的用户语音数据集训练得到的概率模型,所述θ
tr
中各词语的概率值与各所述词语的先后顺序相关;
[0119]
在上述可行实施方式中,相关度确定模块301具体用于,按照下述公式确定出所述θ
sg

[0120][0121][0122][0123][0124]
其中:
[0125]
p(w|θ
bg
)表征θ
bg
中的第w个词语的概率值,c
train
(w)表征θ
bg
中的第w个词语在所述不同训练集中出现的总次数,v表征θ
bg
中的词语总数,g
train
(w

)表征θ
bg
中的第w

个词语在所述不同训练集中出现的总次数;
[0126]
p(w|θ
tr
)表征θ
tr
中的第w个词语的概率值,表征θ
tr
中的第w个词语在所述最新的用户语音数据集中出现的总次数,u
x
表征θ
tr
中的词语总数,表征θ
tr
中的第w

个词语在所述最新的用户语音数据集中出现的总次数,l表征所述最新的用户语音数据集中的词语总数;
[0127]
p(w|θ
sg
)表征θ
sg
中的第w个词语的概率值,e(w)表征p(w|θ
sg
)的期望估计,e(w

)表征p(w


sg
)的期望估计,p(w


sg
)表征θ
sg
中的第w

个词语的概率值,m(w)表征p(w|θ
sg
)的极大似然估计,cq(w)表征θ
sg
中的第w个词语在所述最新的用户语音数据集中出现的总次数,cq(w

)表征θ
sg
中的第w

个词语在所述最新的用户语音数据集中出现的总次数,λm为θm的权重值。
[0128]
在上述可行实施方式中,所述核函数为:
[0129][0130]
其中,f(θ)为所述核函数的值。
[0131]
可选的,所述第二语言模型与所述第三语言模型为一元语言模型,所述第一语言模型为n元语言模型。
[0132]
可选的,所述第一语言模型为n元语言模型;所述第三语言模型与所述第一语言模型为相同语言模型。
[0133]
在本技术实施例的一种可行实施方式中,所述t为大于等于2的正整数;目标语言模型获得模块302具体用于:根据最高的t个相关度,确定相关度最高的t个训练集训练出的所述第一语言模型的权重,根据所述权重结合各所述第一语言模型,得到所述目标语言模
型。
[0134]
在本技术实施例的一种可行实施方式中,识别模块303具体用于,获取语音识别系统对所述最新输入的用户语音数据进行识别得到的词网格,通过所述目标语言模型对所述词网格重新打分,得到所述识别结果。
[0135]
在本技术实施例中,装置300还可以包括数据更新模块,用于在相关度确定模块301确定不同训练集与最新的用户语音数据集之间的相关度之前,在最新输入了预设数量的用户语音数据时,将最新输入的所述用户语音数据加入用户语音数据集中,得到所述最新的用户语音数据集。
[0136]
需要理解的是,出于描述简洁的考量,部分实施例一中描述过的内容在本实施例中不再赘述。
[0137]
实施例四:
[0138]
本实施例提供了一种电子设备,参见图4所示,其包括处理器401和存储器402。其中:
[0139]
处理器401用于执行存储器402中存储的一个或多个程序,以实现上述实施例一和/或实施例二中的语音识别方法。
[0140]
可以理解,图4所示的结构仅为示意,电子设备还可包括比图4中所示更多或者更少的组件,或者具有与图4所示不同的配置。
[0141]
例如,电子设备还可以具有通信总线,以通过通信总线实现处理器401和存储器402之间的通信连接。或者,电子设备还可以具有外部通信接口,例如usb接口、无线通信模组、网口等,以实现信息的接收与发送。此外,电子设备还可以具有显示屏等信息展示组件,以进行信息的显示。此外,电子设备还可以具有键盘等信息输入组件,以进行信息的输入。
[0142]
可选的,该电子设备可以是诸如电脑、平板、服务器、网关等具有数据处理能力的设备,但不作为限制。
[0143]
本实施例还提供了一种计算机可读存储介质,如软盘、光盘、硬盘、闪存、u盘、sd(secure digital memory card,安全数码卡)卡、mmc(multimedia card,多媒体卡)卡等,在该计算机可读存储介质中存储有实现上述各个步骤的一个或者多个程序,这一个或者多个程序可被一个或者多个处理器执行,以实现上述实施例一和/或实施例二中的语音识别方法。在此不再赘述。
[0144]
在本技术所提供的实施例中,应该理解到,所揭露装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的。
[0145]
另外,在本技术各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
[0146]
在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。
[0147]
在本文中,多个是指两个或两个以上。
[0148]
以上所述仅为本技术的实施例而已,并不用于限制本技术的保护范围,对于本领域的技术人员来说,本技术可以有各种更改和变化。凡在本技术的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本技术的保护范围之内。

技术特征:


1.一种语音识别方法,其特征在于,包括:确定不同训练集与最新的用户语音数据集之间的相关度;根据相关度最高的t个训练集训练出的第一语言模型,得到目标语言模型;所述t为大于等于1的正整数;根据所述目标语言模型对最新输入的用户语音数据进行识别,得到识别结果。2.如权利要求1所述的语音识别方法,其特征在于,确定不同训练集与最新的用户语音数据集之间的相关度,包括:获取所述最新的用户语音数据集训练出的第二语言模型,以及所述不同训练集训练出的多个第三语言模型;所述第二语言模型与所述第三语言模型为相同类型的语言模型;根据所述第二语言模型和各所述第三语言模型确定所述不同训练集与所述最新的用户语音数据集之间的相关度。3.如权利要求2所述的语音识别方法,其特征在于,根据所述第二语言模型和各所述第三语言模型确定所述不同训练集与所述最新的用户语音数据集之间的相关度,包括:对所述第二语言模型进行查询扩展,得到扩展第二语言模型;确定所述扩展第二语言模型分别与所述不同训练集的所述第三语言模型之间的相关度;所述扩展第二语言模型与各所述第三语言模型之间的相关度为所述最新的用户语音数据集与各所述第三语言模型对应的训练集之间的相关度。4.如权利要求3所述的语音识别方法,其特征在于,对所述第二语言模型进行查询扩展,得到扩展第二语言模型,包括:根据背景模型θ
bg
和倒时序模型θ
tr
,确定出初始的扩展第二语言模型θ
sg
;其中:所述θ
bg
为根据所述不同训练集训练得到的概率模型,所述θ
bg
中各词语的概率值与各所述词语的重要性相关;所述θ
tr
为根据所述最新的用户语音数据集训练得到的概率模型,所述θ
tr
中各词语的概率值与各所述词语的先后顺序相关;根据所述θ
bg
、所述θ
tr
和所述θ
sg
确定预设的核函数的值;在确定预设的结束条件满足时,得到最终的所述扩展第二语言模型θ
sg
。5.如权利要求4所述的语音识别方法,其特征在于,根据所述θ
bg
和所述θ
tr
确定出所述θ
sg
的过程包括:按照下述公式确定出所述θ
sg
::::其中:p(w|θ
bg
)表征θ
bg
中的第w个词语的概率值,c
train
(w)表征θ
bg
中的第w个词语在所述不同
训练集中出现的总次数,v表征θ
bg
中的词语总数,c
train
(w

)表征θ
bg
中的第w

个词语在所述不同训练集中出现的总次数;p(w|θ
tr
)表征θ
tr
中的第w个词语的概率值,表征θ
tr
中的第w个词语在所述最新的用户语音数据集中出现的总次数,u
x
表征θ
tr
中的词语总数,表征θ
tr
中的第w

个词语在所述最新的用户语音数据集中出现的总次数,l表征所述最新的用户语音数据集中的词语总数;p(w|θ
sg
)表征θ
sg
中的第w个词语的概率值,e(w)表征p(w|θ
sg
)的期望估计,e(w

)表征p(w


sg
)的期望估计,p(w


sg
)表征θ
sg
中的第w

个词语的概率值,m(w)表征p(w|θ
sg
)的极大似然估计,c
q
(w)表征θ
sg
中的第w个词语在所述最新的用户语音数据集中出现的总次数,c
q
(w

)表征θ
sg
中的第w

个词语在所述最新的用户语音数据集中出现的总次数,λ
m
为θ
m
的权重值。6.如权利要求5所述的语音识别方法,其特征在于,所述核函数为:其中,f(θ)为所述核函数的值。7.如权利要求2所述的语音识别方法,其特征在于,所述第二语言模型与所述第三语言模型为一元语言模型,所述第一语言模型为n元语言模型。8.如权利要求2所述的语音识别方法,其特征在于,所述第一语言模型为n元语言模型;所述第三语言模型与所述第一语言模型为相同语言模型。9.如权利要求1所述的语音识别方法,其特征在于,所述t为大于等于2的正整数;根据相关度最高的t个训练集训练出的第一语言模型,得到目标语言模型,包括:根据最高的t个相关度,确定相关度最高的t个训练集训练出的所述第一语言模型的权重;根据所述权重结合各所述第一语言模型,得到所述目标语言模型。10.如权利要求1-9任一项所述的语音识别方法,其特征在于,在确定不同训练集与最新的用户语音数据集之间的相关度之前,所述方法还包括:在最新输入了预设数量的用户语音数据时,将最新输入的所述用户语音数据加入用户语音数据集中,得到所述最新的用户语音数据集。

技术总结


本申请提供一种语音识别方法,包括:确定不同训练集与最新的用户语音数据集之间的相关度;根据相关度最高的T个训练集训练出的第一语言模型,得到目标语言模型;所述T为大于等于1的正整数;根据所述目标语言模型对最新输入的用户语音数据进行识别,得到识别结果。本申请得到的目标语言模型与最新输入的用户语音数据集之间高度相关,使得目标语言模型与用户实际所在的场景具有较高的匹配度,进而使用目标语言模型对最新输入的用户语音数据进行识别,就可以使得最终得到的识别结果更为准确。确。确。


技术研发人员:

简仁贤 许曜麒 林长洲

受保护的技术使用者:

竹间智能科技(上海)有限公司

技术研发日:

2022.11.23

技术公布日:

2023/3/27

本文发布于:2024-09-24 16:26:54,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/4/81968.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:模型   语言   所述   语音
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议