一种语音文本分类模型的更新系统及方法与流程



1.本技术涉及自然语言处理技术领域,特别是涉及一种语音文本分类模型的更新系统及方法。


背景技术:



2.随着神经网络技术以及计算机算力的提高,使得人工智能产业得到长足的发展,可通过部署分类模型来完成语音文本的分类,现已应用到各个领域,例如,车机交互、智能客服、信息分推等等。为确保分类模型的性能可靠,在上线之后,需要不断更新才能满足场景需求,在此过程,需要开发人员、运营人员、测试人员根据测试结果进行反馈,并根据反馈结果进行模型更新,进而造成模型更新的滞后,不仅难以覆盖真实的场景需求以及确保及时性,而且测试结果的主观性较大,难以保证准确性。


技术实现要素:



3.基于此,提供一种语音文本分类模型的更新系统及方法,改善模型更新滞后的问题。
4.一方面,提供一种语音文本分类模型的更新系统,包括:
5.模型装置,包括:词汇分类模块句式分类模块以及语句分类模块;
6.词汇分类模块,所述词汇分类模块包括用于分类的词典,通过所述词典对待处理的语音文本信息进行分类处理,获得第一分类结果和第一输出结果,所述词汇分类模块的第一输出端用于输出所述第一分类结果,所述词汇分类模块的第二输出端用于输出所述第一输出结果;
7.句式分类模块,所述句式分类模块包括用于计算向量相似度的向量空间单元,所述向量空间单元对所述第一输出结果进行分类处理,获得第二分类结果和第二输出结果,所述句式分类模块的第一输出端用于输出所述第二分类结果,所述句式分类模块的第二输出端用于输出所述第二输出结果;
8.语句分类模块,所述语句分类模块包括用于语句分类的神经网络单元,所述神经网络单元对所述第二输出结果进行分类处理,获得第三分类结果并由所述语句分类模块的输出端输出;
9.日志装置,用于对用户语音进行语义识别,获得日志数据,并将与分类结果不一致的所述日志数据确定为筛选数据,其中,所述分类结果包括第一分类结果、第二分类结果和第三分类结果;
10.数据装置,当所述筛选数据大于或者等于数据量阈值时,所述数据装置将所述筛选数据中的实体名称进行替换和标注,所述数据装置获得训练数据,且所述数据装置根据训练数据的长度以及实体名称的数量,对所述训练数据进行聚类,获得用于更新词汇分类模块的第一数据并通过所述数据装置的第一输出端输出、用于更新句式分类模块的第二数据并通过所述数据装置的第二输出端输出、用于更新语句分类模块的第三数据并通过所述
数据装置的第三输出端输出。
11.可选的,所述句式分类模块还包括数据库接口,所述数据库接口用于获取远程字典服务,所述远程字典服务用于确定所述第二分类结果是否大于等于相似度阈值,若所述第二分类结果大于等于所述相似度阈值,则通过所述句式分类模块的第一输出端进行输出所述第二分类结果,若所述第二分类结果小于所述相似度阈值,则所述句式分类模块的第二输出端进行输出所述第二输出结果。
12.可选的,所述语句分类模块还包括预处理单元,所述预处理单元用于对所述第二输出结果进行向量化;
13.所述神经网络单元包括输入层、全连接层和输出层;
14.其中,所述预处理单元的输入端与所述句式分类模块的第二输出端连接,所述预处理单元的输出端与所述输入层连接。
15.本发明提供一种语音文本分类模型的更新方法,更新所述的模型装置,所述方法包括:
16.对所述用户语音进行语义识别,获得日志数据,并将与所述分类结果不一致的所述日志数据确定为筛选数据,其中,所述分类结果包括第一分类结果、第二分类结果和第三分类结果;
17.当所述筛选数据大于或者等于数据量阈值时,将所述筛选数据中的实体名称进行替换和标注,获得训练数据,且根据训练数据的长度以及实体名称的数量,对所述训练数据进行聚类,获得用于更新词汇分类模块的第一数据、用于更新句式分类模块的第二数据和用于更新语句分类模块的第三数据;
18.根据所述第一数据更新所述词典,获得更新后的词汇分类模块;
19.根据所述第二数据更新所述向量空间单元,获得更新后的句式分类模块;
20.将所述第三数据进行向量化以及标注,获得语句向量及对应的语句标签;
21.将所述语句向量以及对应的所述语句标签输入到初始的神经网络单元中进行分类处理,获得样本结果;
22.根据所述样本结果和所述语句标签的匹配度,迭代训练所述初始的神经网络单元,获得训练好的神经网络单元;
23.将训练好的神经网络单元配置到所述语句分类模块中,获得更新后的语句分类模块。
24.可选的,根据所述第二数据更新所述向量空间单元,包括:
25.根据所述第二数据更新所述向量空间单元,将更新后的所述向量空间单元通过数据库接口进行传输,以使远程字典服务进行存储。
26.可选的,根据训练数据的长度以及实体名称的数量,对所述训练数据进行聚类,获得用于更新词汇分类模块的第一数据、用于更新句式分类模块的第二数据和用于更新语句分类模块的第三数据,包括:
27.获取数据长度小于或者等于长度阈值的训练数据,确定为所述第一数据;
28.获取所述数据长度大于所述长度阈值,且所述实体名称的数量大于或者等于数量阈值的训练数据,确定为所述第二数据;
29.获取所述数据长度大于所述长度阈值,且所述实体名称的数量小于所述数量阈值
的训练数据,确定为所述第三数据。
30.可选的,根据所述样本结果和所述语句标签的匹配度,迭代训练所述初始的神经网络单元,获得训练好的神经网络单元,包括:
31.基于交叉熵损失函数来训练所述初始的神经网络单元,减少所述样本结果与所述语句标签之间的损失,以增加所述样本结果和所述语句标签的匹配度;
32.迭代训练所述神经网络单元,并更新所述神经网络单元中神经元节点的权重参数,获得训练好的神经网络单元。
33.可选的,还包括:
34.将更新后的词汇分类模块的输入端与文本模块连接,所述词汇分类模块的第一输出端用于输出第一分类结果,所述词汇分类模块的第二输出端用于输出第一输出结果,其中,所述文本模块用于采样用户语音并转化为语音文本信息;
35.将更新后的句式分类模块的输入端与所述词汇分类模块的第二输出端连接,所述句式分类模块的第一输出端用于输出第二分类结果,所述句式分类模块的第二输出端用于输出第二输出结果;
36.将更新后的语句分类模块输入端与所述句式分类模块的第二输出端连接,所述语句分类模块的输出端用于输出第三分类结果。
37.本发明提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现任一项所述方法的步骤。
38.本发明提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现任一项所述的方法的步骤。
39.上述语音文本分类模型的更新系统及方法,通过日志模块获取与分类结果不一致的日志数据作为筛选数据,通过对筛选数据中的实体名称进行替换和标注得到训练数据,并基于训练数据的长度以及实体名称的数量进行聚类,分别获得更新不同模型的第一数据、第二数据以及第三数据,对模型装置中的词汇分类模块、句式分类模块以及语句分类模块进行更新,改善模型更新滞后的问题。
附图说明
40.图1为一个实施例中语音文本分类模型的更新方法的应用环境图;
41.图2为一个实施例中语音文本分类模型的更新系统的结构示意图;
42.图3为一个实施例中语音文本分类模型的更新方法步骤的流程示意图;
43.图4为一个实施例中计算机设备的内部结构图。
具体实施方式
44.为了使本技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本技术进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本技术,并不用于限定本技术。
45.本技术提供的语音文本分类模型的更新方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104通过网络进行通信。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器104可以用
独立的服务器或者是多个服务器组成的服务器集来实现。
46.如图2所示,提供一种语音文本分类模型的更新系统,包括:
47.模型装置,包括:词汇分类模块、句式分类模块以及语句分类模块;
48.词汇分类模块,所述词汇分类模块包括用于分类的词典,通过所述词典对待处理的语音文本信息进行分类处理,获得第一分类结果和第一输出结果,所述词汇分类模块的第一输出端用于输出所述第一分类结果,所述词汇分类模块的第二输出端用于输出所述第一输出结果。
49.示例性地说明,可通过麦克风或者话筒来采集人的语音信息,通过预处理后进行语音识别,获得承载有语音语义的语音文本信息,所述词典能够对一些语音文本信息进行分类处理,并获得第一分类结果,一些语音文本信息不能被所述词典进行分类,则获得第一输出结果。
50.句式分类模块,所述句式分类模块包括用于计算向量相似度的向量空间单元,所述向量空间单元对所述第一输出结果进行分类处理,获得第二分类结果和第二输出结果,所述句式分类模块的第一输出端用于输出所述第二分类结果,所述句式分类模块的第二输出端用于输出所述第二输出结果。
51.示例性地说明,向量空间单元能够根据存储的向量来计算第一输出结果的向量相似度,当向量相似度较大时,输出与存储的向量相对应的第二分类结果,当向量的相似度较小时,输出第二输出结果。
52.语句分类模块,所述语句分类模块包括用于语句分类的神经网络单元,所述神经网络单元对所述第二输出结果进行分类处理,获得第三分类结果并由所述语句分类模块的输出端输出。
53.示例性地说明,神经网络单元的输入对象为词典以及向量空间单元不能较好处理的语音文本信息,降低了神经网络单元输入量的离散性和处理数量,相应地,节约了训练神经网络单元的资源以及构建模型的复杂程度,能够通过词汇分类模型处理词汇等级的语音文本信息,并通过句式分类模型处理句式等级的语音文本信息,最终通过语句分类模型处理语句等级的语音文本信息。即可通过词汇分类模块模拟人脑记忆曲线中的清晰记忆层,可通过句式分类模块模拟人脑记忆曲线中的模糊记忆层,并通过语句分类模块来模拟人脑记忆曲线中的遗忘层,避免依赖机器学习或者深度学习模型来搭建复杂的神经网络,也避免训练神经网络时需要较大的算力支持和训练数据样本。
54.日志装置,用于对用户语音进行语义识别,获得日志数据,并将与分类结果不一致的所述日志数据确定为筛选数据,其中,所述分类结果包括第一分类结果、第二分类结果和第三分类结果。
55.示例性地说明,所述日志装置,可提供冗余的语音文本识别系统,提取用户语音进行语义识别,获得日志数据,该日志数据存储并记录数据,还用于对比日志数据与分类结果的差异,当与分类结果不一致的所述日志数据较多时,可响应系统更新。
56.数据装置,当所述筛选数据大于或者等于数据量阈值时,所述数据装置将所述筛选数据中的实体名称进行替换和标注,所述数据装置获得训练数据,且所述数据装置根据训练数据的长度以及实体名称的数量,对所述训练数据进行聚类,获得用于更新词汇分类模块的第一数据并通过所述数据装置的第一输出端输出、用于更新句式分类模块的第二数
据并通过所述数据装置的第二输出端输出、用于更新语句分类模块的第三数据并通过所述数据装置的第三输出端输出。
57.示例性地说明,所述数据装置用户对筛选数据中的实体名称进行替换和标注,并按照训练数据的长度以及实体名称的数量进行举例,以将第一数据、第二数据以及第三数据传输给不同的模块进行更新。
58.在一些实施例中,所述句式分类模块还包括数据库接口,所述数据库接口用于获取远程字典服务,所述远程字典服务用于确定所述第二分类结果是否大于等于相似度阈值,若所述第二分类结果大于等于所述相似度阈值,则通过所述句式分类模块的第一输出端进行输出所述第二分类结果,若所述第二分类结果小于所述相似度阈值,则所述句式分类模块的第二输出端进行输出所述第二输出结果。
59.在一些实施例中,所述语句分类模块还包括预处理单元,所述预处理单元用于对所述第二输出结果进行向量化;
60.所述神经网络单元包括输入层、全连接层和输出层;
61.其中,所述预处理单元的输入端与所述句式分类模块的第二输出端连接,所述预处理单元的输出端与所述输入层连接。
62.如图3所示,本发明提供一种语音文本分类模型的更新方法,更新所述的模型装置,所述方法包括:
63.s1:对所述用户语音进行语义识别,获得日志数据,并将与所述分类结果不一致的所述日志数据确定为筛选数据,其中,所述分类结果包括第一分类结果、第二分类结果和第三分类结果;
64.s2:当所述筛选数据大于或者等于数据量阈值时,将所述筛选数据中的实体名称进行替换和标注,获得训练数据,且根据训练数据的长度以及实体名称的数量,对所述训练数据进行聚类,获得用于更新词汇分类模块的第一数据、用于更新句式分类模块的第二数据和用于更新语句分类模块的第三数据;
65.s3:根据所述第一数据更新所述词典,获得更新后的词汇分类模块;根据所述第二数据更新所述向量空间单元,获得更新后的句式分类模块;将所述第三数据进行向量化以及标注,获得语句向量及对应的语句标签;
66.s4:将所述语句向量以及对应的所述语句标签输入到初始的神经网络单元中进行分类处理,获得样本结果;根据所述样本结果和所述语句标签的匹配度,迭代训练所述初始的神经网络单元,获得训练好的神经网络单元;将训练好的神经网络单元配置到所述语句分类模块中,获得更新后的语句分类模块。
67.通过日志模块获取与分类结果不一致的日志数据作为筛选数据,通过对筛选数据中的实体名称进行替换和标注得到训练数据,并基于训练数据的长度以及实体名称的数量进行聚类,分别获得更新不同模型的第一数据、第二数据以及第三数据,对模型装置中的词汇分类模块、句式分类模块以及语句分类模块进行更新,改善模型更新滞后的问题。
68.在一些实施例中,根据所述第二数据更新所述向量空间单元,包括:
69.根据所述第二数据更新所述向量空间单元,将更新后的所述向量空间单元通过数据库接口进行传输,以使远程字典服务进行存储。
70.在一些实施例中,根据训练数据的长度以及实体名称的数量,对所述训练数据进
行聚类,获得用于更新词汇分类模块的第一数据、用于更新句式分类模块的第二数据和用于更新语句分类模块的第三数据,包括:
71.获取数据长度小于或者等于长度阈值的训练数据,确定为所述第一数据;
72.获取所述数据长度大于所述长度阈值,且所述实体名称的数量大于或者等于数量阈值的训练数据,确定为所述第二数据;
73.获取所述数据长度大于所述长度阈值,且所述实体名称的数量小于所述数量阈值的训练数据,确定为所述第三数据。
74.在一些实施例中,根据所述样本结果和所述语句标签的匹配度,迭代训练所述初始的神经网络单元,获得训练好的神经网络单元,包括:
75.基于交叉熵损失函数来训练所述初始的神经网络单元,减少所述样本结果与所述语句标签之间的损失,以增加所述样本结果和所述语句标签的匹配度;
76.迭代训练所述神经网络单元,并更新所述神经网络单元中神经元节点的权重参数,获得训练好的神经网络单元。
77.在一些实施例中,还包括:
78.将更新后的词汇分类模块的输入端与文本模块连接,所述词汇分类模块的第一输出端用于输出第一分类结果,所述词汇分类模块的第二输出端用于输出第一输出结果,其中,所述文本模块用于采样用户语音并转化为语音文本信息;
79.将更新后的句式分类模块的输入端与所述词汇分类模块的第二输出端连接,所述句式分类模块的第一输出端用于输出第二分类结果,所述句式分类模块的第二输出端用于输出第二输出结果;
80.将更新后的语句分类模块输入端与所述句式分类模块的第二输出端连接,所述语句分类模块的输出端用于输出第三分类结果。
81.应该理解的是,虽然图3-4的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图3-4中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
82.关于语音文本分类模型的更新装置的具体限定可以参见上文中对于语音文本分类模型的更新方法的限定,在此不再赘述。上述语音文本分类模型的更新装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
83.在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图4所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算
机设备的数据库用于存储语音文本分类模型的更新数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种语音文本分类模型的更新方法。
84.本领域技术人员可以理解,图4中示出的结构,仅仅是与本技术方案相关的部分结构的框图,并不构成对本技术方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
85.本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本技术所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括随机存取存储器(ram)或者外部高速缓冲存储器。作为说明而非局限,ram以多种形式可得,诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双数据率sdram(ddrsdram)、增强型sdram(esdram)、同步链路(synch l i nk)dram(sldram)、存储器总线(rambus)直接ram(rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态ram(rdram)等。
86.以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
87.以上所述实施例仅表达了本技术的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本技术构思的前提下,还可以做出若干变形和改进,这些都属于本技术的保护范围。因此,本技术专利的保护范围应以所附权利要求为准。

技术特征:


1.一种语音文本分类模型的更新系统,其特征在于,包括:模型装置,包括:词汇分类模块、句式分类模块以及语句分类模块;词汇分类模块,所述词汇分类模块包括用于分类的词典,通过所述词典对待处理的语音文本信息进行分类处理,获得第一分类结果和第一输出结果,所述词汇分类模块的第一输出端用于输出所述第一分类结果,所述词汇分类模块的第二输出端用于输出所述第一输出结果;句式分类模块,所述句式分类模块包括用于计算向量相似度的向量空间单元,所述向量空间单元对所述第一输出结果进行分类处理,获得第二分类结果和第二输出结果,所述句式分类模块的第一输出端用于输出所述第二分类结果,所述句式分类模块的第二输出端用于输出所述第二输出结果;语句分类模块,所述语句分类模块包括用于语句分类的神经网络单元,所述神经网络单元对所述第二输出结果进行分类处理,获得第三分类结果并由所述语句分类模块的输出端输出;日志装置,用于对用户语音进行语义识别,获得日志数据,并将与分类结果不一致的所述日志数据确定为筛选数据,其中,所述分类结果包括第一分类结果、第二分类结果和第三分类结果;数据装置,当所述筛选数据大于或者等于数据量阈值时,所述数据装置将所述筛选数据中的实体名称进行替换和标注,所述数据装置获得训练数据,且所述数据装置根据训练数据的长度以及实体名称的数量,对所述训练数据进行聚类,获得用于更新词汇分类模块的第一数据并通过所述数据装置的第一输出端输出、用于更新句式分类模块的第二数据并通过所述数据装置的第二输出端输出、用于更新语句分类模块的第三数据并通过所述数据装置的第三输出端输出。2.根据权利要求1所述的语音文本分类模型的更新系统,其特征在于,所述句式分类模块还包括数据库接口,所述数据库接口用于获取远程字典服务,所述远程字典服务用于确定所述第二分类结果是否大于等于相似度阈值,若所述第二分类结果大于等于所述相似度阈值,则通过所述句式分类模块的第一输出端进行输出所述第二分类结果,若所述第二分类结果小于所述相似度阈值,则所述句式分类模块的第二输出端进行输出所述第二输出结果。3.根据权利要求1所述的语音文本分类模型的更新系统,其特征在于,所述语句分类模块还包括预处理单元,所述预处理单元用于对所述第二输出结果进行向量化;所述神经网络单元包括输入层、全连接层和输出层;其中,所述预处理单元的输入端与所述句式分类模块的第二输出端连接,所述预处理单元的输出端与所述输入层连接。4.一种语音文本分类模型的更新方法,其特征在于,更新如权利要求1至3任一项所述的模型装置,所述方法包括:对所述用户语音进行语义识别,获得日志数据,并将与所述分类结果不一致的所述日志数据确定为筛选数据,其中,所述分类结果包括第一分类结果、第二分类结果和第三分类结果;当所述筛选数据大于或者等于数据量阈值时,将所述筛选数据中的实体名称进行替换
和标注,获得训练数据,且根据训练数据的长度以及实体名称的数量,对所述训练数据进行聚类,获得用于更新词汇分类模块的第一数据、用于更新句式分类模块的第二数据和用于更新语句分类模块的第三数据;根据所述第一数据更新所述词典,获得更新后的词汇分类模块;根据所述第二数据更新所述向量空间单元,获得更新后的句式分类模块;将所述第三数据进行向量化以及标注,获得语句向量及对应的语句标签;将所述语句向量以及对应的所述语句标签输入到初始的神经网络单元中进行分类处理,获得样本结果;根据所述样本结果和所述语句标签的匹配度,迭代训练所述初始的神经网络单元,获得训练好的神经网络单元;将训练好的神经网络单元配置到所述语句分类模块中,获得更新后的语句分类模块。5.根据权利要求4所述的语音文本分类模型的更新方法,其特征在于,根据所述第二数据更新所述向量空间单元,包括:根据所述第二数据更新所述向量空间单元,将更新后的所述向量空间单元通过数据库接口进行传输,以使远程字典服务进行存储。6.根据权利要求4所述的语音文本分类模型的更新方法,其特征在于,根据训练数据的长度以及实体名称的数量,对所述训练数据进行聚类,获得用于更新词汇分类模块的第一数据、用于更新句式分类模块的第二数据和用于更新语句分类模块的第三数据,包括:获取数据长度小于或者等于长度阈值的训练数据,确定为所述第一数据;获取所述数据长度大于所述长度阈值,且所述实体名称的数量大于或者等于数量阈值的训练数据,确定为所述第二数据;获取所述数据长度大于所述长度阈值,且所述实体名称的数量小于所述数量阈值的训练数据,确定为所述第三数据。7.根据权利要求4所述的语音文本分类模型的更新方法,其特征在于,根据所述样本结果和所述语句标签的匹配度,迭代训练所述初始的神经网络单元,获得训练好的神经网络单元,包括:基于交叉熵损失函数来训练所述初始的神经网络单元,减少所述样本结果与所述语句标签之间的损失,以增加所述样本结果和所述语句标签的匹配度;迭代训练所述神经网络单元,并更新所述神经网络单元中神经元节点的权重参数,获得训练好的神经网络单元。8.根据权利要求4所述的语音文本分类模型的更新方法,其特征在于,还包括:将更新后的词汇分类模块的输入端与文本模块连接,所述词汇分类模块的第一输出端用于输出第一分类结果,所述词汇分类模块的第二输出端用于输出第一输出结果,其中,所述文本模块用于采样用户语音并转化为语音文本信息;将更新后的句式分类模块的输入端与所述词汇分类模块的第二输出端连接,所述句式分类模块的第一输出端用于输出第二分类结果,所述句式分类模块的第二输出端用于输出第二输出结果;将更新后的语句分类模块输入端与所述句式分类模块的第二输出端连接,所述语句分类模块的输出端用于输出第三分类结果。
9.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求4至8中任一项所述方法的步骤。10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求4至8中任一项所述的方法的步骤。

技术总结


本申请涉及一种语音文本分类模型的更新系统及方法,所述语音文本分类模型的更新系统包括:模型装置、日志装置和数据装置。日志装置,用于对用户语音进行语义识别,获得日志数据,并将与分类结果不一致的所述日志数据确定为筛选数据;数据装置,当所述筛选数据大于或者等于数据量阈值时,所述数据装置将所述筛选数据中的实体名称进行替换和标注,所述数据装置获得训练数据,且所述数据装置根据训练数据的长度以及实体名称的数量,对所述训练数据进行聚类,获得用于更新词汇分类模块的第一数据、用于更新句式分类模块的第二数据、用于更新语句分类模块的第三数据。新语句分类模块的第三数据。新语句分类模块的第三数据。


技术研发人员:

叶松林 代秀琼 张正源

受保护的技术使用者:

成都赛力斯科技有限公司

技术研发日:

2022.10.31

技术公布日:

2023/2/27

本文发布于:2024-09-24 09:22:35,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/4/65113.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:所述   数据   模块   句式
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议