基于情绪识别的文字标点自动添加方法、装置及存储介质与流程



1.本发明涉及人工智能领域,涉及语义情绪识别技术,尤其涉及一种基于情绪识别的文字标点自动添加方法、装置、电子设备及计算机可读存储介质。


背景技术:



2.随着社会的不断进步和发展,社交软件的出现大大的丰富的我们的生活,发语音成为很重要的沟通方式,但是在某些场景下,不方便听语音,或者文字输入不便,于是便出现了语音和文字的转换。
3.众所周知,说话的语气往往受到主观心情和主观意念的影响,导致了句子标点符号有一定的灵活性,不同的标点能表达不同的情绪,更甚者不同的标点可以表达不同的意思,目前的语音转换成文字的过程中,文字中的标点符号不能根据音频中的情绪正确添加,需要手动修改或手动添加,给我们生活某些场景带来了不便。
4.因此,亟需一种通过网络模型提高标点添加精度的基于情绪识别的文字标点自动添加方法。


技术实现要素:



5.本发明提供一种基于情绪识别的文字标点自动添加方法,以解决标点添加不准确的问题。
6.为实现上述目的,本发明提供的一种基于情绪识别的文字标点自动添加方法,包括:
7.将实时获取的用户的语音输入预训练的语言分析模型以确定所述语音的语速、语调和语义;
8.根据预设的对比规则将所述语音的语速、语调和语义与预设的基础模型中的样本相类比获取类比结果;
9.若所述类比结果表示所述基础模型中存在与所述语音的语速、语调和语义相匹配的样本,则提取与所述语音的语速、语调和语义相匹配的样本的标点添加准则;
10.按照所述标点添加准则为所述语音添加文字标点。
11.可选地,还包括:
12.若所述类比结果表示所述基础模型中不存在与所述语速、语调和语义相匹配的样本,则在预设的临时数据库中按照所述语速和语义的对应关系对所述语音进行断句处理形成语句段,并按照所述语调在所述语句段的末尾添加文字标点;并且,
13.将所述文字标点、所述语句段、所述语速、所述语义、所述语调之间的映射关系转换为文字形式的标点添加准则,并将所述标点添加准则添加至所述基础数据库中。
14.可选地,预训练所述语音分析模型,包括:
15.预采集情绪样本和与所述情绪样本相对应的样本标签;其中,所述样本标签包括样本语速、样本语调和样本语义;
16.构建第一识别算法模型、第二识别算法模型和第三识别算法模型,并将所述第一识别算法模型、所述第二识别算法模型和所述第三识别算法模型相连接以形成待定语音分析模型;其中,所述第一识别算法模型用于对所输入的语音进行预处理以形成标准语音;所述第二识别算法模型用于对所述标准语音进行频谱转换以形成频谱;所述第三识别算法模型用于对所述频谱进行数据分析以获取所输入的语音的语速、语调和语义;
17.将所输入的语音的语速、语调、语义与所述样本语速、样本语调、样本语义进行比对计算以获取损失函数,并根据所述损失函数的数值对所述待定语音分析模型进行持续反复训练,直至所述待定语音分析模型的损失函数低于预设的损失阈值,将最后一次训练的待定语音分析模型作为语音分析模型。
18.可选地,所述将实时获取的用户的语音输入预训练的语言分析模型以确定所述语音的语速、语调和语义,包括:
19.通过被用户授权的麦克风录入用户的音频作为语音;
20.将所述语音作为目标语音输入所述语言分析模型中,以使所述语言分析模型中的第一识别算法模型对所述目标语音进行预处理以形成目标标准语音,使所述语言分析模型中的第二识别算法模型对所述目标标准语音进行频谱转换以形成目标频谱,使所述语言分析模型中的第三识别算法根据预设的分析规则对所述目标频谱进行数据分析以形成关于所述目标语音的语速、语调和语义。
21.可选地,所述预处理包括音频合规检测处理和音频切割处理;
22.所述频谱转换包括音频降噪处理、特征提取处理和频谱生成处理。
23.可选地,在所述根据预设的对比规则将所述语音的语速、语调和语义与预设的基础模型中的样本相类比获取类比结果之前,还包括预创建基础模型;其中,所述预创建基础模型,包括:
24.根据情绪样本的语速和语调对所述情绪样本的进行情绪判断,根据所判断的情绪为语句添加标点;
25.建立所添加的标点-情绪-语速-语调的映射关系,根据所述映射关系创建基于语速、语调、语义的标点添加准则以形成执行所述标点添加准则的标点添加插件;
26.将所述情绪样本、所述标点-情绪-语速-语调的映射关系存储在数据库中,并建立所述数据库与所述所述标点添加插件的连接关系以形成基础模型。
27.可选地,所述标点添加准则为:
28.根据语速和语调判断情绪;
29.根据情绪和语义对所述语句进行短句处理,并对情绪平缓的短句添加逗号,对情绪激动的断句末尾添加感叹号或问好,并根据语义和情绪在句末添加句号、感叹号或问号。
30.为了解决上述问题,本发明还提供一种基于情绪识别的文字标点自动添加装置,所述装置包括:
31.语言分析单元,用于将实时获取的用户的语音输入预训练的语言分析模型以确定所述语音的语速、语调和语义;
32.样本类比单元,用于根据预设的对比规则将所述语音的语速、语调和语义与预设的基础模型中的样本相类比获取类比结果;
33.匹配判断单元,用于若所述类比结果表示所述基础模型中存在与所述语音的语
速、语调和语义相匹配的样本,则提取与所述语音的语速、语调和语义相匹配的样本的标点添加准则;
34.标点添加单元,用于按照所述标点添加准则为所述语音添加文字标点。
35.为了解决上述问题,本发明还提供一种电子设备,所述电子设备包括:
36.存储器,存储至少一个指令;及
37.处理器,执行所述存储器中存储的指令以实现上述所述的基于情绪识别的文字标点自动添加方法中的步骤。
38.为了解决上述问题,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一个指令,所述至少一个指令被电子设备中的处理器执行以实现上述所述的基于情绪识别的文字标点自动添加方法。
39.本发明实施例首先实时获取用户的语音,将用户的语音输入预训练的语言分析模型以确定语音的语速、语调和语义,再根据预设的对比规则将语音的语速、语调和语义与预设的基础模型中的样本相类比获取类比结果;若类比结果表示基础模型中存在与所述语音的语速、语调和语义相匹配的样本,则提取与语音的语速、语调和语义相匹配的样本的标点添加准则,而后按照标点添加准则为所述语音添加文字标点,如此,根据音频中不同的情绪准确分析添加何种标点,与传统的语音文字的转换相比,能够提升用户使用体验,更准确的表达音频中的想要表达的意思,提高语音翻译文字的整体精准度。
附图说明
40.图1为本发明一实施例提供的基于情绪识别的文字标点自动添加方法的流程示意图;
41.图2为本发明一实施例提供的基于情绪识别的文字标点自动添加装置的模块示意图;
42.图3为本发明一实施例提供的基于情绪识别的文字标点自动添加方法的电子设备的内部结构示意图;
43.本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
44.应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
45.随着社会的不断进步和发展,社交软件的出现大大的丰富的我们的生活,发语音成为很重要的沟通方式,但是在某些场景下,不方便听语音,或者文字输入不便,于是便出现了语音和文字的转换。
46.众所周知,说话的语气往往受到主观心情和主观意念的影响,导致了句子标点符号有一定的灵活性,不同的标点能表达不同的情绪,更甚者不同的标点可以表达不同的意思,目前的语音转换成文字的过程中,文字中的标点符号不能根据音频中的情绪正确添加,需要手动修改或手动添加,给我们生活某些场景带来了不便。
47.为解决上述问题,本发明实施例提供一种基于情绪识别的文字标点自动添加方法。
48.在本实施例中,执行主体为整个服务器集的基于情绪识别的文字标点自动添加
系统,该基于情绪识别的文字标点自动添加系统集成在服务器集中,即服务器集下的基于情绪识别的文字标点自动添加系统的不同模块分别进行不同的操作步骤,其中,该服务器集的架构包括多个服务器,在每个服务器下运行有多个集实例,在每个集实例下存储有多个定时任务,如此,通过下述步骤实现该定时任务的有序执行。
49.需要说明的是,本技术实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(artificial intelligence,ai)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
50.如图1所示,在本实施例中,基于情绪识别的文字标点自动添加方法,包括:
51.s1:将实时获取的用户的语音输入预训练的语言分析模型以确定所述语音的语速、语调和语义;
52.s2:根据预设的对比规则将所述语音的语速、语调和语义与预设的基础模型中的样本相类比获取类比结果;
53.s3:若所述类比结果表示所述基础模型中存在与所述语音的语速、语调和语义相匹配的样本,则提取与所述语音的语速、语调和语义相匹配的样本的标点添加准则;
54.s4:按照所述标点添加准则为所述语音添加文字标点。
55.在图1所示的实施例中,步骤s1为实时获取用户的语音,再将所述用户的语音输入预训练的语言分析模型以确定所述语音的语速、语调和语义的过程,在该过程中,
56.预训练所述语音分析模型,包括:
57.预采集情绪样本和预所述情绪样本相对应的样本标签;其中,所述样本标签包括样本语速、样本语调和样本语义;
58.构建第一识别算法模型、第二识别算法模型和第三识别算法模型,并将所述第一识别算法模型、所述第二识别算法模型和所述第三识别算法模型相连接以形成待定语音分析模型;其中,所述第一识别算法模型用于对所输入的语音进行预处理以形成标准语音;所述第二识别算法模型用于对所述标准语音进行频谱转换以形成频谱;所述第三识别算法模型用于对所述频谱进行数据分析以获取所输入的语音的语速、语调和语义;
59.将所输入的语音的语速、语调、语义与所述样本语速、样本语调、样本语义进行比对计算以获取损失函数,并根据所述损失函数的数值对所述待定语音分析模型进行持续反复训练,直至所述待定语音分析模型的损失函数低于预设的损失阈值,将最后一次训练的待定语音分析模型作为语音分析模型。
60.其中,实时获取用户的语音,将所述用户的语音输入预训练的语言分析模型以确定所述语音的语速、语调和语义,包括:
61.s11:通过被用户授权的麦克风录入用户的音频作为语音;
62.s12:将所述语音作为目标语音输入所述语言分析模型中,以使所述语言分析模型中的第一识别算法模型对所述目标语音进行预处理以形成目标标准语音,使所述语言分析模型中的第二识别算法模型对所述目标标准语音进行频谱转换以形成目标频谱,使所述语言分析模型中的第三识别算法根据预设的分析规则对所述目标频谱进行数据分析以形成关于所述目标语音的语速、语调和语义。
63.在本实施例中,所述预处理包括音频合规检测处理和音频切割处理;
64.所述频谱转换包括音频降噪处理、特征提取处理和频谱生成处理。
65.在获取用户的语音的过程中,在一个具体实施例中,在使用语音转换成文字的时,询问用户是否打开麦克风,在得到用户授权后,录入用户的音频作为语音。
66.在图1所示的实施例中,步骤s2为根据预设的对比规则将所述语音的语速、语调和语义与预设的基础模型中的样本相类比获取类比结果的过程;其中,
67.在所述根据预设的对比规则将所述语音的语速、语调和语义与预设的基础模型中的样本相类比获取类比结果之前,还包括预创建基础模型;其中,所述预创建基础模型,包括:
68.根据情绪样本的语速和语调对所述情绪样本的进行情绪判断,根据所判断的情绪为语句添加标点;
69.建立所添加的标点-情绪-语速-语调的映射关系,根据所述映射关系创建基于语速、语调、语义的标点添加准则以形成执行所述标点添加准则的标点添加插件;
70.将所述情绪样本、所述标点-情绪-语速-语调的映射关系存储在数据库中,并建立所述数据库与所述所述标点添加插件的连接关系以形成基础模型。
71.在图1所示的实施例中,步骤s3为若所述类比结果表示所述基础模型中存在与所述语音的语速、语调和语义相匹配的样本,则提取与所述语音的语速、语调和语义相匹配的样本的标点添加准则的过程;在该过程中,
72.提取与该语音的语速、语调和语义相匹配的样本的标点添加准则,即在该基础数据库(基础模型)中已经存在诸如该语音一般的语速、语调和语义,并且在该基础模型中已经存在与该语音的语速、语调和语义相对应的标点添加规则,故直接调用该标点添加准则即可。
73.当然还存在基础模型中未包含相似的语速、语调和语义的情况,此时,本发明实施例还包括:
74.若所述类比结果表示所述基础模型中不存在与所述语速、语调和语义相匹配的样本,则在预设的临时数据库中按照所述语速、和语义的对应关系对所述语音进行断句处理形成语句段,并按照所述语调在所述语句段末尾添加文字标点;并且,
75.将所述文字标点、所述语句段、所述语速、所述语义、所述语调之间的映射关系转换为文字形式的标点添加准则,并将所述标点添加准则添加至所述基础数据库中。
76.即如果在基础模型中并未包括与该语句相一般的语速、语调和语义,则通过预设定得分临时数据库和预添加的添加插件进行直接的情绪判断,并根据该情绪直接添加标点。
77.简言之,可以在基础模型中分析已经处理预过的音频,对于剧中明显的停顿的地方进行断句句处理,以逗号隔开,句末使用句号结束。分析语调和语义,替换对应短句的标点。分析结果如果在基础库中存在,则直接输出标点,若不存在则先在临时库中处理,待处理结束,将新识别的情绪添加到基础库中。
78.换句话说,所建立的基础模型为基础的情绪模型库,存储基本的情绪和所有标点符号的用法以及对应关系,临时数据库用于存储,基础库之外的情绪,用于临时处理新情绪和标点的关系。
79.在图1所示的实施例中,步骤s4为按照所述标点添加准则为所述语音添加文字标
点的过程,在该过程中,标点添加准则为:
80.根据语速和语调判断情绪;
81.根据情绪和语义对所述语句进行短句处理,并对情绪平缓的短句添加逗号,对情绪激动的断句末尾添加感叹号或问好,并根据语义和情绪在句末添加句号、感叹号或问号。
82.对于引号、破折号等其他标点符号在此不作限制,可由前端及后端人员调整添加的规则,或者调整训练模型的样本,在此不做赘述。
83.在本实施例中,服务器可以是独立的服务器,也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(content delivery network,cdn)、以及大数据和人工智能平台等基础云计算服务的云服务器。
84.如上所述,本发明实施例提供的基于情绪识别的文字标点自动添加方法,首先实时获取用户的语音,将用户的语音输入预训练的语言分析模型以确定语音的语速、语调和语义,再根据预设的对比规则将语音的语速、语调和语义与预设的基础模型中的样本相类比获取类比结果;若类比结果表示基础模型中存在与所述语音的语速、语调和语义相匹配的样本,则提取与语音的语速、语调和语义相匹配的样本的标点添加准则,而后按照标点添加准则为所述语音添加文字标点,如此,根据音频中不同的情绪准确分析添加何种标点,与传统的语音文字的转换相比,能够提升用户使用体验,更准确的表达音频中的想要表达的意思,提高语音翻译文字的整体精准度。
85.如图2所示,本发明提供一种基于情绪识别的文字标点自动添加装置100,本发明可以安装于电子设备中。根据实现的功能,该基于情绪识别的文字标点自动添加装置100可以包括语言分析单元101、样本类比单元102、匹配判断单元103、标点添加单元104。本发明所述模块也可以称之为单元,是指一种能够被电子设备处理器所执行,并且能够完成固定功能的一系列计算机程序段,其存储在电子设备的存储器中。
86.在本实施例中,关于各模块/单元的功能如下:
87.语言分析单元101,用于将实时获取的用户的语音输入预训练的语言分析模型以确定所述语音的语速、语调和语义;
88.样本类比单元102,用于根据预设的对比规则将所述语音的语速、语调和语义与预设的基础模型中的样本相类比获取类比结果;
89.匹配判断单元103,用于若所述类比结果表示所述基础模型中存在与所述语音的语速、语调和语义相匹配的样本,则提取与所述语音的语速、语调和语义相匹配的样本的标点添加准则;
90.标点添加单元104,用于按照所述标点添加准则为所述语音添加文字标点。
91.具体的,语言分析单元101在实时获取用户的语音,将所述用户的语音输入预训练的语言分析模型以确定所述语音的语速、语调和语义的过程中,预训练所述语音分析模型,包括:
92.预采集情绪样本和预所述情绪样本相对应的样本标签;其中,所述样本标签包括样本语速、样本语调和样本语义;
93.构建第一识别算法模型、第二识别算法模型和第三识别算法模型,并将所述第一识别算法模型、所述第二识别算法模型和所述第三识别算法模型相连接以形成待定语音分
析模型;其中,所述第一识别算法模型用于对所输入的语音进行预处理以形成标准语音;所述第二识别算法模型用于对所述标准语音进行频谱转换以形成频谱;所述第三识别算法模型用于对所述频谱进行数据分析以获取所输入的语音的语速、语调和语义;
94.将所输入的语音的语速、语调、语义与所述样本语速、样本语调、样本语义进行比对计算以获取损失函数,并根据所述损失函数的数值对所述待定语音分析模型进行持续反复训练,直至所述待定语音分析模型的损失函数低于预设的损失阈值,将最后一次训练的待定语音分析模型作为语音分析模型。
95.其中,实时获取用户的语音,将所述用户的语音输入预训练的语言分析模型以确定所述语音的语速、语调和语义,包括:
96.s11:通过被用户授权的麦克风录入用户的音频作为语音;
97.s12:将所述语音作为目标语音输入所述语言分析模型中,以使所述语言分析模型中的第一识别算法模型对所述目标语音进行预处理以形成目标标准语音,使所述语言分析模型中的第二识别算法模型对所述目标标准语音进行频谱转换以形成目标频谱,使所述语言分析模型中的第三识别算法根据预设的分析规则对所述目标频谱进行数据分析以形成关于所述目标语音的语速、语调和语义。
98.样本类比单元102在根据预设的对比规则将所述语音的语速、语调和语义与预设的基础模型中的样本相类比获取类比结果的过程中,在所述根据预设的对比规则将所述语音的语速、语调和语义与预设的基础模型中的样本相类比获取类比结果之前,还包括预创建基础模型;其中,所述预创建基础模型,包括:
99.根据情绪样本的语速和语调对所述情绪样本的进行情绪判断,根据所判断的情绪为语句添加标点;
100.建立所添加的标点-情绪-语速-语调的映射关系,根据所述映射关系创建基于语速、语调、语义的标点添加准则以形成执行所述标点添加准则的标点添加插件;
101.将所述情绪样本、所述标点-情绪-语速-语调的映射关系存储在数据库中,并建立所述数据库与所述所述标点添加插件的连接关系以形成基础模型。
102.在若所述类比结果表示所述基础模型中存在与所述语音的语速、语调和语义相匹配的样本,则匹配判断单元103提取与所述语音的语速、语调和语义相匹配的样本的标点添加准则的过程中,该匹配判断单元103还用于:
103.若所述类比结果表示所述基础模型中不存在与所述语速、语调和语义相匹配的样本,则在预设的临时数据库中按照所述语速、和语义的对应关系对所述语音进行断句处理形成语句段,并按照所述语调在所述语句段末尾添加文字标点;并且,
104.将所述文字标点、所述语句段、所述语速、所述语义、所述语调之间的映射关系转换为文字形式的标点添加准则,并将所述标点添加准则添加至所述基础数据库中。
105.标点添加单元104在按照所述标点添加准则为所述语音添加文字标点的过程中,标点添加准则为:
106.根据语速和语调判断情绪;
107.根据情绪和语义对所述语句进行短句处理,并对情绪平缓的短句添加逗号,对情绪激动的断句末尾添加感叹号或问好,并根据语义和情绪在句末添加句号、感叹号或问号。
108.如上所述,本发明提供的装置基于情绪识别的文字标点自动添加100,首先通过语
言分析单元101实时获取用户的语音,将用户的语音输入预训练的语言分析模型以确定语音的语速、语调和语义,再通过样本类比单元102根据预设的对比规则将语音的语速、语调和语义与预设的基础模型中的样本相类比获取类比结果;而后基于匹配判断单元103,若类比结果表示基础模型中存在与所述语音的语速、语调和语义相匹配的样本,则提取与语音的语速、语调和语义相匹配的样本的标点添加准则,而后再通过标点添加单元104按照标点添加准则为所述语音添加文字标点,如此,根据音频中不同的情绪准确分析添加何种标点,与传统的语音文字的转换相比,能够提升用户使用体验,更准确的表达音频中的想要表达的意思,提高语音翻译文字的整体精准度。
109.如图3所示,本发明提供一种基于情绪识别的文字标点自动添加方法的电子设备1。
110.该电子设备1可以包括处理器10、存储器11和总线,还可以包括存储在存储器11中并可在所述处理器10上运行的计算机程序,如基于情绪识别的文字标点自动添加程序12。
111.其中,所述存储器11至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、移动硬盘、多媒体卡、卡型存储器(例如:sd或dx存储器等)、磁性存储器、磁盘、光盘等。所述存储器11在一些实施例中可以是电子设备1的内部存储单元,例如该电子设备1的移动硬盘。所述存储器11在另一些实施例中也可以是电子设备1的外部存储设备,例如电子设备1上配备的插接式移动硬盘、智能存储卡(smart media card,smc)、安全数字(secure digital,sd)卡、闪存卡(flash card)等。进一步地,所述存储器11还可以既包括电子设备1的内部存储单元也包括外部存储设备。所述存储器11不仅可以用于存储安装于电子设备1的应用软件及各类数据,例如基于情绪识别的文字标点自动添加的代码等,还可以用于暂时地存储已经输出或者将要输出的数据。
112.所述处理器10在一些实施例中可以由集成电路组成,例如可以由单个封装的集成电路所组成,也可以是由多个相同功能或不同功能封装的集成电路所组成,包括一个或者多个中央处理器(central processing unit,cpu)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。所述处理器10是所述电子设备的控制核心(control unit),利用各种接口和线路连接整个电子设备的各个部件,通过运行或执行存储在所述存储器11内的程序或者模块(例如基于情绪识别的文字标点自动添加程序等),以及调用存储在所述存储器11内的数据,以执行电子设备1的各种功能和处理数据。
113.所述总线可以是外设部件互连标准(peripheral component interconnect,简称pci)总线或扩展工业标准结构(extended industry standard architecture,简称eisa)总线等。该总线可以分为地址总线、数据总线、控制总线等。所述总线被设置为实现所述存储器11以及至少一个处理器10等之间的连接通信。
114.图3仅示出了具有部件的电子设备,本领域技术人员可以理解的是,图3示出的结构并不构成对所述电子设备1的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。
115.例如,尽管未示出,所述电子设备1还可以包括给各个部件供电的电源(比如电池),优选地,电源可以通过电源管理装置与所述至少一个处理器10逻辑相连,从而通过电源管理装置实现充电管理、放电管理、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态
指示器等任意组件。所述电子设备1还可以包括多种传感器、蓝牙模块、wi-fi模块等,在此不再赘述。
116.进一步地,所述电子设备1还可以包括网络接口,可选地,所述网络接口可以包括有线接口和/或无线接口(如wi-fi接口、蓝牙接口等),通常用于在该电子设备1与其他电子设备之间建立通信连接。
117.可选地,该电子设备1还可以包括用户接口,用户接口可以是显示器(display)、输入单元(比如键盘(keyboard)),可选地,用户接口还可以是标准的有线接口、无线接口。可选地,在一些实施例中,显示器可以是led显示器、液晶显示器、触控式液晶显示器以及oled(organic light-emitting diode,有机发光二极管)触摸器等。其中,显示器也可以适当的称为显示屏或显示单元,用于显示在电子设备1中处理的信息以及用于显示可视化的用户界面。
118.应该了解,所述实施例仅为说明之用,在专利申请范围上并不受此结构的限制。
119.所述电子设备1中的所述存储器11存储的基于情绪识别的文字标点自动添加程序12是多个指令的组合,在所述处理器10中运行时,可以实现:
120.将所实时获取的用户的语音输入预训练的语言分析模型以确定所述语音的语速、语调和语义;
121.根据预设的对比规则将所述语音的语速、语调和语义与预设的基础模型中的样本相类比获取类比结果;
122.若所述类比结果表示所述基础模型中存在与所述语音的语速、语调和语义相匹配的样本,则提取与所述语音的语速、语调和语义相匹配的样本的标点添加准则;
123.按照所述标点添加准则为所述语音添加文字标点。
124.基于情绪识别的文字标点自动添加方法,包括:
125.实时获取用户的语音,将所述用户的语音输入预训练的语言分析模型以确定所述语音的语速、语调和语义的过程中,
126.预训练所述语音分析模型,包括:
127.预采集情绪样本和预所述情绪样本相对应的样本标签;其中,所述样本标签包括样本语速、样本语调和样本语义;
128.构建第一识别算法模型、第二识别算法模型和第三识别算法模型,并将所述第一识别算法模型、所述第二识别算法模型和所述第三识别算法模型相连接以形成待定语音分析模型;其中,所述第一识别算法模型用于对所输入的语音进行预处理以形成标准语音;所述第二识别算法模型用于对所述标准语音进行频谱转换以形成频谱;所述第三识别算法模型用于对所述频谱进行数据分析以获取所输入的语音的语速、语调和语义;
129.将所输入的语音的语速、语调、语义与所述样本语速、样本语调、样本语义进行比对计算以获取损失函数,并根据所述损失函数的数值对所述待定语音分析模型进行持续反复训练,直至所述待定语音分析模型的损失函数低于预设的损失阈值,将最后一次训练的待定语音分析模型作为语音分析模型。
130.其中,实时获取用户的语音,将所述用户的语音输入预训练的语言分析模型以确定所述语音的语速、语调和语义,包括:
131.通过被用户授权的麦克风录入用户的音频作为语音;
132.将所述语音作为目标语音输入所述语言分析模型中,以使所述语言分析模型中的第一识别算法模型对所述目标语音进行预处理以形成目标标准语音,使所述语言分析模型中的第二识别算法模型对所述目标标准语音进行频谱转换以形成目标频谱,使所述语言分析模型中的第三识别算法根据预设的分析规则对所述目标频谱进行数据分析以形成关于所述目标语音的语速、语调和语义。
133.所述预处理包括音频合规检测处理和音频切割处理;
134.所述频谱转换包括音频降噪处理、特征提取处理和频谱生成处理。
135.根据预设的对比规则将所述语音的语速、语调和语义与预设的基础模型中的样本相类比获取类比结果的过程中,
136.在所述根据预设的对比规则将所述语音的语速、语调和语义与预设的基础模型中的样本相类比获取类比结果之前,还包括预创建基础模型;其中,所述预创建基础模型,包括:
137.根据情绪样本的语速和语调对所述情绪样本的进行情绪判断,根据所判断的情绪为语句添加标点;
138.建立所添加的标点-情绪-语速-语调的映射关系,根据所述映射关系创建基于语速、语调、语义的标点添加准则以形成执行所述标点添加准则的标点添加插件;
139.将所述情绪样本、所述标点-情绪-语速-语调的映射关系存储在数据库中,并建立所述数据库与所述所述标点添加插件的连接关系以形成基础模型。
140.若所述类比结果表示所述基础模型中存在与所述语音的语速、语调和语义相匹配的样本,则提取与所述语音的语速、语调和语义相匹配的样本的标点添加准则的过程中,
141.提取与该语音的语速、语调和语义相匹配的样本的标点添加准则,即在该基础数据库(基础模型)中已经存在诸如该语音一般的语速、语调和语义,并且在该基础模型中已经存在与该语音的语速、语调和语义相对应的标点添加规则,故直接调用该标点添加准则即可。
142.当然还存在基础模型中未包含相似的语速、语调和语义的情况,此时,本发明实施例还包括:
143.若所述类比结果表示所述基础模型中不存在与所述语速、语调和语义相匹配的样本,则在预设的临时数据库中按照所述语速、和语义的对应关系对所述语音进行断句处理形成语句段,并按照所述语调在所述语句段末尾添加文字标点;并且,
144.将所述文字标点、所述语句段、所述语速、所述语义、所述语调之间的映射关系转换为文字形式的标点添加准则,并将所述标点添加准则添加至所述基础数据库中。
145.即如果在基础模型中并未包括与该语句相一般的语速、语调和语义,则通过预设定得分临时数据库和预添加的添加插件进行直接的情绪判断,并根据该情绪直接添加标点。
146.简言之,可以在基础模型中分析已经处理预过的音频,对于剧中明显的停顿的地方进行断句句处理,以逗号隔开,句末使用句号结束。分析语调和语义,替换对应短句的标点。分析结果如果在基础库中存在,则直接输出标点,若不存在则先在临时库中处理,待处理结束,将新识别的情绪添加到基础库中。
147.换句话说,所建立的基础模型为基础的情绪模型库,存储基本的情绪和所有标点
符号的用法以及对应关系,临时数据库用于存储,基础库之外的情绪,用于临时处理新情绪和标点的关系。
148.按照所述标点添加准则为所述语音添加文字标点的过程中,标点添加准则为:
149.根据语速和语调判断情绪;
150.根据情绪和语义对所述语句进行短句处理,并对情绪平缓的短句添加逗号,对情绪激动的断句末尾添加感叹号或问好,并根据语义和情绪在句末添加句号、感叹号或问号。
151.对于引号、破折号等其他标点符号在此不作限制,可由前端及后端人员调整添加的规则,或者调整训练模型的样本,在此不做赘述。
152.需要强调的是,为进一步保证上述基于情绪识别的文字标点自动添加的私密和安全性,上述基于情绪识别的文字标点自动添加的数据存储于本服务器集所处区块链的节点中。
153.服务器可以是独立的服务器,也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(content delivery network,cdn)、以及大数据和人工智能平台等基础云计算服务的云服务器。
154.进一步地,所述电子设备1集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、u盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(rom,read-only memory)。
155.本发明实施例还提供一种计算机可读存储介质,所述存储介质可以是非易失性的,也可以是易失性的,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现:
156.将实时获取的用户的语音输入预训练的语言分析模型以确定所述语音的语速、语调和语义;
157.根据预设的对比规则将所述语音的语速、语调和语义与预设的基础模型中的样本相类比获取类比结果;
158.若所述类比结果表示所述基础模型中存在与所述语音的语速、语调和语义相匹配的样本,则提取与所述语音的语速、语调和语义相匹配的样本的标点添加准则;
159.按照所述标点添加准则为所述语音添加文字标点。
160.具体地,所述计算机程序被处理器执行时具体实现方法可参考实施例基于情绪识别的文字标点自动添加方法中相关步骤的描述,在此不赘述。
161.在本发明所提供的几个实施例中,应该理解到,所揭露的设备,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
162.所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
163.另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单
元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
164.对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。
165.因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。
166.本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
167.此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第二等词语用来表示名称,而并不表示任何特定的顺序。
168.最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。

技术特征:


1.一种基于情绪识别的文字标点自动添加方法,其特征在于,包括:将实时获取的用户的语音输入预训练的语言分析模型以确定所述语音的语速、语调和语义;根据预设的对比规则将所述语音的语速、语调和语义与预设的基础模型中的样本相类比获取类比结果;若所述类比结果表示所述基础模型中存在与所述语音的语速、语调和语义相匹配的样本,则提取与所述语音的语速、语调和语义相匹配的样本的标点添加准则;按照所述标点添加准则为所述语音添加文字标点。2.如权利要求1所述的基于情绪识别的文字标点自动添加方法,其特征在于,还包括:若所述类比结果表示所述基础模型中不存在与所述语速、语调和语义相匹配的样本,则在预设的临时数据库中按照所述语速和语义的对应关系对所述语音进行断句处理形成语句段,并按照所述语调在所述语句段的末尾添加文字标点;并且,将所述文字标点、所述语句段、所述语速、所述语义、所述语调之间的映射关系转换为文字形式的标点添加准则,并将所述标点添加准则添加至所述基础数据库中。3.如权利要求1所述的基于情绪识别的文字标点自动添加方法,其特征在于,预训练所述语音分析模型,包括:预采集情绪样本和与所述情绪样本相对应的样本标签;其中,所述样本标签包括样本语速、样本语调和样本语义;构建第一识别算法模型、第二识别算法模型和第三识别算法模型,并将所述第一识别算法模型、所述第二识别算法模型和所述第三识别算法模型相连接以形成待定语音分析模型;其中,所述第一识别算法模型用于对所输入的语音进行预处理以形成标准语音;所述第二识别算法模型用于对所述标准语音进行频谱转换以形成频谱;所述第三识别算法模型用于对所述频谱进行数据分析以获取所输入的语音的语速、语调和语义;将所输入的语音的语速、语调、语义与所述样本语速、样本语调、样本语义进行比对计算以获取损失函数,并根据所述损失函数的数值对所述待定语音分析模型进行持续反复训练,直至所述待定语音分析模型的损失函数低于预设的损失阈值,将最后一次训练的待定语音分析模型作为语音分析模型。4.如权利要求3所述的基于情绪识别的文字标点自动添加方法,其特征在于,所述将实时获取的用户的语音输入预训练的语言分析模型以确定所述语音的语速、语调和语义,包括:通过被用户授权的麦克风录入用户的音频作为语音;将所述语音作为目标语音输入所述语言分析模型中,以使所述语言分析模型中的第一识别算法模型对所述目标语音进行预处理以形成目标标准语音,使所述语言分析模型中的第二识别算法模型对所述目标标准语音进行频谱转换以形成目标频谱,使所述语言分析模型中的第三识别算法根据预设的分析规则对所述目标频谱进行数据分析以形成关于所述目标语音的语速、语调和语义。5.如权利要求4所述的基于情绪识别的文字标点自动添加方法,其特征在于,所述预处理包括音频合规检测处理和音频切割处理;所述频谱转换包括音频降噪处理、特征提取处理和频谱生成处理。
6.如权利要求5所述的基于情绪识别的文字标点自动添加方法,其特征在于,在所述根据预设的对比规则将所述语音的语速、语调和语义与预设的基础模型中的样本相类比获取类比结果之前,还包括预创建基础模型;其中,所述预创建基础模型,包括:根据情绪样本的语速和语调对所述情绪样本的进行情绪判断,根据所判断的情绪为语句添加标点;建立所添加的标点-情绪-语速-语调的映射关系,根据所述映射关系创建基于语速、语调、语义的标点添加准则以形成执行所述标点添加准则的标点添加插件;将所述情绪样本、所述标点-情绪-语速-语调的映射关系存储在数据库中,并建立所述数据库与所述所述标点添加插件的连接关系以形成基础模型。7.如权利要求6所述的基于情绪识别的文字标点自动添加方法,其特征在于,所述标点添加准则为:根据语速和语调判断情绪;根据情绪和语义对所述语句进行短句处理,并对情绪平缓的短句添加逗号,对情绪激动的断句末尾添加感叹号或问好,并根据语义和情绪在句末添加句号、感叹号或问号。8.一种基于情绪识别的文字标点自动添加装置,其特征在于,所述装置包括:语言分析单元,用于将实时获取的用户的语音输入预训练的语言分析模型以确定所述语音的语速、语调和语义;样本类比单元,用于根据预设的对比规则将所述语音的语速、语调和语义与预设的基础模型中的样本相类比获取类比结果;匹配判断单元,用于若所述类比结果表示所述基础模型中存在与所述语音的语速、语调和语义相匹配的样本,则提取与所述语音的语速、语调和语义相匹配的样本的标点添加准则;标点添加单元,用于按照所述标点添加准则为所述语音添加文字标点。9.一种电子设备,其特征在于,所述电子设备包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1至7中任一所述的基于情绪识别的文字标点自动添加方法中的步骤。10.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任一所述的基于情绪识别的文字标点自动添加方法。

技术总结


本发明涉及人工智能领域,提出一种基于情绪识别的文字标点自动添加方法,首先实时获取用户的语音,将用户的语音输入预训练的语言分析模型以确定语音的语速、语调和语义,再根据预设的对比规则将语音的语速、语调和语义与预设的基础模型中的样本相类比获取类比结果;若类比结果表示基础模型中存在与所述语音的语速、语调和语义相匹配的样本,则提取与语音的语速、语调和语义相匹配的样本的标点添加准则,而后按照标点添加准则为所述语音添加文字标点,如此,根据音频中不同的情绪准确分析添加何种标点,与传统的语音文字的转换相比,能够提升用户使用体验,更准确的表达音频中的想要表达的意思,提高语音翻译文字的整体精准度。度。度。


技术研发人员:

李蓉

受保护的技术使用者:

平安国际智慧城市科技股份有限公司

技术研发日:

2022.04.12

技术公布日:

2022/7/8

本文发布于:2024-09-21 08:35:58,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/4/11153.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:所述   标点   语音   语速
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议