一种韵律信息标注方法以及相关设备与流程



1.本技术实施例涉及语音合成领域,尤其涉及一种韵律信息标注方法以及相关设备。


背景技术:



2.语音合成(text to speech,tts)技术是一种基于文本以及文本中的标注信息得到自然流畅的语音信息的技术,其中标注信息包括指示韵律短语的标注、指示韵律词的标注以及指示语调短语的标注,标注信息可以表征文本的停顿以及语气变化。语音合成技术通过将包含标注信息的文本输入模型,从而使得模型输出对应的语音信息,为了能够让模型输出的语音信息的自然度更高,需要利用大量的包含标注信息的文本对模型进行训练。
3.在当前对文本进行韵律短语、韵律词以及语调短语的标注方式中,主要是通过专业的人员进行标注,所需的时间较长,因此获取包含标注信息的文本较为困难,不利于快速将模型训练至理想的效果。


技术实现要素:



4.本技术实施例提供了一种韵律信息标注方法以及相关设备,用于提高标注的效率。
5.本技术实施例第一方面提供了一种韵律信息标注方法:
6.计算机设备获取具有对应关系的音频信息以及第一文本信息,并标注第一文本信息中的韵律词以及韵律短语,得到第一标注后文本,其中,韵律短语需要基于音频信息进行标注。在标注第一文本信息中的韵律词以及韵律短语之后,计算机设备基于第一标注后文本中标注的韵律词以及韵律短语标注第一文本信息中的语调短语,从而得到第二标注后文本。
7.本技术实施例中,计算机设备收集第一文本信息以及对应的音频信息的方式可以是在网络收集,因此可以收集到较多的数据量。并由计算机设备标注第一文本信息中的韵律词、韵律短语以及语调短语,不再需要通过人工标注的方式,从而提高韵律词、韵律短语以及语调短语的标注效率,并且由于结合了韵律词以及韵律短语标注语调短语,提高了语调短语标注的准确性。
8.在一种可能的实现方式中,计算机设备还可以响应于用户的操作指令,对第二标注后文本中标注的韵律词、韵律短语以及语调短语进行校正。
9.本技术实施例中,计算机设备进行韵律词、韵律短语以及语调短语的标注之后,还可以由用户对相关标注进行校正,从而进一步提高标注的准确性。
10.在一种可能的实现方式中,计算机设备还可以获取第三标注后文本,其中,第三标注后文本的文本信息与第二标注后文本的文本信息一致,第三标注后文本中的标注信息与第二标注后文本中的标注信息不同,该标注信息通过用于指示韵律词的标注、用于指示韵律短语的标注以及用于指示语调短语的标注指示。计算机设备还可以基于第二标注后文本
的标注信息以及所述第三标注后文本的标注信息,确定第三标注后文本中的目标标注,该目标标注包括用于指示韵律词的标注、用于指示韵律短语的标注以及用于指示语调短语的标注中的至少一种。
11.本技术实施例中,第三标注后文本可以是基于人工标注韵律词、韵律短语以及语调短语之后的第一文本信息,基于第二标注后文本可以对第三标注后文本进行校验,确定第三标注后文本中可能存在标注错误的目标标注,从而对第三标注后文本进行校正,提高标注的准确性。
12.在一种可能的实现方式中,计算机设备还可以响应于用户的操作指令,对目标标注进行校正。
13.在一种可能的实现方式中,计算机设备或音频信息以及第一文本信息具体可以是先获取音频信息,之后基于语音识别技术获取与音频信息对应的第一文本信息。或者,获取视频信息,之后获取视频信息中的音频信息以及视频信息中的字幕信息对应的第二文本信息,基于语音识别技术获取与音频信息对应的第三文本信息,并基于第二文本信息以及第三文本信息确定第一文本信息。
14.本技术实施例第二方面提供了一种计算机设备,该计算机设备包括多个功能模块,所述多个功能模块相互作用,实现上述第一方面及其各实施方式中的方法。多个功能模块可以基于软件、硬件或软件和硬件的结合实现,且所述多个功能模块可以基于具体实现进行任意组合或分割。
15.本技术实施例第三方面提供了一种计算机设备,包括处理器,处理器与存储器耦合,存储器用于存储指令,当指令被处理器执行时,使得显示设备执行如前述第一方面中所述的方法。
16.本技术实施例第四方面提供了一种计算机程序产品,包括代码,当代码在计算机上运行时,使得计算机运行如前述第一方面所述的方法。
17.本技术实施例第五方面提供了一种计算机可读存储介质,其上存储有计算机程序或指令,其特征在于,计算机程序或指令被执行时,其上存储有计算机程序或指令,计算机程序或指令被执行时,使得计算机执行如前述第一方面所述的方法。
附图说明
18.图1a以及图1b为本技术实施例中的系统架构示意图;
19.图2为本技术实施例中韵律信息标注方法的一个流程示意图;
20.图3为本技术实施例中韵律信息标注方法的另一流程示意图;
21.图4为本技术实施例中标注韵律词、韵律短语以及语调短语的一个示意图;
22.图5为本技术实施例中计算机设备的一个结构示意图;
23.图6为本技术实施例中计算机设备的另一结构示意图。
具体实施方式
24.下面结合附图,对本技术的实施例进行描述,显然,所描述的实施例仅仅是本技术一部分的实施例,而不是全部的实施例。本领域普通技术人员可知,随着技术发展和新场景的出现,本技术实施例提供的技术方案对于类似的技术问题,同样适用。
25.本技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
26.本技术实施例提供了一种韵律信息标注方法以及相关设备,用于提高韵律信息的标注效率。
27.为了便于理解,下面先对本技术实施例涉及到的相关概念进行介绍:
28.音节:是人们在听觉上最容易分辨出来的语音单位,也是语流中最自然的语音单位。
29.韵律词:是一组在实际语流中联系密切的,经常连在一起发音的音节。
30.韵律短语:介于韵律词与语调短语之间的中等节奏组块。
31.语调短语:将几个韵律短语按照一定的语调模式连接起来的短语。
32.本技术实施例可以应用于语音合成以及文本情感识别。在语音合成中,将已经标注韵律短语、韵律词以及语调短语的文本输入到模型中,模型输出流畅、自然的语音,其广泛应用于有声小说、数字人、语音助手以及智能音箱等技术中。语音合成需要利用大量已经标注韵律短语、韵律词以及语调短语的文本对模型进行训练,才能使模型输出流畅、自然的语音,如果能够快速获取已经标注韵律短语、韵律词以及语调短语的文本,则可以提高模型的训练效率,进而提高输出的语音的自然度以及流畅度。情感识别又称倾向性分析,是对带有情感彩的主观性文本进行分析、处理、归纳和推理的过程。利用情感识别功能,在评论分析与决策、电商评论分类以及舆情监控中有非常广泛的应用。情感识别通常直接对文本进行分析,如果能够标注文本中的韵律短语、韵律词以及语调短语,则会提高情感识别的准确率。
33.本技术实施例可以应用于如图1a或图1b所示的系统架构中,下面分别进行介绍。如图1a所示,该系统架构包括数据采集模块、标注模块以及校验模块。数据采集模块用于在网络上收集视频信息或者音频信息,对于视频信息,提取视频信息中的音频信息,并根据视频信息中的字幕确定对应的第二文本信息,对音频信息进行语音识别从而确定第三文本信息,如果第二文本信息与第三文本信息不存在差异,则确定第二文本信息或者第三文本信息为第一文本信息;如果第二文本信息与第三文本信息之间存在差异,则数据采集模块可以基于用户的操作指令对第二文本信息或者第三文本信息进行校正,校正之后的文本信息即为第一文本;对于音频信息,通过语音识别技术直接获取与音频信息对应的第一文本信息。应理解,上述第二文本信息、第三文本信息以及第一文本信息的体现形式具体可以是文档文件,例如第二文本信息可以体现为包括第二文本信息的文档1,第三文本信息可以体现为包括第三文本信息的文档2,第一文本信息可以体现为包括第一文本信息的文档3。
34.数据采集模块将上述音频信息以及第一文本信息发送至标注模块,例如将音频信息以及文档3发送至标注模块。标注模块基于相应的模型、算法或者规则结合音频信息为文档 3标注韵律短语、韵律词得到第一标注后文本,再基于第一标注后文本中标注的韵律短
语以及韵律词,结合音频信息标注第一标注后文本中的语调短语,得到第二标注后文本,并将第二标注后文本发送至校验模块。校验模块基于用户的操作指令对第二标注后文本进行校正,需要说明的是,在一种方式中,标注模块可以将标注韵律词之后的文档3先发送至校验模块,校验模块基于用户的操作指令对文档3中标注的韵律词进行校正后,再将校正完成的文档3发送至标注模块进行后续的标注,最终得到第二标注后文本。
35.如图1b所示,数据采集模块还可以创建包括第一文本信息的文档4,并将文档4以及音频信息发送至人工标注模块,人工标注模块获取用户的操作指令标注文档4中的韵律短语、韵律词以及语调短语,得到第三标注后文本。标注模块将以及人工标注模块分别将第二标注后文本以及第三标注后文本发送至筛选模块,筛选模块将第二标注后文本以及第三标注后文本中的标注信息进行比对,并确定出第三标注后文本中的目标标注,需要说明的是,目标标注可以被理解为存在错误的标注。确定出目标标注后,筛选模块将第三标注后文本发送至校验模块,用户通过校验模块对目标标注进行校正。
36.需要说明的是,上述图1a以及图1b所示的各个模块,可以各自位于不同的计算机设备上,或者也可以都位于同一个计算机设备上,或者其中的一部分位于相同的计算机设备,另一部分位于其他的计算机设备,具体此处不做限定。
37.请参阅图2,下面开始对本技术实施例中标注韵律信息的方法的一个流程进行介绍:
38.201、计算机设备获取音频信息以及第一文本信息;
39.计算机设备在网络上通过下载的方式收集视频信息以及音频信息,对于收集到的视频信息,计算机设备提取视频信息中的音频信息,并通过光学字符识别技术识别视频信息中的字幕,从而确定对应的第二文本信息,由于视频信息中的字幕与音频信息具有对应关系,因此根据字幕确定的第二文本信息也与音频信息具有对应关系。之后对音频信息进行语音识别从而确定第三文本信息,如果第二文本信息与第三文本信息不存在差异,则确定第二文本信息或者第三文本信息为第一文本信息;如果第二文本信息与第三文本信息之间存在差异,则用户可以在计算机设备上对第二文本信息或者第三文本信息进行校正,校正之后的文本信息即为第一文本信息。对于收集到的音频信息,直接通过语音识别技术确定与音频信息对应的文本信息,该文本信息即为第一文本信息。
40.202、计算机设备标注第一文本信息中的韵律词以及韵律短语,得到第一标注后文本;
41.获取到第一文本信息之后,计算机设备基于相应的模型、算法或者规则标注第一文本信息中的韵律词,例如可以根据粗粒度分词模型标注第一文本信息中的韵律词。或者,计算机设备在基于相应的模型、算法或者规则标注第一文本信息中的韵律词之后,计算机设备还可以基于用户的操作指令对第一文本信息中标注的韵律词进行校正。
42.之后,计算机设备根据音频信息标注第一文本信息中的韵律短语,具体可以通过神经网络或者机器算法提取音频信息中每个字的发音时长以及每个字的音调信息,按照这些信息标注第一文本信息中的韵律短语。
43.需要说明的是,标注韵律词以及韵律短语的顺序不做限定,可以先标注韵律词,或者也可以先标注韵律短语。
44.203、计算机设备基于第一标注后文本中标注的韵律词、韵律短语以及音频信息标
注第一标注后文本中的语调短语,得到第二标注后文本。
45.由于语调短语与韵律词以及韵律短语之间有着较强的关联关系,计算机设备可以结合第一文本中标注的韵律词、韵律短语以及音频信息中每个字的发音时长以及每个字的音调信息,标注第一文本中的语调短语,从而得到第二标注后文本。
46.204、计算机设备响应于用户的操作指令,对第二标注后文本中标注的韵律词、韵律短语以及语调短语中的至少一种进行校正。
47.得到第二标注后文本之后,计算机设备基于用户的操作指令对第二标注后文本中标注的韵律词、韵律短语以及语调短语中的至少一种进行校正。
48.本技术实施例中,计算机设备收集第一文本信息以及对应的音频信息的方式可以是在网络收集,因此可以收集到较多的数据量。并由计算机设备标注第一文本信息中的韵律词、韵律短语以及语调短语,不再需要通过人工标注的方式,从而提高韵律词、韵律短语以及语调短语的标注效率,并且由于结合了韵律词以及韵律短语标注语调短语,提高了语调短语标注的准确性。
49.可选的,在上述图2所示实施例的基础之上,在标注第一文本信息中的标注韵律词、韵律短语以及语调短语之后,用户还可以通过计算机设备对第一文本信息中标注的韵律词、韵律短语以及语调短语进行校正,其中,用户可以是相关的专业人员。
50.请参阅图3,下面对本技术实施例中韵律信息标注方法的另一流程进行描述:
51.本实施例中步骤301至步骤303与图2所示实施例中步骤201至步骤203类似,此处不再赘述。
52.304、计算机设备获取第三标注后文本;
53.计算机设备获取第三标注后文本,该第三标注后文本中已经标注了韵律词、韵律短语以及语调短语,且第三标注后文本的文本信息与第二标注后文本的文本信息一致,第三标注后文本的标注信息与第二标注后文本的标注信息不同。可以理解的是,文本信息只包括文本中的文字信息,标注信息具体体现为文本中各个标注的位置以及各个标注分别对应的类型,其中标注的类型包括用于指示韵律词边界的标注、用于指示韵律短语的标注以及用于指示语调短语的标注。
54.应理解,在本实施例中,第二标注后文本可以是计算机设备标注包括第一文本信息的文档3中的韵律词、韵律短语以及语调短语得到的,第三标注后文本可以是计算机设备基于用户的操作指令标注包括第一文本信息的文档4中的韵律词、韵律短语以及语调短语得到的。
55.需要说明的是,步骤304的执行顺序此处不做限定,只需保证步骤301之后,且在步骤305之前执行即可。
56.305、计算机设备基于第二标注后文本的标注信息以及第三标注后文本的标注信息,确定第三标注后文本中的目标标注;
57.计算机设备结合第二标注后文本的标注信息以及第三标注后文本的标注信息,分析两个文本之间的标注信息的差异。请参阅图4,图4为对文本标注韵律词、韵律短语以及语调短语的一个示意图,如图4所示,在一种实现方式中,可以在句子中的每个字后面添加用于指示韵律词边界的标注、用于指示韵律短语的标注或用于指示语调短语的标注,例如,通过“#1”将在“#1”之前的且在上一个“#1”、“#2”或者“#3”之后的字或词标记为一个韵律词;
通过“#2”将在“#2”之前的且在上一个“#1”之后的字或词也标注为韵律词,并将在“#2”之前的且在上一个“#2”或“#3”之后的所有韵律词标记为韵律短语;通过“#3”将在“#3”之前的且在上一个“#1”之后的字或词也标注为韵律词,将在“#3”之前的且在上一个“#2之后的所有韵律词标注为韵律短语,”并将在“#3”之前的且在上一个“#3”或者之后的所有韵律短语或者所有韵律词标注为语调短语。例如将句子“不断有传言称技术专家现身北京”标注为“不断#1有#1传言称#3技术#1专家#1现身北京#3”,则表示“不断”、“有”、“传言称”、“技术”、“专家”、“现身”以及“北京”分别为不同的韵律词,“不断有传言称”、“技术专家”、以及“现身北京”分别为不同的韵律短语,“不断有传言称”以及“技术专家现身北京”分别为不同的语调短语。
58.在一种情况中,第二标注后文本在位置1处的标注为“#a”,“a”可为0、1、2或3,第三标注后文本在位置1处的标注为“#b”,“b”可为0、1、2或3。如果b减a大于或等于2,则说明第二标注文本在位置1处的标注可能存在错误,则计算机设备将该处标注确定为目标标注。以上述实例进行说明,若第二标注后文本中的某个句子的标注信息为“不断#1有#1传言称#3技术#1专家#1现身北京#3”,第三标注后文本中的相同句子的标注信息为“不断#3有#1传言称#3技术#1专家#1现身北京#1”,显然,在第三标注后文本中,“不断#3”以及“现身北京#1”这两处标注为目标标注。
59.需要说明的是,若在某个字或词之后无标注,则该无标注处与“#0”具有对应关系。例如第二标注后文本中的“现身北京#3”可以被进一步理解为“现#0身#0北#0京#3”,如果第三标注后文本在该处的标注信息为“现#2身北京#3”,则“现#2”也为目标标注。
60.306、计算机设备响应于用户的操作指令,对目标标注进行校正。
61.计算机设备在确定出目标标注之后,将目标标注进行显示,用户可以通过计算机设备对目标标注进行校正。
62.本技术实施例中,人工标注的第三标注后文本可能存在标注不当的地方,如果完全通过人工对第三标注后文本进行校验,会消耗非常多的时间,因此计算机设备基于第二标注后文本确定出第三标注后文本中的目标标注,再由人工对目标标注进行校验,提高了校验的效率。
63.上面对本技术实施例中的韵律信息标注方法进行了介绍,请参阅图5,下面对本技术实施例中的计算机设备进行介绍:
64.如图5所示,本技术实施例中的计算机设备500包括处理单元501。
65.处理单元501,用于获取音频信息以及第一文本信息,音频信息与第一文本信息具有对应关系。
66.处理单元501,还用于标注第一文本信息中的韵律词以及韵律短语,得到第一标注后文本,第一文本信息中的韵律短语需要基于音频信息进行标注。
67.处理单元501,还用于基于第一标注后文本中标注的韵律词、第一标注后文本中标注的韵律短语以及音频信息标注第一标注后文本中的语调短语,得到第二标注后文本。
68.在一种实现方式中,
69.处理单元501,还用于响应于用户的操作指令,对第二标注后文本中标注的韵律词、韵律短语以及语调短语中的至少一种进行校正。
70.在一种实现方式中,
71.处理单元501,还用于获取第三标注后文本,第三标注后文本的文本信息与第二标注后文本的文本信息一致,第三标注后文本中的标注信息与第二标注后文本中的标注信息不同,标注信息通过用于指示韵律词的标注、用于指示韵律短语的标注以及用于指示语调短语的标注指示。
72.处理单元501,还用于基于第二标注后文本的标注信息以及第三标注后文本的标注信息,确定第三标注后文本中的目标标注,目标标注包括用于指示韵律词的标注、用于指示韵律短语的标注以及用于指示语调短语的标注中的至少一种。
73.在一种实现方式中,
74.处理单元501,还用于响应于用户的操作指令,对目标标注进行校正。
75.在一种实现方式中,
76.处理单元501,具体用于获取音频信息。
77.处理单元501,还用于基于语音识别确定与音频信息对应的第一文本信息。
78.或,
79.处理单元501,具体用于获取视频信息。
80.处理单元501,还用于获取视频信息中的音频信息,以及与视频信息中的字幕信息对应的第二文本信息。
81.处理单元501,还用于基于语音识别确定与音频信息对应的第三文本信息。
82.处理单元501,还用于基于第二文本信息以及第三文本信息确定第一文本信息。
83.图6是本技术实施例提供的一种计算机设备结构示意图,该计算机设备600可以包括一个或一个以上中央处理器(central processing units,cpu)601和存储器605,该存储器605中存储有一个或一个以上的应用程序或数据。
84.其中,存储器605可以是易失性存储或持久存储。存储在存储器605的程序可以包括一个或一个以上模块,每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器601可以设置为与存储器605通信,在计算机设备600上执行存储器605中的一系列指令操作。
85.计算机设备600还可以包括一个或一个以上电源602,一个或一个以上有线或无线网络接口603,一个或一个以上输入输出接口604,和/或,一个或一个以上操作系统,例如 windows servertm,mac os xtm,unixtm,linuxtm,freebsdtm等。
86.该中央处理器601可以执行前述图2以及图3所示实施例中计算机设备所执行的操作,具体此处不再赘述。
87.所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
88.在本技术所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
89.所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显
示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
90.另外,在本技术各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
91.所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备 (可以是个人计算机,服务器,或者网络设备等)执行本技术各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。

技术特征:


1.一种韵律信息标注方法,其特征在于,包括:计算机设备获取音频信息以及第一文本信息,所述音频信息与所述第一文本具有对应关系;所述计算机设备标注所述第一文本信息中的韵律词以及韵律短语,得到第一标注后文本,所述第一标注后文本中的韵律短语需要基于所述音频信息进行标注;所述计算机设备基于所述第一标注后文本中标注的韵律词、所述第一标注后文本中标注的韵律短语以及所述音频信息标注所述第一标注后文本中的语调短语,得到第二标注后文本。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:所述计算机设备响应于用户的操作指令,对所述第二标注后文本中标注的韵律词、所述第二标注后文本中标注的韵律短语,以及所述第二标注后文本中标注的语调短语中的至少一种进行校正。3.根据权利要求1所述的方法,其特征在于,所述方法还包括:所述计算机设备获取第三标注后文本,所述第三标注后文本的文本信息与所述第二标注后文本的文本信息一致,所述第三标注后文本中的标注信息与所述第二标注后文本中的标注信息不同,所述标注信息通过用于指示韵律词的标注、用于指示韵律短语的标注以及用于指示语调短语的标注指示;所述计算机设备基于所述第二标注后文本的标注信息以及所述第三标注后文本的标注信息,确定所述第三标注后文本中的目标标注,所述目标标注包括所述用于指示韵律词的标注、所述用于指示韵律短语的标注以及所述用于指示语调短语的标注中的至少一种。4.根据权利要求3所述的方法,其特征在于,所述方法还包括:所述计算机设备响应于用户的操作指令,对所述目标标注进行校正。5.根据权利要求1至4中任一项所述的方法,其特征在于,所述计算机设备获取音频信息以及第一文本信息包括:所述计算机设备获取所述音频信息;所述计算机设备基于语音识别确定与所述音频信息对应的所述第一文本信息;或,所述计算机设备获取视频信息;所述计算机设备获取所述视频信息中的所述音频信息,以及与所述视频信息中的字幕信息对应的第二文本信息;所述计算机设备基于语音识别以及所述音频信息确定第三文本信息;所述计算机设备基于所述第二文本信息以及所述第三文本信息确定所述第一文本信息。6.一种计算机设备,其特征在于,包括:处理单元,用于获取音频信息以及第一文本信息,所述音频信息与所述第一文本信息具有对应关系;所述处理单元,还用于标注所述第一文本信息中的韵律词以及韵律短语,得到第一标注后文本,所述第一文本信息中的韵律短语需要基于所述音频信息进行标注;所述处理单元,还用于基于所述第一标注后文本中标注的韵律词、所述第一标注后文
本中标注的韵律短语以及所述音频信息标注所述第一标注后文本中的语调短语,得到第二标注后文本。7.根据权利要求6所述的设备,其特征在于,所述处理单元,还用于响应于用户的操作指令,对所述第二标注后文本中标注的韵律词、所述第二标注后文本中标注的韵律短语,以及所述第二标注后文本中标注的语调短语中的至少一种进行校正。8.根据权利要求6所述的设备,其特征在于,所述处理单元,还用于获取第三标注后文本,所述第三标注后文本的文本信息与所述第二标注后文本的文本信息一致,所述第三标注后文本中的标注信息与所述第二标注后文本中的标注信息不同,所述标注信息通过用于指示韵律词的标注、用于指示韵律短语的标注以及用于指示语调短语的标注指示;所述处理单元,还用于基于所述第二标注后文本的标注信息以及所述第三标注后文本的标注信息,确定所述第三标注后文本中的目标标注,所述目标标注包括所述用于指示韵律词的标注、所述用于指示韵律短语的标注以及所述用于指示语调短语的标注中的至少一种。9.根据权利要求8所述的设备,其特征在于,所述处理单元,还用于响应于用户的操作指令,对所述目标标注进行校正。10.根据权利要求6至9中任一项所述的设备,其特征在于,所述处理单元,具体用于获取所述音频信息;所述处理单元,还用于基于语音识别确定与所述音频信息对应的所述第一文本信息;或,所述处理单元,具体用于获取视频信息;所述处理单元,还用于获取所述视频信息中的所述音频信息,以及与所述视频信息中的字幕信息对应的第二文本信息;所述处理单元,还用于基于语音识别以及所述音频信息确定第三文本信息;所述处理单元,还用于基于所述第二文本信息以及所述第三文本信息确定所述第一文本信息。11.一种计算机设备,其特征在于,包括处理器,所述处理器与存储器耦合,所述存储器用于存储指令,当所述指令被所述处理器执行时,使得所述显示设备执行如权利要求1至5中任一项所述的方法。12.一种计算机程序产品,包括代码,当所述代码在计算机上运行时,使得计算机运行如权利要求1至5中任一项所述的方法。13.一种计算机可读存储介质,其上存储有计算机指令或程序,其特征在于,所述计算机指令或程序被执行时,使得计算机执行如权利要求1至5中任一项所述的方法。

技术总结


本申请实施例公开了一种韵律信息标注方法以及相关设备,用于提高标注的效率。本申请实施例方法包括:计算机设备获取音频信息以及第一文本信息。计算机设备标注第一文本信息中的韵律词以及韵律短语,得到第一标注后文本,第一标注后文本中的韵律短语需要基于所述音频信息进行。计算机设备基于第一标注后文本中标注的韵律词、第一标注后文本中标注的韵律短语以及音频信息标注第一标注后文本中的语调短语,得到第二标注后文本。得到第二标注后文本。得到第二标注后文本。


技术研发人员:

陈飞扬 李太松 陈珊珊 王喆锋 李明磊 怀宝兴 袁晶

受保护的技术使用者:

华为云计算技术有限公司

技术研发日:

2021.09.24

技术公布日:

2023/3/27

本文发布于:2024-09-25 00:40:25,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/2/81622.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:韵律   信息   文本   所述
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议