音频生成方法、装置、非易失性存储介质及计算机设备与流程



1.本发明涉及人工智能领域,具体而言,涉及一种音频生成方法、装置、非易失性存储介质及计算机设备。


背景技术:



2.虚拟数字人系统的汉语tts指的是利用计算机将给定的汉字文本信息转换成汉语语音。随着tts应用的普及,人们对tts系统的要求也越来越高。但是在汉语中,一字多音是很常见的现象,而且没有统一的规则可循。通常判断多音字的读音往往按照约定成俗的读法。追求中文字音转换的正确率,是中文tts系统最基本的要求。多音字现象的存在给汉语tts系统增加了难度,如何正确地识别中文多音字成为制约中文tts发展的一个瓶颈。
3.针对上述的问题,目前尚未提出有效的解决方案。


技术实现要素:



4.本发明实施例提供了一种音频生成方法、装置、非易失性存储介质及计算机设备,以至少解决用户使用文本到语音功能时,多音字的语音转换不准确的技术问题。
5.根据本发明实施例的一个方面,提供了一种音频生成方法,包括:接收目标对象的文本语音转换请求;响应所述文本语音转换请求,获取目标文本和所述文本语音转换请求对应的目标渠道类别;确定与所述目标渠道类别相匹配的目标多音字词汇库;基于所述目标多音字词汇库,生成所述目标文本对应的语音音频。
6.可选地,所述响应所述文本语音转换请求,获取所述文本语音转换请求对应的渠道类别,包括:响应所述文本语音转换请求,确定所述目标对象发送所述文本语音转换请求所采用的目标渠道;根据渠道分类规则,确定所述目标渠道对应的渠道类别为所述目标渠道类别;确定与所述目标渠道类别匹配的多音字词汇库为所述目标多音字词汇库。
7.可选地,所述根据渠道分类规则,确定所述目标渠道对应的渠道类别为所述目标渠道类别,包括:获取所述目标渠道对应的渠道常用字词;分析所述渠道常用字词,得到所述目标渠道的渠道特征信息;根据所述渠道特征信息和渠道分类规则,确定所述目标渠道对应的所述目标渠道类别。
8.可选地,所述确定与所述目标渠道类别匹配的多音字词汇库为所述目标多音字词汇库,包括:获取多个多音字词汇库各自的词汇库特征,其中,所述词汇库特征用于表示多音字词汇库适用的渠道类别;根据所述目标渠道类别与所述词汇库特征的匹配结果,确定所述多个多音字词汇库中与所述目标渠道类别匹配的所述目标多音字词汇库。
9.可选地,所述确定与所述目标渠道类别相匹配的目标多音字词汇库,包括:向所述目标渠道发送词汇库获取请求;接受所述目标渠道返回的词汇库为所述目标多音字词汇库。
10.可选地,所述响应所述文本语音转换请求,获取目标文本和所述文本语音转换请求对应的目标渠道类别,包括:响应所述文本语音转换请求,获取所述目标文本;从所述目
标文本中提取文本关键字;分析所述文本关键字,得到所述文本语音转换请求对应的所述目标渠道类别。
11.可选地,上述方法还包括:获取目标对象对所述语音音频的反馈信息,其中,所述反馈信息包括显性反馈和隐性反馈;根据所述反馈信息,维护所述目标多音字词汇库。
12.根据本发明实施例的另一方面,还提供了一种音频生成装置,包括:接收模块,用于接收目标对象的文本语音转换请求;响应模块,用于响应所述文本语音转换请求,获取目标文本和所述文本语音转换请求对应的目标渠道类别;确定模块,用于确定与所述目标渠道类别相匹配的目标多音字词汇库;生成模块,用于基于所述目标多音字词汇库,生成所述目标文本对应的语音音频。
13.根据本发明实施例的又一方面,还提供了一种非易失性存储介质,所述非易失性存储介质包括存储的程序,其中,在所述程序运行时控制所述非易失性存储介质所在设备执行上述任意一项所述音频生成方法。
14.根据本发明实施例的再一方面,还提供了一种计算机设备,所述计算机设备包括处理器,所述处理器用于运行程序,其中,所述程序运行时执行上述任意一项所述音频生成方法。
15.在本发明实施例中,通过接收目标对象的文本语音转换请求;响应文本语音转换请求,获取目标文本和文本语音转换请求对应的目标渠道类别;确定与目标渠道类别相匹配的目标多音字词汇库;基于目标多音字词汇库,生成目标文本对应的语音音频,达到了为目标对象将目标文本转换成语音音频的目的,从而实现了提高用户使用文本到语音功能时的多音字转换的准确性的技术效果,进而解决了用户使用文本到语音功能时,多音字的语音转换不准确的技术问题。
附图说明
16.此处所说明的附图用来提供对本发明的进一步理解,构成本技术的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
17.图1示出了一种用于实现音频生成方法的计算机终端的硬件结构框图;
18.图2是根据本发明实施例提供的音频生成方法的流程示意图;
19.图3是根据本发明可选实施方式提供的tts服务系统的流程示意图;
20.图4是根据本发明可选实施例提供的多音字词汇库的结构示意图;
21.图5是根据本发明可选实施例提供的多音字词汇库的示例图;
22.图6是根据本发明可选实施例提供的多音字词汇库构成方式的示意图;
23.图7是根据本发明实施例提供的音频生成装置的结构框图。
具体实施方式
24.为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
25.需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
26.首先,对本技术实施例进行描述的过程中出现的部分名词或者术语适用于如下解释:
27.文本到语音(text to speech,简称tts),一种为用户提供的功能,可以将文本转换为语音并朗读出来。
28.根据本发明实施例,提供了一种音频生成的方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
29.本技术实施例一所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。图1示出了一种用于实现音频生成方法的计算机终端的硬件结构框图。如图1所示,计算机终端10可以包括一个或多个(图中采用102a、102b,
……
,102n来示出)处理器(处理器可以包括但不限于微处理器mcu或可编程逻辑器件fpga等的处理装置)、用于存储数据的存储器104。除此以外,还可以包括:显示器、输入/输出接口(i/o接口)、通用串行总线(usb)端口(可以作为bus总线的端口中的一个端口被包括)、网络接口、电源和/或相机。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述电子装置的结构造成限定。例如,计算机终端10还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。
30.应当注意到的是上述一个或多个处理器和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外,数据处理电路可为单个独立的处理模块,或全部或部分的结合到计算机终端10中的其他元件中的任意一个内。如本技术实施例中所涉及到的,该数据处理电路作为一种处理器控制(例如与接口连接的可变电阻终端路径的选择)。
31.存储器104可用于存储应用软件的软件程序以及模块,如本发明实施例中的音频生成方法对应的程序指令/数据存储装置,处理器通过运行存储在存储器104内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的应用程序的音频生成方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至计算机终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
32.显示器可以例如触摸屏式的液晶显示器(lcd),该液晶显示器可使得用户能够与计算机终端10的用户界面进行交互。
33.图2是根据本发明实施例提供的音频生成方法的流程示意图,如图2所示,该方法
包括如下步骤:
34.步骤s202,接收目标对象的文本语音转换请求。
35.其中,目标对象可以是使用tts功能的用户,用户发出的文本语音转换请求可以是用户请求调用服务器或者终端设备的tts功能,实现本文到语音的转换。
36.步骤s204,响应文本语音转换请求,获取目标文本和文本语音转换请求对应的目标渠道类别。可选的,目标文本可以是由目标对象上传到服务器中的文本,目标对象希望将该段目标文本转换为语音并进行播报,也可以是根据目标对象的请求从网络或者数据库中下载的文本段落。目标渠道类别可以用于表示目标对象通过什么渠道向服务器发送文本语音转换请求,基于不同的渠道类别,可以区分不同的用户类型,并为不同的用户类型的用户提供个性化的tts服务。例如,不同的渠道类别可以对应不同的app服务,渠道类别可以包括文化类app、金融类app、科技类app等。
37.步骤s206,确定与目标渠道类别相匹配的目标多音字词汇库。
38.可选的,可以在平时维护与目标渠道类别对应的目标多音字词汇库,并在确定目标对象发送文本语音转换请求的渠道来源后,调用与之匹配的目标多音字词汇库来执行tts功能。
39.步骤s208,基于目标多音字词汇库,生成目标文本对应的语音音频。
40.通过上述步骤,可以达到了为目标对象将目标文本转换成语音音频的目的,从而实现了提高用户使用文本到语音功能时的多音字转换的准确性的技术效果,进而解决了用户使用文本到语音功能时,多音字的语音转换不准确的技术问题。
41.图3是根据本发明可选实施方式提供的tts服务系统的流程示意图。由图3可知,一个典型的tts服务系统可以包括文本格式化、分词处理、标音处理、语音合成等模块,结合tts服务系统的特点,可以在分词时采用非多音字词汇库和多音字词汇库进行分词,并在标音阶段根据之前选择的多音字字词库进行多音字标音,构建出整个tts服务系统。
42.具体的,输入文本经格式化处理后,通过非多音字词库与多音字词库的处理,将文本中的词条分离出来,其他的汉字按照单音字处理,通过中文语音库将其标音处理后,经语音合成输出语音。因此中文tts多音字系统的构建主要包含四个部分:一是中文汉字库的建立,二是分词处理,三是标音处理,四是语音合成。
43.中文汉字库的建立是中文tts实现的基础。tts服务系统根据《新华字典》,建立丰富的汉字库,包括10000余汉字的汉字库,主要包含汉字、各种数字字符串、常用符号(包括各种常用的外文字符,数字运算符号等)、缩写词(如ieee、hitml等)。
44.对于分词过程,由于汉语的词与词之间没有如英文那样的空白来分割,所以要进行分词,以便在语音合成输出时在词与词之间加入适当的停顿,模仿正常人在朗读文章时的效果。在此过程中,分词算法的选择和分词词库的设计对该环节有着决定性的作用。汉语的词汇可分为非多音字词汇与多音字词汇两大部分。
45.非多音字词汇是汉语词汇的主要构成,因此非多音字词汇库的建立是中文算法的关键因素。本tts服务系统可以选取中文词库《新华字典》中的2000条非多音字词条构成系统的非多音字词汇库。
46.图4是根据本发明可选实施例提供的多音字词汇库的结构示意图,如图4所示,多音字词汇库中的一个汉字可以组成多个词条,因此,本文将包含此汉字的词汇建成列表,并
建立相应词条发音的地址索引。非多音字与多音字词汇库为文本的分词提供词条及其标音处理提供音库地址索引。
47.在词库结构中,词汇列表是指包含此汉字的词汇表;词汇发音索引是指词汇列表中的词条的语音文件在语音库中的地址索引。这种词库结构中,有可能出现冗余信息,如词条“参差”,在汉字“参”中,出现词条“参差”,汉字“差”中,也有可能出现词条“参差”。为了避免出现这种冗余信息,本文以词条的第一个汉字作为构成词条的主要汉字,即词条“参差”出现在“参”的词汇列表中。
48.标音处理负责给句子的每一个汉字标注拼音、声调等音律信息。主要涉及单音字的标注、非多音字词汇、多音字词汇的标注以及声调等。
49.再进行单音字的标注时,单音字汉字是汉字的主要部分。在本系统中,主要指没有组成词汇的单音字。可选的,可以参考《新华字典》构造了一个汉字音库,存放了所有国标汉字的读音。在分词过程中,就可确定单音字的音律信息,标音处理时只需从音库中把它对应的读音取出即可。
50.图5是根据本发明可选实施例提供的多音字词汇库的示例图,如图5所示,每一个与“行”字相关的多音字词汇可以在词汇库中占据一个条目,条目中记录了这个词汇的各种信息。
51.作为一种可选的实施例,响应文本语音转换请求,获取文本语音转换请求对应的渠道类别,可以采用如下方式:响应文本语音转换请求,确定目标对象发送文本语音转换请求所采用的目标渠道;根据渠道分类规则,确定目标渠道对应的渠道类别为目标渠道类别;确定与目标渠道类别匹配的多音字词汇库为目标多音字词汇库。
52.可选的,目标渠道可以为目标对象发送文本语音转换请求所通过的网址、应用软件、小程序,或者服务现场的机器等。服务器接收到文本语音转换请求后,可以通过分析得知该请求的来源渠道是什么,以及该渠道的特征,进而根据预设的渠道分类规则对该目标渠道进行分类,得到该渠道的渠道类别。
53.图6是根据本发明可选实施例提供的多音字词汇库构成方式的示意图,如图6所示,不同垂直领域可以对应于不同的文本语音来源渠道,针对每个垂直领域可以获取个性化的多音字文件,作为多音字词汇库的生成素材。
54.作为一种可选的实施例,根据渠道分类规则,确定目标渠道对应的渠道类别为目标渠道类别,可以通过如下方式:获取目标渠道对应的渠道常用字词;分析渠道常用字词,得到目标渠道的渠道特征信息;根据渠道特征信息和渠道分类规则,确定目标渠道对应的目标渠道类别。可选的,目标渠道的渠道常用字词可以去渠道对应的地址或者渠道相关的样本文本中去提取,例如,在目标渠道为网站的情况下,可以去该网站爬取相应的常用字词,以供渠道分类使用。通过该方式,可以提高对渠道分类的准确性。可选的,渠道特征信息即为通过分析渠道常用字词所提炼的使用该渠道的用户的语言习惯相关的特征,例如其常用方言、是否常用网络流行语,或者该渠道的用户主要从事的行业等。
55.作为一种可选的实施例,确定与目标渠道类别匹配的多音字词汇库为目标多音字词汇库,可以通过如下方式:获取多个多音字词汇库各自的词汇库特征,其中,词汇库特征用于表示多音字词汇库适用的渠道类别;根据目标渠道类别与词汇库特征的匹配结果,确定多个多音字词汇库中与目标渠道类别匹配的目标多音字词汇库。
56.根据本可选的实施例,可以为在来自不同渠道类别的文本语音转换请求提供更加适用的多音字词汇库,使得文本语音转换过程与该渠道的特点更贴合,文本语音转换结果更加准确。需要说明的是,词汇库特征可以是根据不同多音字词汇库中的词汇进行机器学习得到的,也可以是根据该词汇库的特点预先指定的。可选的,可以将多个多音字词汇库分别输入词汇库特征提取模型,由模型输出各个多音字词汇库的词汇库特征,其中,词汇库特征提取模型可以是预先训练的机器学习模型,例如神经网络模型。
57.作为一种可选的实施例,为了确定与目标渠道类别相匹配的目标多音字词汇库,可以向目标渠道发送词汇库获取请求;接受目标渠道返回的词汇库为目标多音字词汇库。本可选实施例提供了一种词汇库的获取方式,支持从目标渠道中获取目标多音字词汇库,使得文本语音转换工作中使用的多音字词汇库更加贴合渠道的语言场景,转换结果更加准确。
58.作为一种可选的实施例,响应文本语音转换请求,获取目标文本和文本语音转换请求对应的目标渠道类别,包括:响应文本语音转换请求,获取目标文本;从目标文本中提取文本关键字;分析文本关键字,得到文本语音转换请求对应的目标渠道类别。
59.作为一种可选的实施例,还可以获取目标对象对语音音频的反馈信息,其中,反馈信息包括显性反馈和隐性反馈;根据反馈信息,维护目标多音字词汇库。
60.需要说明的是,用户行为在个性化推荐系统中可以按照反馈的明确性分为两种:显性反馈和隐性反馈,上述划分可以为按照用户行为数据进行划分。
61.其中,显性反馈行为(explicit feedback)包括用户明确表示对物品喜好的行为。常见收集显性反馈的主要方式就是评分和让用户点选喜欢/不喜欢。隐性反馈行为(implicit feedback)包括一些不能明确反应用户喜好的行为。最具代表性的隐性反馈行为就是页面浏览行为。按照反馈的方向分,又可以分为正反馈和负反馈,正反馈指用户的行为倾向于指用户喜欢该物品,负反馈指用户的行为倾向于指用户不喜欢该物品。
62.在显性反馈中,很容易区分一个用户行为是正反馈还是负反馈,而在隐性反馈行为中,就相对比较难以确定。
63.用户行为分析的过程中,在利用用户行为数据设计推荐算法之前,可以首先需要对用户行为数据进行分析,了解数据中蕴含的一般规律,这样才能对算法的设计起到指导作用。因此,上述可选实施例通过获取目标对象对语音音频的多种类型的反馈信息,可以便于词汇库维护人员后续对目标多音字词汇库进行更加有效的维护。
64.需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
65.通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的音频生成方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如rom/ram、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手
机,计算机,服务器,或者网络设备等)执行本发明各个实施例的方法。
66.根据本发明实施例,还提供了一种用于实施上述音频生成方法的音频生成装置,图7是根据本发明实施例提供的音频生成装置的结构框图,如图7所示,该音频生成装置包括:接收模块72,响应模块74,确定模块76和生成模块78,下面对该音频生成装置进行说明。
67.接收模块72,用于接收目标对象的文本语音转换请求;
68.响应模块74,连接于上述接收模块72,用于响应文本语音转换请求,获取目标文本和文本语音转换请求对应的目标渠道类别;
69.确定模块76,连接于上述响应模块74,用于确定与目标渠道类别相匹配的目标多音字词汇库;
70.生成模块78,连接于上述确定模块76,用于基于目标多音字词汇库,生成目标文本对应的语音音频。
71.此处需要说明的是,上述接收模块72,响应模块74,确定模块76和生成模块78对应于实施例中的步骤s202至步骤s208,多个模块与对应的步骤所实现的实例和应用场景相同,但不限于上述实施例所公开的内容。需要说明的是,上述模块作为装置的一部分可以运行在实施例提供的计算机终端10中。
72.本发明的实施例可以提供一种计算机设备,可选地,在本实施例中,上述计算机设备可以位于计算机网络的多个网络设备中的至少一个网络设备。该计算机设备包括存储器和处理器。
73.其中,存储器可用于存储软件程序以及模块,如本发明实施例中的音频生成方法和装置对应的程序指令/模块,处理器通过运行存储在存储器内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的音频生成方法。存储器可包括高速随机存储器,还可以包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器可进一步包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至计算机终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
74.处理器可以通过传输装置调用存储器存储的信息及应用程序,以执行下述步骤:接收目标对象的文本语音转换请求;响应文本语音转换请求,获取目标文本和文本语音转换请求对应的目标渠道类别;确定与目标渠道类别相匹配的目标多音字词汇库;基于目标多音字词汇库,生成目标文本对应的语音音频。
75.可选的,上述处理器还可以执行如下步骤的程序代码:响应文本语音转换请求,获取文本语音转换请求对应的渠道类别,包括:响应文本语音转换请求,确定目标对象发送文本语音转换请求所采用的目标渠道;根据渠道分类规则,确定目标渠道对应的渠道类别为目标渠道类别;确定与目标渠道类别匹配的多音字词汇库为目标多音字词汇库。
76.可选的,上述处理器还可以执行如下步骤的程序代码:根据渠道分类规则,确定目标渠道对应的渠道类别为目标渠道类别,包括:获取目标渠道对应的渠道常用字词;分析渠道常用字词,得到目标渠道的渠道特征信息;根据渠道特征信息和渠道分类规则,确定目标渠道对应的目标渠道类别。
77.可选的,上述处理器还可以执行如下步骤的程序代码:确定与目标渠道类别匹配的多音字词汇库为目标多音字词汇库,包括:获取多个多音字词汇库各自的词汇库特征,其
中,词汇库特征用于表示多音字词汇库适用的渠道类别;根据目标渠道类别与词汇库特征的匹配结果,确定多个多音字词汇库中与目标渠道类别匹配的目标多音字词汇库。
78.可选的,上述处理器还可以执行如下步骤的程序代码:确定与目标渠道类别相匹配的目标多音字词汇库,包括:向目标渠道发送词汇库获取请求;接受目标渠道返回的词汇库为目标多音字词汇库。
79.可选的,上述处理器还可以执行如下步骤的程序代码:响应文本语音转换请求,获取目标文本和文本语音转换请求对应的目标渠道类别,包括:响应文本语音转换请求,获取目标文本;从目标文本中提取文本关键字;分析文本关键字,得到文本语音转换请求对应的目标渠道类别。
80.可选的,上述处理器还可以执行如下步骤的程序代码:获取目标对象对语音音频的反馈信息,其中,反馈信息包括显性反馈和隐性反馈;根据反馈信息,维护目标多音字词汇库。
81.本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成,该程序可以存储于一非易失性存储介质中,存储介质可以包括:闪存盘、只读存储器(read-only memory,rom)、随机存取器(random access memory,ram)、磁盘或光盘等。
82.本发明的实施例还提供了一种非易失性存储介质。可选地,在本实施例中,上述非易失性存储介质可以用于保存上述实施例所提供的音频生成方法所执行的程序代码。
83.可选地,在本实施例中,上述非易失性存储介质可以位于计算机网络中计算机终端中的任意一个计算机终端中,或者位于移动终端中的任意一个移动终端中。
84.可选地,在本实施例中,非易失性存储介质被设置为存储用于执行以下步骤的程序代码:接收目标对象的文本语音转换请求;响应文本语音转换请求,获取目标文本和文本语音转换请求对应的目标渠道类别;确定与目标渠道类别相匹配的目标多音字词汇库;基于目标多音字词汇库,生成目标文本对应的语音音频。
85.可选地,在本实施例中,非易失性存储介质被设置为存储用于执行以下步骤的程序代码:响应文本语音转换请求,获取文本语音转换请求对应的渠道类别,包括:响应文本语音转换请求,确定目标对象发送文本语音转换请求所采用的目标渠道;根据渠道分类规则,确定目标渠道对应的渠道类别为目标渠道类别;确定与目标渠道类别匹配的多音字词汇库为目标多音字词汇库。
86.可选地,在本实施例中,非易失性存储介质被设置为存储用于执行以下步骤的程序代码:根据渠道分类规则,确定目标渠道对应的渠道类别为目标渠道类别,包括:获取目标渠道对应的渠道常用字词;分析渠道常用字词,得到目标渠道的渠道特征信息;根据渠道特征信息和渠道分类规则,确定目标渠道对应的目标渠道类别。
87.可选地,在本实施例中,非易失性存储介质被设置为存储用于执行以下步骤的程序代码:确定与目标渠道类别匹配的多音字词汇库为目标多音字词汇库,包括:获取多个多音字词汇库各自的词汇库特征,其中,词汇库特征用于表示多音字词汇库适用的渠道类别;根据目标渠道类别与词汇库特征的匹配结果,确定多个多音字词汇库中与目标渠道类别匹配的目标多音字词汇库。
88.可选地,在本实施例中,非易失性存储介质被设置为存储用于执行以下步骤的程
序代码:确定与目标渠道类别相匹配的目标多音字词汇库,包括:向目标渠道发送词汇库获取请求;接受目标渠道返回的词汇库为目标多音字词汇库。
89.可选地,在本实施例中,非易失性存储介质被设置为存储用于执行以下步骤的程序代码:响应文本语音转换请求,获取目标文本和文本语音转换请求对应的目标渠道类别,包括:响应文本语音转换请求,获取目标文本;从目标文本中提取文本关键字;分析文本关键字,得到文本语音转换请求对应的目标渠道类别。
90.可选地,在本实施例中,非易失性存储介质被设置为存储用于执行以下步骤的程序代码:获取目标对象对语音音频的反馈信息,其中,反馈信息包括显性反馈和隐性反馈;根据反馈信息,维护目标多音字词汇库。
91.上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
92.在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
93.在本技术所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
94.作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
95.另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
96.集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个非易失性取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括:u盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
97.以上仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

技术特征:


1.一种音频生成方法,其特征在于,包括:接收目标对象的文本语音转换请求;响应所述文本语音转换请求,获取目标文本和所述文本语音转换请求对应的目标渠道类别;确定与所述目标渠道类别相匹配的目标多音字词汇库;基于所述目标多音字词汇库,生成所述目标文本对应的语音音频。2.根据权利要求1所述的方法,其特征在于,所述响应所述文本语音转换请求,获取所述文本语音转换请求对应的渠道类别,包括:响应所述文本语音转换请求,确定所述目标对象发送所述文本语音转换请求所采用的目标渠道;根据渠道分类规则,确定所述目标渠道对应的渠道类别为所述目标渠道类别;确定与所述目标渠道类别匹配的多音字词汇库为所述目标多音字词汇库。3.根据权利要求2所述的方法,其特征在于,所述根据渠道分类规则,确定所述目标渠道对应的渠道类别为所述目标渠道类别,包括:获取所述目标渠道对应的渠道常用字词;分析所述渠道常用字词,得到所述目标渠道的渠道特征信息;根据所述渠道特征信息和渠道分类规则,确定所述目标渠道对应的所述目标渠道类别。4.根据权利要求2所述的方法,其特征在于,所述确定与所述目标渠道类别匹配的多音字词汇库为所述目标多音字词汇库,包括:获取多个多音字词汇库各自的词汇库特征,其中,所述词汇库特征用于表示多音字词汇库适用的渠道类别;根据所述目标渠道类别与所述词汇库特征的匹配结果,确定所述多个多音字词汇库中与所述目标渠道类别匹配的所述目标多音字词汇库。5.根据权利要求2所述的方法,其特征在于,所述确定与所述目标渠道类别相匹配的目标多音字词汇库,包括:向所述目标渠道发送词汇库获取请求;接受所述目标渠道返回的词汇库为所述目标多音字词汇库。6.根据权利要求1所述的方法,其特征在于,所述响应所述文本语音转换请求,获取目标文本和所述文本语音转换请求对应的目标渠道类别,包括:响应所述文本语音转换请求,获取所述目标文本;从所述目标文本中提取文本关键字;分析所述文本关键字,得到所述文本语音转换请求对应的所述目标渠道类别。7.根据权利要求1所述的方法,其特征在于,还包括:获取目标对象对所述语音音频的反馈信息,其中,所述反馈信息包括显性反馈和隐性反馈;根据所述反馈信息,维护所述目标多音字词汇库。8.一种音频生成装置,其特征在于,包括:接收模块,用于接收目标对象的文本语音转换请求;
响应模块,用于响应所述文本语音转换请求,获取目标文本和所述文本语音转换请求对应的目标渠道类别;确定模块,用于确定与所述目标渠道类别相匹配的目标多音字词汇库;生成模块,用于基于所述目标多音字词汇库,生成所述目标文本对应的语音音频。9.一种非易失性存储介质,其特征在于,所述非易失性存储介质包括存储的程序,其中,在所述程序运行时控制所述非易失性存储介质所在设备执行权利要求1至7中任意一项所述音频生成方法。10.一种计算机设备,其特征在于,所述计算机设备包括处理器,所述处理器用于运行程序,其中,所述程序运行时执行权利要求1至7中任意一项所述音频生成方法。

技术总结


本发明公开了一种音频生成方法、装置、非易失性存储介质及计算机设备。其中,该方法包括:接收目标对象的文本语音转换请求;响应文本语音转换请求,获取目标文本和文本语音转换请求对应的目标渠道类别;确定与目标渠道类别相匹配的目标多音字词汇库;基于目标多音字词汇库,生成目标文本对应的语音音频。本发明解决了用户使用文本到语音功能时,多音字的语音转换不准确的技术问题。转换不准确的技术问题。转换不准确的技术问题。


技术研发人员:

尹勇 罗涛

受保护的技术使用者:

中国工商银行股份有限公司

技术研发日:

2022.08.10

技术公布日:

2022/11/4

本文发布于:2024-09-20 16:48:17,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/1/12961.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:多音字   目标   渠道   所述
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议