用于智能广播的语音合成系统的制作方法



1.本发明涉及语音合成技术领域,尤其涉及一种用于智能广播的语音合成系统。


背景技术:



2.语音合成,又称文语转换(text to speech)技术,能将任意文字信息实时转化为标准流畅的语音朗读出来,是中文信息处理领域的一项前沿技术,解决的主要问题就是如何将文字信息转化为可听的声音信息,通过计算机进行语音合成可以在任何时候将任意文本转换成具有高自然度的语音,代替人工录音或人工实时播报进行声音信息的传输,从而真正实现让机器“像人一样开口说话”。
3.通过语音合成系统对广播信息进行语音合成和播报能够将繁琐耗时的播报工作从人工转为机器任务,一方面,缓解了广播播报人员不足的问题,另一方面,由于机器语音播报广播不受时间和地域限制,与人工播报相比,能够更加及时地进行紧急播报,从而在紧急播报方面优势显著。
4.中国专利公开号:cn112349268a公开了一种应急广播音频处理系统及其运行方法,包括依次连接的应急语音合成端、应急音频处理端和应急广播平台。应急语音合成端接收应急信息文稿,将应急信息文稿合成应急配音,发送给应急音频处理端。应急音频处理端接收应急配音,对其进行音频处理后,形成应急广播信息,发送给应急广播平台,应急广播平台接收并向用户播放应急广播信息。由此可见,上述技术方案利用语音合成技术训练的虚拟主播可代替专业人员,随时随地进行配音,不受专业设备、环境的限制,但是,其针对应急领域的文稿进行语音合成,文稿类型单一不适用于在社区广播、商业中心广播中对不同信息类型的广播。
5.中国专利公开号: cn111179901a公开了一种具有语音合成功能的广播系统,包括包括语音合成芯片xfs5152、电压监控芯片imp811reus-t、cortex-m3处理器stm32f103zet6,所述的语音合成芯片xfs5152的主通讯端口rxd、txd分别通过上拉电阻r13、r14与cortex-m3处理器stm32f103zet6连接,所述的语音合成芯片xfs5152的其他控制端口分别通过上拉电阻r11、r12与处理器stm32f103zet6直连。该技术方案能够将文本通过数字的方式合成语音音频的功能,支持中文语音合成,语音音调、音速调整,支持标点符号停顿,支持常用的电话号码、日期时间等格式的停顿,但是,其存在无法识别不同类型的广播信息文本,无法根据对应的广播信息文本的类别采用针对性的语音合成方式进行语音合成的弊端。


技术实现要素:



6.为此,本发明提供一种用于智能广播的语音合成系统,用以克服现有技术中无法根据对应的广播信息文本的类型采用针对性的语音合成方式进行语音合成以及音频播放的问题。
7.为实现上述目的,本发明提供一种用于智能广播的语音合成系统,包括:
广播信息输入端,其分别与本地网络以及云端互联网相连,用以接收需进行广播的广播文本信息或广播语音信息并能够将接收到的广播文本信息或广播语音信息转化至预定格式的广播文字文本;文本分析模块,其与所述广播信息输入端相连,用以分析所述广播文字文本的语义以确定所述广播文字文本的广播信息类型并对所述广播文字文本的预计语音合成时间进行预估,文本分析模块能够通过识别所述广播文字文本的语法对所述广播文字文本进行语句纠错并通过语义识别将所述广播文字文本进行压缩以形成对应的广播重点文字文本或广播关键文字文本;语音合成模块,其分别与所述广播信息输入端以及所述文本分析模块相连,用以对接收到的所述文本分析模块处理后的广播文字文本进行语音合成以形成语音音频文件;广播控制模块,其分别与所述广播信息输入端、所述文本分析模块以及所述语音合成模块相连,用以根据所述文本分析模块识别到广播文字文本对应广播信息类型和预计语音合成时间对广播文字文本的语音合成是否需要进行加速进行判定,并根据识别到广播文字文本对应广播信息类型为合成后的语音音频选择对应的播放音量和播放速度;广播语音输出端,其分别与所述语音合成模块、所述文本分析模块以及所述广播控制模块相连,用以在所述广播控制模块的控制下将所述语音合成模块生成的语音广播数据进行播放。
8.进一步地,所述文本分析模块包括语义分析模块和文字处理模块,所述语义分析模块,其与所述广播信息输入端相连,用以通过分析所述广播信息输入端传递的广播文字文本的语义以识别所述广播文字文本的广播信息类型并且确定所述广播文字文本中的重点语句和关键语句;所述文本分析模块,其分别与所述语义分析模块以及所述语音合成模块相连,用以通过语法分析将所述广播文字文本的文字语句进行语句纠错以使所述广播文字文本的文字语句符合语言表述规范,所述文本分析模块能够根据对所述广播文字文本的语段分析确定该广播文字文本的预计语音合成时间并且能够根据所述语义分析模块确定的所述广播文字文本中的重点语句和关键语句生成对应的广播重点文字文本和广播关键文字文本。
9.进一步地,所述广播信息类型根据广播紧急程度包括一般通知、时效通知、紧急通知和即刻通知。
10.进一步地,所述广播控制模块设置有第一语音合成时间标准t1、第二语音合成时间标准t2、第三语音合成时间标准t3和第四语音合成时间标准t4,其中,120min>t1>60min>t2>30min>t3>3min>t4>0.5min,当所述广播控制模块识别到所述广播信息输入端接收到需进行广播的广播文本信息或广播语音信息时,所述广播控制模块控制所述广播信息输入端将接收到的广播文本信息或广播语音信息转化预定格式的广播文字文本并传递至所述文本分析模块,所述广播控制模块根据所述文本分析模块识别到的广播文字文本的广播信息类型确定其对应的语音合成时间标准以对广播文字文本的处理情况进行判定,当广播文字文本的广播信息类型为一般通知时,所述广播控制模块判定采用第一语音合成时间标准t1作为该广播文字文本的语音合成时间标准;当广播文字文本的广播信息类型为时效通知时,所述广播控制模块判定采用第二
语音合成时间标准t2作为该广播文字文本的语音合成时间标准;当广播文字文本的广播信息类型为紧急通知时,所述广播控制模块判定采用第三语音合成时间标准t3作为该广播文字文本的语音合成时间标准;当广播文字文本的广播信息类型为即刻通知时,所述广播控制模块判定采用第四语音合成时间标准t4作为该广播文字文本的语音合成时间标准。
11.进一步地,所述广播控制模块设置有语音合成方式判断逻辑,所述语音合成方式判断逻辑通过将广播文字文本的广播信息类型与对应的语音合成时间标准进行比对用以确定该广播文字文本的语音合成方式,所述语音合成方式判断逻辑包括:当所述广播控制模块判定采用第i语音合成时间标准ti作为某一广播文字文本的语音合成时间标准时,其中,i=1,2,3,所述广播控制模块控制所述文本分析模块计算该广播文字文本的预计语音合成时间t1并将t1与ti进行比对以确定该广播文字文本的语音合成方式,当t1≤ti时,所述广播控制模块判定预计语音合成时长符合标准并采用标准语音合成方式对该广播文字文本的全部内容进行语音合成后进行播放;当t1>ti时,所述广播控制模块判定预计语音合成时长不符合标准并采用加速语音合成方式对该广播文字文本的重点内容进行语音合成后进行播放。
12.进一步地,所述广播控制模块设置有第一超时百分比标准a1、第二超时百分比标准a2、第一文本压缩系数α1、第二文本压缩系数α2和第三文本压缩系数α3,其中,100%<a1<200%<a2<300%,0.3<α3<0.5<α2<0.8<α1<1,当所述广播控制模块判定采用加速语音合成方式对该广播文字文本的重点内容进行语音合成时,所述广播控制模块根据t1与其语音合成时间标准ti的比值a确定对该广播文字文本内容的压缩量以得到该广播文字文本的重点内容,设定a=t1/ti,当a≤a1时,所述广播控制模块判定该广播文字文本的语音合成时间低于超时标准并采用第一文本压缩系数α1对该广播文字文本内容的压缩量进行调节;当a1<a<a2时,所述广播控制模块判定该广播文字文本的语音合成时间符合超时标准并采用第二文本压缩系数α2对该广播文字文本内容的压缩量进行调节;当a≥a2时,所述广播控制模块判定该广播文字文本的语音合成时间高于超时标准并采用第三文本压缩系数α3对该广播文字文本内容的压缩量进行调节;当所述广播控制模块判定采用第j文本压缩系数αj对该广播文字文本内容的压缩量进行调节时,设定j=1,2,3,所述广播控制模块控制所述文本分析模块按压缩量要求提取该广播文字文本的重点内容以将该广播文字文本压缩生成该广播重点文字文本,设定该广播重点文字文本内容中的语句总数为m1,设定m1=m0
×
αj且m1为向下取整的正整数,其中,m0为压缩前该广播文字文本内容中的语句总数。
13.进一步地,所述广播控制模块设置有加速损失时间计算系数μ,其中,0.6<μ<0.9,当所述广播控制模块判定采用加速语音合成方式控制所述文本分析模块生成该广播重点文字文本时,所述广播控制模块控制文本分析模块对生成的广播重点文字文本的预计语音合成时间t2进行计算并将t2与该广播重点文字文本对应的加速合成时间标准ti’进行比对以确定生成的广播重点文字文本是否符合加速标准,设定ti’=ti
×
μ,当t2≤ti’时,所述广播控制模块判定生成的广播重点文字文本符合加速标准且
本次加速有效,所述广播控制模块控制所述文本分析模块将生成的广播重点文字文本传递至所述语音合成模块进行语音合成后播放;当t2>ti’时,所述广播控制模块判定生成的广播重点文字文本不符合加速标准且本次加速无效,所述广播控制模块判定重新对该广播文字文本进行压缩以形成广播关键文字文本,所述广播控制模块控制所述文本分析模块将生成的广播关键文字文本传递至所述语音合成模块进行语音合成后播放。
14.进一步地,所述语义分析模块设置有关键信息提取方法用以提取广播文字文本的关键信息,当所述广播控制模块判定重新对该广播文字文本进行压缩以形成广播关键文字文本时,所述广播控制模块控制所述语义分析模块采用关键信息提取方法提取该广播文字文本的关键信息以生成广播关键文字文本;所述关键信息提取方法采用5w信息提取法,所述5w信息提取法为提取文字信息中的时间信息、地点信息、人物信息、事件信息以及原因信息并整合形成语言通顺的完整语句。
15.进一步地,所述语音合成方式判断逻辑还包括:当所述广播控制模块判定采用第四语音合成时间标准t4作为某一广播文字文本的语音合成时间标准时,所述广播控制模块控制所述广播语音输出端播放一段预制的紧急通知音频以提高人员注意力,同时所述广播控制模块控制所述文本分析模块识别该广播文字文本的字数q并根据q确定针对该广播文字文本的播放方式,所述广播控制模块设置有紧急播放字数标准q0,其中,10<q0<50,当q≤q0时,所述广播控制模块判定该广播文字文本的字数少,所述广播控制模块控制所述语音合成模块对该广播文字文本的全部内容进行语音合成;当q>q0时,所述广播控制模块判定该广播文字文本的字数多,所述广播控制模块控制所述文本分析模块生成该广播文字文本的广播关键文字文本并控制所述语音合成模块对所述广播关键文字文本进行语音合成。
16.进一步地,所述广播控制模块设置有第一广播类型播放调节系数β1、第二广播类型播放调节系数β2、第三广播类型播放调节系数β3和第四广播类型播放调节系数β4,其中,0.8<β1<1<β2<1.1<β3<1.3<β4<1.5,当所述语音合成模块完成对接收到的文字文本的语音合成并生成对应某一广播文字文本的语音音频时,所述广播控制模块根据该语音音频对应广播文字文本的广播信息类型确定本次广播的播放方式,当该语音音频对应广播文字文本的广播信息类型为一般通知时,所述广播控制模块判定采用第一广播类型播放调节系数β1对该语音音频的播放音量和播放速度进行调节;当该语音音频对应广播文字文本的广播信息类型为时效通知时,所述广播控制模块判定采用第二广播类型播放调节系数β2对该语音音频的播放音量和播放速度进行调节;当该语音音频对应广播文字文本的广播信息类型为紧急通知时,所述广播控制模块判定采用第三广播类型播放调节系数β3对该语音音频的播放音量和播放速度进行调节;当该语音音频对应广播文字文本的广播信息类型为即刻通知时,所述广播控制模块判定采用第四广播类型播放调节系数β4对该语音音频的播放音量和播放速度进行调节;当所述广播控制模块判定采用第k广播类型播放调节系数βk对该语音音频的播放音量和播放速度进行调节时,所述广播控制模块将调节后的该语音音频的播放音量记为
b’,将调节后的该语音音频的播放速度记为h’,设定b’=b0
×
βk,h’=h0
×
βk,其中,b0为预设的广播初始音量,h0为预设的广播初始语音播放速度。
17.进一步地,所述用于智能广播的语音合成系统还包括语音合成数据库模块和语音合成控制模块,其中,所述语音合成数据库模块,其与所述语音合成模块相连,用以存储所述语音合成模块需要的若干语种合成规则、若干语种合成方法以及若干类型主播音信息以为所述语音合成模块的语音合成提供数据支持;所述语音合成控制模块,其分别与所述语音合成模块以及所述语音合成数据库模块相连,用以根据用户设置控制所述语音合成模块根据用户设定的语音合成语种类别和语音合成主播类型将需进行语音合成的文字文本进行语音合成以生成语音音频文件。
18.进一步地,所述语音合成语种类别包括中文合成、英文合成、小语种特殊合成以及方言合成,所述语音合成主播类型包括新闻播报型、销售促销型和舒缓安抚型;所述语音合成控制模块能够设置默认语音合成语种类别和默认语音合成主播类型,并且能够通过在所述广播控制模块的人机交互界面通过选择语音合成语种类别和/或语音合成主播类型确定单次广播的语音合成方式。
19.进一步地,所述广播信息输入端包括信息接收单元和格式转化单元,其中,所述信息接收单元,其与外界网络以及信息接收端口相连,用以接收需进行广播的广播文本信息或广播语音信息;所述格式转化单元,其分别与所述信息接收单元以及所述语义分析模块相连,用以将接收到的广播文本信息或广播语音信息转化预定格式的广播文字文本,所述格式转化单元设置有语音转化装置用以将接收到的广播语音信息转化为对应语言类型的文字信息;所述广播信息输入端接收的广播文本信息或广播语音信息的语言类型包括中文、英文以及若干小语种语言。
20.与现有技术相比,本发明的有益效果在于,本发明通过设置有文本分析模块和广播控制模块,能够根据广播文本信息或广播语音信息的语义内容对该次广播的语音合成方式和广播方式进行针对性设定,有效的保证了本发明用于智能广播的语音合成系统能够实现根据对应的广播信息文本的类型采用针对性的语音合成方式进行语音合成以及音频播放。
21.进一步地,本发明通过设置文本分析模块对接收到的广播文字文本进行语义和语法分析以确定广播文字文本的广播信息类型并根据识别到的广播文字文本广播信息类型确定对应的语音合成方式,通过首先根据广播文字文本的语义判断广播信息类型,在识别到广播文字文本的语义为具备时效的广播信息类型时,通过预判语音合成时间保证了单次语音合成后的广播符合语音合成时间要求,有效的保证本发明能够根据识别广播信息文本的广播信息类型以进行语音合成以及广播播放。
22.进一步地,本发明通过设置有与广播信息类型对应的语音合成时间标准以对广播文字文本的处理情况进行判定,通过设置有符合广播信息类型的语音合成时间标准以支持后续对该广播文字文本的语音合成方式的判定,有效的保证了本发明能够根据广播文字文本的广播信息类型采用对应的语音合成时间标准对该广播文字文本的语音合成方式进行判定,有效地支持了后续根据语音合成标准判定该该广播文字文本的语音合成方式能够根
据广播信息类型的不同进行针对性的判定。
23.进一步地,本发明通过设置有超时百分比标准以及文本压缩系数用以对需要采用加速语音合成方式对该广播文字文本的重点内容进行语音合成时对该广播文字文本内容的压缩量进行确定,通过设定超时百分比标准对广播文字文本的语音合成时间进行超时判定,并设定有与超时百分比标准对应的的文本压缩系数以调整该广播文字文本内容的压缩量,有效的根据实际广播文字文本的超时情况调节该广播文字文本内容的压缩量,保证调整后的该广播文字文本内容在符合时间标准的同时能够尽量保留较高的原文符合程度,保证了本发明所述用于智能广播的语音合成系统在采用加速语音合成方式进行语音合成时能够保证语音合成时间要求,并且采用本发明用于智能广播的语音合成系统在语音合成后语音音频文件的内容与原需广播的内容具有较好的还原程度。
24.进一步地,本发明通过设置有加速损失时间系数对采用加速语音合成方式生成的该广播重点文字文本的语音合成时间标准进行调整以生成加速合成时间标准,并通过将生成的该广播重点文字文本的预计语音合成时间与加速合成时间标准进行比对确定本次生成的广播重点文字文本是否符合加速标准,有效的保证了本发明用于智能广播的语音合成系统在采用加速语音合成的方式对广播重点文字文本进行压缩后,能够考虑压缩文本占用的时间设定对应的加速损失时间系数调整后续判断的加速时间标准,并通过判断生成的广播重点文字文本是否符合加速时间标准确定是否采取进一步地文本压缩方式处理该广播文字文本。
25.进一步地,本发明通过设置有语音合成方式判断逻辑用以对不同广播信息类型的广播文字文本采用不同的语音合成方式,在判定采用第四语音合成时间标准t4作为某一广播文字文本的语音合成时间标准时,所述广播控制模块控制所述广播语音输出端播放一段预制的紧急通知音频以提高人员注意力,同时所述广播控制模块控制所述文本分析模块识别该广播文字文本的字数并根据确定针对该广播文字文本的播放方式,其通过在判断该广播文字文本的广播信息类型为即刻通知时直接对该广播文字文本的字数进行判定,避免了识别预计语音合成时间造成的处理时间过长的问题,通过简化判定步骤从而对广播信息类型为即刻通知的广播文字文本进行语音合成和广播,保证了即刻通知型的广播能够采用最快速的广播方式通知到受众人,保证了本发明用于智能广播的语音合成系统能够根据识别广播信息文本的广播信息类型进行针对性的语音合成方式。
26.进一步地,本发明通过设置有与广播信息类型对应的广播音频的播放音量和播放速度调节系数,在识别到紧急通知或即刻通知时,通过调节为较高的音量和音频播放速度对受众人进行广播,保证了广播能够达到更好的通知效果,进一步有效的保证了本发明用于智能广播的语音合成系统能够根据识别广播信息文本的广播信息类型进行针对性广播播放。
附图说明
27.图1为本发明用于智能广播的语音合成系统的结构框图;图2为本发明文本分析模块的工作示意图;图3为本发明语音合成方式判断逻辑图。
具体实施方式
28.为了使本发明的目的和优点更加清楚明白,下面结合实施例对本发明作进一步描述;应当理解,此处所描述的具体实施例仅仅用于解释本发明,并不用于限定本发明。
29.下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是,这些实施方式仅仅用于解释本发明的技术原理,并非在限制本发明的保护范围。
30.需要说明的是,在本发明的描述中,术语“上”、“下”、“左”、“右”、“内”、“外”等指示的方向或位置关系的术语是基于附图所示的方向或位置关系,这仅仅是为了便于描述,而不是指示或暗示所述装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
31.此外,还需要说明的是,在本发明的描述中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域技术人员而言,可根据具体情况理解上述术语在本发明中的具体含义。
32.请参阅图1所示,其为本发明用于智能广播的语音合成系统的结构框图,本发明提供一种用于智能广播的语音合成系统,包括:广播信息输入端,其分别与本地网络以及云端互联网相连,用以接收需进行广播的广播文本信息或广播语音信息并能够将接收到的广播文本信息或广播语音信息转化至预定格式的广播文字文本;文本分析模块,其与所述广播信息输入端相连,用以分析所述广播文字文本的语义以确定所述广播文字文本的广播信息类型并对所述广播文字文本的预计语音合成时间进行预估,文本分析模块能够通过识别所述广播文字文本的语法对所述广播文字文本进行语句纠错并通过语义识别将所述广播文字文本进行压缩以形成对应的广播重点文字文本或广播关键文字文本;语音合成模块,其分别与所述广播信息输入端以及所述文本分析模块相连,用以对接收到的所述文本分析模块处理后的广播文字文本进行语音合成以形成语音音频文件;广播控制模块,其分别与所述广播信息输入端、所述文本分析模块以及所述语音合成模块相连,用以根据所述文本分析模块识别到广播文字文本对应广播信息类型和预计语音合成时间对广播文字文本的语音合成是否需要进行加速进行判定,并根据识别到广播文字文本对应广播信息类型为合成后的语音音频选择对应的播放音量和播放速度;广播语音输出端,其分别与所述语音合成模块、所述文本分析模块以及所述广播控制模块相连,用以在所述广播控制模块的控制下将所述语音合成模块生成的语音广播数据进行播放。
33.本发明通过设置有文本分析模块和广播控制模块,能够根据广播文本信息或广播语音信息的语义内容对该次广播的语音合成方式和广播方式进行针对性设定,有效的保证了本发明用于智能广播的语音合成系统能够实现根据对应的广播信息文本的类型采用针对性的语音合成方式进行语音合成以及音频播放。
34.请参阅图2所示,其为本发明文本分析模块的工作示意图,所述文本分析模块包括语义分析模块和文字处理模块,
所述语义分析模块,其与所述广播信息输入端相连,用以通过分析所述广播信息输入端传递的广播文字文本的语义以识别所述广播文字文本的广播信息类型并且确定所述广播文字文本中的重点语句和关键语句;所述文本分析模块,其分别与所述语义分析模块以及所述语音合成模块相连,用以通过语法分析将所述广播文字文本的文字语句进行语句纠错以使所述广播文字文本的文字语句符合语言表述规范,所述文本分析模块能够根据对所述广播文字文本的语段分析确定该广播文字文本的预计语音合成时间并且能够根据所述语义分析模块确定的所述广播文字文本中的重点语句和关键语句生成对应的广播重点文字文本和广播关键文字文本。
35.具体而言,所述广播信息类型根据广播紧急程度包括一般通知、时效通知、紧急通知和即刻通知。
36.本发明通过设置文本分析模块对接收到的广播文字文本进行语义和语法分析以确定广播文字文本的广播信息类型并根据识别到的广播文字文本广播信息类型确定对应的语音合成方式,通过首先根据广播文字文本的语义判断广播信息类型,在识别到广播文字文本的语义为具备时效的广播信息类型时,通过预判语音合成时间保证了单次语音合成后的广播符合语音合成时间要求,有效的保证本发明能够根据识别广播信息文本的广播信息类型以进行语音合成以及广播播放。
37.具体而言,所述广播控制模块设置有第一语音合成时间标准t1、第二语音合成时间标准t2、第三语音合成时间标准t3和第四语音合成时间标准t4,其中,120min>t1>60min>t2>30min>t3>3min>t4>0.5min,当所述广播控制模块识别到所述广播信息输入端接收到需进行广播的广播文本信息或广播语音信息时,所述广播控制模块控制所述广播信息输入端将接收到的广播文本信息或广播语音信息转化预定格式的广播文字文本并传递至所述文本分析模块,所述广播控制模块根据所述文本分析模块识别到的广播文字文本的广播信息类型确定其对应的语音合成时间标准以对广播文字文本的处理情况进行判定,当广播文字文本的广播信息类型为一般通知时,所述广播控制模块判定采用第一语音合成时间标准t1作为该广播文字文本的语音合成时间标准;当广播文字文本的广播信息类型为时效通知时,所述广播控制模块判定采用第二语音合成时间标准t2作为该广播文字文本的语音合成时间标准;当广播文字文本的广播信息类型为紧急通知时,所述广播控制模块判定采用第三语音合成时间标准t3作为该广播文字文本的语音合成时间标准;当广播文字文本的广播信息类型为即刻通知时,所述广播控制模块判定采用第四语音合成时间标准t4作为该广播文字文本的语音合成时间标准。
38.本发明通过设置有与广播信息类型对应的语音合成时间标准以对广播文字文本的处理情况进行判定,通过设置有符合广播信息类型的语音合成时间标准以支持后续对该广播文字文本的语音合成方式的判定,有效的保证了本发明能够根据广播文字文本的广播信息类型采用对应的语音合成时间标准对该广播文字文本的语音合成方式进行判定,有效地支持了后续根据语音合成标准判定该该广播文字文本的语音合成方式能够根据广播信息类型的不同进行针对性的判定。
39.请参阅图3所示,其为本发明语音合成方式判断逻辑图,所述广播控制模块设置有
语音合成方式判断逻辑,所述语音合成方式判断逻辑通过将广播文字文本的广播信息类型与对应的语音合成时间标准进行比对用以确定该广播文字文本的语音合成方式,所述语音合成方式判断逻辑包括:当所述广播控制模块判定采用第i语音合成时间标准ti作为某一广播文字文本的语音合成时间标准时,其中,i=1,2,3,所述广播控制模块控制所述文本分析模块计算该广播文字文本的预计语音合成时间t1并将t1与ti进行比对以确定该广播文字文本的语音合成方式,当t1≤ti时,所述广播控制模块判定预计语音合成时长符合标准并采用标准语音合成方式对该广播文字文本的全部内容进行语音合成后进行播放;当t1>ti时,所述广播控制模块判定预计语音合成时长不符合标准并采用加速语音合成方式对该广播文字文本的重点内容进行语音合成后进行播放。
40.具体而言,所述广播控制模块设置有第一超时百分比标准a1、第二超时百分比标准a2、第一文本压缩系数α1、第二文本压缩系数α2和第三文本压缩系数α3,其中,100%<a1<200%<a2<300%,0.3<α3<0.5<α2<0.8<α1<1,当所述广播控制模块判定采用加速语音合成方式对该广播文字文本的重点内容进行语音合成时,所述广播控制模块根据t1与其语音合成时间标准ti的比值a确定对该广播文字文本内容的压缩量以得到该广播文字文本的重点内容,设定a=t1/ti,当a≤a1时,所述广播控制模块判定该广播文字文本的语音合成时间低于超时标准并采用第一文本压缩系数α1对该广播文字文本内容的压缩量进行调节;当a1<a<a2时,所述广播控制模块判定该广播文字文本的语音合成时间符合超时标准并采用第二文本压缩系数α2对该广播文字文本内容的压缩量进行调节;当a≥a2时,所述广播控制模块判定该广播文字文本的语音合成时间高于超时标准并采用第三文本压缩系数α3对该广播文字文本内容的压缩量进行调节;当所述广播控制模块判定采用第j文本压缩系数αj对该广播文字文本内容的压缩量进行调节时,设定j=1,2,3,所述广播控制模块控制所述文本分析模块按压缩量要求提取该广播文字文本的重点内容以将该广播文字文本压缩生成该广播重点文字文本,设定该广播重点文字文本内容中的语句总数为m1,设定m1=m0
×
αj且m1为向下取整的正整数,其中,m0为压缩前该广播文字文本内容中的语句总数。
41.本发明通过设置有超时百分比标准以及文本压缩系数用以对需要采用加速语音合成方式对该广播文字文本的重点内容进行语音合成时对该广播文字文本内容的压缩量进行确定,通过设定超时百分比标准对广播文字文本的语音合成时间进行超时判定,并设定有与超时百分比标准对应的的文本压缩系数以调整该广播文字文本内容的压缩量,有效的根据实际广播文字文本的超时情况调节该广播文字文本内容的压缩量,保证调整后的该广播文字文本内容在符合时间标准的同时能够尽量保留较高的原文符合程度,保证了本发明所述用于智能广播的语音合成系统在采用加速语音合成方式进行语音合成时能够保证语音合成时间要求,并且采用本发明用于智能广播的语音合成系统在语音合成后语音音频文件的内容与原需广播的内容具有较好的还原程度。
42.具体而言,所述广播控制模块设置有加速损失时间计算系数μ,其中,0.6<μ<0.9,当所述广播控制模块判定采用加速语音合成方式控制所述文本分析模块生成该广播
重点文字文本时,所述广播控制模块控制文本分析模块对生成的广播重点文字文本的预计语音合成时间t2进行计算并将t2与该广播重点文字文本对应的加速合成时间标准ti’进行比对以确定生成的广播重点文字文本是否符合加速标准,设定ti’=ti
×
μ,当t2≤ti’时,所述广播控制模块判定生成的广播重点文字文本符合加速标准且本次加速有效,所述广播控制模块控制所述文本分析模块将生成的广播重点文字文本传递至所述语音合成模块进行语音合成后播放;当t2>ti’时,所述广播控制模块判定生成的广播重点文字文本不符合加速标准且本次加速无效,所述广播控制模块判定重新对该广播文字文本进行压缩以形成广播关键文字文本,所述广播控制模块控制所述文本分析模块将生成的广播关键文字文本传递至所述语音合成模块进行语音合成后播放。
43.本发明通过设置有加速损失时间系数对采用加速语音合成方式生成的该广播重点文字文本的语音合成时间标准进行调整以生成加速合成时间标准,并通过将生成的该广播重点文字文本的预计语音合成时间与加速合成时间标准进行比对确定本次生成的广播重点文字文本是否符合加速标准,有效的保证了本发明用于智能广播的语音合成系统在采用加速语音合成的方式对广播重点文字文本进行压缩后,能够考虑压缩文本占用的时间设定对应的加速损失时间系数调整后续判断的加速时间标准,并通过判断生成的广播重点文字文本是否符合加速时间标准确定是否采取进一步地文本压缩方式处理该广播文字文本。
44.具体而言,所述语义分析模块设置有关键信息提取方法用以提取广播文字文本的关键信息,当所述广播控制模块判定重新对该广播文字文本进行压缩以形成广播关键文字文本时,所述广播控制模块控制所述语义分析模块采用关键信息提取方法提取该广播文字文本的关键信息以生成广播关键文字文本;所述关键信息提取方法采用5w信息提取法,所述5w信息提取法为提取文字信息中的时间信息、地点信息、人物信息、事件信息以及原因信息并整合形成语言通顺的完整语句。
45.请继续参阅图3所示,所述语音合成方式判断逻辑还包括:当所述广播控制模块判定采用第四语音合成时间标准t4作为某一广播文字文本的语音合成时间标准时,所述广播控制模块控制所述广播语音输出端播放一段预制的紧急通知音频以提高人员注意力,同时所述广播控制模块控制所述文本分析模块识别该广播文字文本的字数q并根据q确定针对该广播文字文本的播放方式,所述广播控制模块设置有紧急播放字数标准q0,其中,10<q0<50,当q≤q0时,所述广播控制模块判定该广播文字文本的字数少,所述广播控制模块控制所述语音合成模块对该广播文字文本的全部内容进行语音合成;当q>q0时,所述广播控制模块判定该广播文字文本的字数多,所述广播控制模块控制所述文本分析模块生成该广播文字文本的广播关键文字文本并控制所述语音合成模块对所述广播关键文字文本进行语音合成。
46.本发明通过设置有语音合成方式判断逻辑用以对不同广播信息类型的广播文字文本采用不同的语音合成方式,在判定采用第四语音合成时间标准t4作为某一广播文字文本的语音合成时间标准时,所述广播控制模块控制所述广播语音输出端播放一段预制的紧急通知音频以提高人员注意力,同时所述广播控制模块控制所述文本分析模块识别该广播
文字文本的字数并根据确定针对该广播文字文本的播放方式,其通过在判断该广播文字文本的广播信息类型为即刻通知时直接对该广播文字文本的字数进行判定,避免了识别预计语音合成时间造成的处理时间过长的问题,通过简化判定步骤从而对广播信息类型为即刻通知的广播文字文本进行语音合成和广播,保证了即刻通知型的广播能够采用最快速的广播方式通知到受众人,保证了本发明用于智能广播的语音合成系统能够根据识别广播信息文本的广播信息类型进行针对性的语音合成方式。
47.具体而言,所述广播控制模块设置有第一广播类型播放调节系数β1、第二广播类型播放调节系数β2、第三广播类型播放调节系数β3和第四广播类型播放调节系数β4,其中,0.8<β1<1<β2<1.1<β3<1.3<β4<1.5,当所述语音合成模块完成对接收到的文字文本的语音合成并生成对应某一广播文字文本的语音音频时,所述广播控制模块根据该语音音频对应广播文字文本的广播信息类型确定本次广播的播放方式,当该语音音频对应广播文字文本的广播信息类型为一般通知时,所述广播控制模块判定采用第一广播类型播放调节系数β1对该语音音频的播放音量和播放速度进行调节;当该语音音频对应广播文字文本的广播信息类型为时效通知时,所述广播控制模块判定采用第二广播类型播放调节系数β2对该语音音频的播放音量和播放速度进行调节;当该语音音频对应广播文字文本的广播信息类型为紧急通知时,所述广播控制模块判定采用第三广播类型播放调节系数β3对该语音音频的播放音量和播放速度进行调节;当该语音音频对应广播文字文本的广播信息类型为即刻通知时,所述广播控制模块判定采用第四广播类型播放调节系数β4对该语音音频的播放音量和播放速度进行调节;当所述广播控制模块判定采用第k广播类型播放调节系数βk对该语音音频的播放音量和播放速度进行调节时,所述广播控制模块将调节后的该语音音频的播放音量记为b’,将调节后的该语音音频的播放速度记为h’,设定b’=b0
×
βk,h’=h0
×
βk,其中,b0为预设的广播初始音量,h0为预设的广播初始语音播放速度。
48.本发明通过设置有与广播信息类型对应的广播音频的播放音量和播放速度调节系数,在识别到紧急通知或即刻通知时,通过调节为较高的音量和音频播放速度对受众人进行广播,保证了广播能够达到更好的通知效果,进一步有效的保证了本发明用于智能广播的语音合成系统能够根据识别广播信息文本的广播信息类型进行针对性广播播放。
49.具体而言,所述用于智能广播的语音合成系统还包括语音合成数据库模块和语音合成控制模块,其中,所述语音合成数据库模块,其与所述语音合成模块相连,用以存储所述语音合成模块需要的若干语种合成规则、若干语种合成方法以及若干类型主播音信息以为所述语音合成模块的语音合成提供数据支持;所述语音合成控制模块,其分别与所述语音合成模块以及所述语音合成数据库模块相连,用以根据用户设置控制所述语音合成模块根据用户设定的语音合成语种类别和语音合成主播类型将需进行语音合成的文字文本进行语音合成以生成语音音频文件。
50.具体而言,所述语音合成语种类别包括中文合成、英文合成、小语种特殊合成以及方言合成,所述语音合成主播类型包括新闻播报型、销售促销型和舒缓安抚型;所述语音合成控制模块能够设置默认语音合成语种类别和默认语音合成主播类型,并且能够通过在所述广播控制模块的人机交互界面通过选择语音合成语种类别和/或
语音合成主播类型确定单次广播的语音合成方式。
51.具体而言,所述广播信息输入端包括信息接收单元和格式转化单元,其中,所述信息接收单元,其与外界网络以及信息接收端口相连,用以接收需进行广播的广播文本信息或广播语音信息;所述格式转化单元,其分别与所述信息接收单元以及所述语义分析模块相连,用以将接收到的广播文本信息或广播语音信息转化预定格式的广播文字文本,所述格式转化单元设置有语音转化装置用以将接收到的广播语音信息转化为对应语言类型的文字信息;所述广播信息输入端接收的广播文本信息或广播语音信息的语言类型包括中文、英文以及若干小语种语言。
52.至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征做出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。
53.以上所述仅为本发明的优选实施例,并不用于限制本发明;对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

技术特征:


1.一种用于智能广播的语音合成系统,其特征在于,包括:广播信息输入端,其分别与本地网络以及云端互联网相连,用以接收需进行广播的广播文本信息或广播语音信息并能够将接收到的广播文本信息或广播语音信息转化至预定格式的广播文字文本;文本分析模块,其与所述广播信息输入端相连,用以分析所述广播文字文本的语义以确定所述广播文字文本的广播信息类型并对所述广播文字文本的预计语音合成时间进行预估,文本分析模块能够通过识别所述广播文字文本的语法对所述广播文字文本进行语句纠错并通过语义识别将所述广播文字文本进行压缩以形成对应的广播重点文字文本或广播关键文字文本;语音合成模块,其分别与所述广播信息输入端以及所述文本分析模块相连,用以对接收到的所述文本分析模块处理后的广播文字文本进行语音合成以形成语音音频文件;广播控制模块,其分别与所述广播信息输入端、所述文本分析模块以及所述语音合成模块相连,用以根据所述文本分析模块识别到广播文字文本对应广播信息类型和预计语音合成时间对广播文字文本的语音合成是否需要进行加速进行判定,并根据识别到广播文字文本对应广播信息类型为合成后的语音音频选择对应的播放音量和播放速度;广播语音输出端,其分别与所述语音合成模块、所述文本分析模块以及所述广播控制模块相连,用以在所述广播控制模块的控制下将所述语音合成模块生成的语音广播数据进行播放。2.根据权利要求1所述的用于智能广播的语音合成系统,其特征在于,所述文本分析模块包括语义分析模块和文字处理模块,所述语义分析模块,其与所述广播信息输入端相连,用以通过分析所述广播信息输入端传递的广播文字文本的语义以识别所述广播文字文本的广播信息类型并且确定所述广播文字文本中的重点语句和关键语句;所述文本分析模块,其分别与所述语义分析模块以及所述语音合成模块相连,用以通过语法分析将所述广播文字文本的文字语句进行语句纠错以使所述广播文字文本的文字语句符合语言表述规范,所述文本分析模块能够根据对所述广播文字文本的语段分析确定该广播文字文本的预计语音合成时间并且能够根据所述语义分析模块确定的所述广播文字文本中的重点语句和关键语句生成对应的广播重点文字文本和广播关键文字文本;所述广播信息类型根据广播紧急程度包括一般通知、时效通知、紧急通知和即刻通知。3.根据权利要求2所述的用于智能广播的语音合成系统,其特征在于,所述广播控制模块设置有第一语音合成时间标准t1、第二语音合成时间标准t2、第三语音合成时间标准t3和第四语音合成时间标准t4,其中,120min>t1>60min>t2>30min>t3>3min>t4>0.5min,当所述广播控制模块识别到所述广播信息输入端接收到需进行广播的广播文本信息或广播语音信息时,所述广播控制模块控制所述广播信息输入端将接收到的广播文本信息或广播语音信息转化预定格式的广播文字文本并传递至所述文本分析模块,所述广播控制模块根据所述文本分析模块识别到的广播文字文本的广播信息类型确定其对应的语音合成时间标准以对广播文字文本的处理情况进行判定,当广播文字文本的广播信息类型为一般通知时,所述广播控制模块判定采用第一语音合成时间标准t1作为该广播文字文本的语音合成时间标准;
当广播文字文本的广播信息类型为时效通知时,所述广播控制模块判定采用第二语音合成时间标准t2作为该广播文字文本的语音合成时间标准;当广播文字文本的广播信息类型为紧急通知时,所述广播控制模块判定采用第三语音合成时间标准t3作为该广播文字文本的语音合成时间标准;当广播文字文本的广播信息类型为即刻通知时,所述广播控制模块判定采用第四语音合成时间标准t4作为该广播文字文本的语音合成时间标准。4.根据权利要求3所述的用于智能广播的语音合成系统,其特征在于,所述广播控制模块设置有语音合成方式判断逻辑,所述语音合成方式判断逻辑通过将广播文字文本的广播信息类型与对应的语音合成时间标准进行比对用以确定该广播文字文本的语音合成方式,所述语音合成方式判断逻辑包括:当所述广播控制模块判定采用第i语音合成时间标准ti作为某一广播文字文本的语音合成时间标准时,其中,i=1,2,3,所述广播控制模块控制所述文本分析模块计算该广播文字文本的预计语音合成时间t1并将t1与ti进行比对以确定该广播文字文本的语音合成方式,当t1≤ti时,所述广播控制模块判定预计语音合成时长符合标准并采用标准语音合成方式对该广播文字文本的全部内容进行语音合成后进行播放;当t1>ti时,所述广播控制模块判定预计语音合成时长不符合标准并采用加速语音合成方式对该广播文字文本的重点内容进行语音合成后进行播放。5.根据权利要求4所述的用于智能广播的语音合成系统,其特征在于,所述广播控制模块设置有第一超时百分比标准a1、第二超时百分比标准a2、第一文本压缩系数α1、第二文本压缩系数α2和第三文本压缩系数α3,其中,100%<a1<200%<a2<300%,0.3<α3<0.5<α2<0.8<α1<1,当所述广播控制模块判定采用加速语音合成方式对该广播文字文本的重点内容进行语音合成时,所述广播控制模块根据t1与其语音合成时间标准ti的比值a确定对该广播文字文本内容的压缩量以得到该广播文字文本的重点内容,设定a=t1/ti,当a≤a1时,所述广播控制模块判定该广播文字文本的语音合成时间低于超时标准并采用第一文本压缩系数α1对该广播文字文本内容的压缩量进行调节;当a1<a<a2时,所述广播控制模块判定该广播文字文本的语音合成时间符合超时标准并采用第二文本压缩系数α2对该广播文字文本内容的压缩量进行调节;当a≥a2时,所述广播控制模块判定该广播文字文本的语音合成时间高于超时标准并采用第三文本压缩系数α3对该广播文字文本内容的压缩量进行调节;当所述广播控制模块判定采用第j文本压缩系数αj对该广播文字文本内容的压缩量进行调节时,设定j=1,2,3,所述广播控制模块控制所述文本分析模块按压缩量要求提取该广播文字文本的重点内容以将该广播文字文本压缩生成该广播重点文字文本,设定该广播重点文字文本内容中的语句总数为m1,设定m1=m0
×
αj且m1为向下取整的正整数,其中,m0为压缩前该广播文字文本内容中的语句总数。6.根据权利要求5所述的用于智能广播的语音合成系统,其特征在于,所述广播控制模块设置有加速损失时间计算系数μ,其中,0.6<μ<0.9,当所述广播控制模块判定采用加速语音合成方式控制所述文本分析模块生成该广播重点文字文本时,所述广播控制模块控制所述文本分析模块对生成的广播重点文字文本的预计语音合成时间t2进行计算并将t2与
该广播重点文字文本对应的加速合成时间标准ti’进行比对以确定生成的广播重点文字文本是否符合加速标准,设定ti’=ti
×
μ,当t2≤ti’时,所述广播控制模块判定生成的广播重点文字文本符合加速标准且本次加速有效,所述广播控制模块控制所述文本分析模块将生成的广播重点文字文本传递至所述语音合成模块进行语音合成后播放;当t2>ti’时,所述广播控制模块判定生成的广播重点文字文本不符合加速标准且本次加速无效,所述广播控制模块判定重新对该广播文字文本进行压缩以形成广播关键文字文本,所述广播控制模块控制所述文本分析模块将生成的广播关键文字文本传递至所述语音合成模块进行语音合成后播放。7.根据权利要求4所述的用于智能广播的语音合成系统,其特征在于,所述语音合成方式判断逻辑还包括:当所述广播控制模块判定采用第四语音合成时间标准t4作为某一广播文字文本的语音合成时间标准时,所述广播控制模块控制所述广播语音输出端播放一段预制的紧急通知音频以提高人员注意力,同时所述广播控制模块控制所述文本分析模块识别该广播文字文本的字数q并根据q确定针对该广播文字文本的播放方式,所述广播控制模块设置有紧急播放字数标准q0,其中,10<q0<50,当q≤q0时,所述广播控制模块判定该广播文字文本的字数少,所述广播控制模块控制所述语音合成模块对该广播文字文本的全部内容进行语音合成;当q>q0时,所述广播控制模块判定该广播文字文本的字数多,所述广播控制模块控制所述文本分析模块生成该广播文字文本的广播关键文字文本并控制所述语音合成模块对所述广播关键文字文本进行语音合成。8.根据权利要求6和7任一所述的用于智能广播的语音合成系统,其特征在于,所述广播控制模块设置有第一广播类型播放调节系数β1、第二广播类型播放调节系数β2、第三广播类型播放调节系数β3和第四广播类型播放调节系数β4,其中,0.8<β1<1<β2<1.1<β3<1.3<β4<1.5,当所述语音合成模块完成对接收到的文字文本的语音合成并生成对应某一广播文字文本的语音音频时,所述广播控制模块根据该语音音频对应广播文字文本的广播信息类型确定本次广播的播放方式,当该语音音频对应广播文字文本的广播信息类型为一般通知时,所述广播控制模块判定采用第一广播类型播放调节系数β1对该语音音频的播放音量和播放速度进行调节;当该语音音频对应广播文字文本的广播信息类型为时效通知时,所述广播控制模块判定采用第二广播类型播放调节系数β2对该语音音频的播放音量和播放速度进行调节;当该语音音频对应广播文字文本的广播信息类型为紧急通知时,所述广播控制模块判定采用第三广播类型播放调节系数β3对该语音音频的播放音量和播放速度进行调节;当该语音音频对应广播文字文本的广播信息类型为即刻通知时,所述广播控制模块判定采用第四广播类型播放调节系数β4对该语音音频的播放音量和播放速度进行调节;当所述广播控制模块判定采用第k广播类型播放调节系数βk对该语音音频的播放音量和播放速度进行调节时,所述广播控制模块将调节后的该语音音频的播放音量记为b’,将调节后的该语音音频的播放速度记为h’,设定b’=b0
×
βk,h’=h0
×
βk,其中,b0为预设的广播初始音量,h0为预设的广播初始语音播放速度。
9.根据权利要求8所述的用于智能广播的语音合成系统,其特征在于,还包括语音合成数据库模块和语音合成控制模块,其中,所述语音合成数据库模块,其与所述语音合成模块相连,用以存储所述语音合成模块需要的若干语种合成规则、若干语种合成方法以及若干类型主播音信息以为所述语音合成模块的语音合成提供数据支持;所述语音合成控制模块,其分别与所述语音合成模块以及所述语音合成数据库模块相连,用以根据用户设置控制所述语音合成模块根据用户设定的语音合成语种类别和语音合成主播类型将需进行语音合成的文字文本进行语音合成以生成语音音频文件。10.根据权利要求9所述的用于智能广播的语音合成系统,其特征在于,所述广播信息输入端包括信息接收单元和格式转化单元,其中,所述信息接收单元,其与外界网络以及信息接收端口相连,用以接收需进行广播的广播文本信息或广播语音信息;所述格式转化单元,其分别与所述信息接收单元以及所述语义分析模块相连,用以将接收到的广播文本信息或广播语音信息转化预定格式的广播文字文本,所述格式转化单元设置有语音转化装置用以将接收到的广播语音信息转化为对应语言类型的文字信息;所述广播信息输入端接收的广播文本信息或广播语音信息的语言类型包括中文、英文以及若干小语种语言。

技术总结


本发明涉及语音合成技术领域,尤其涉及一种用于智能广播的语音合成系统,包括广播信息输入端、文本分析模块、语音合成模块、广播控制模块以及广播语音输出端,本发明根据所述文本分析模块识别到广播文字文本对应广播信息类型和预计语音合成时间对广播文字文本的语音合成是否需要进行加速进行判定,并根据识别到广播文字文本对应广播信息类型为合成后的语音音频选择对应的播放音量和播放速度通过设置有文本分析模块和广播控制模块,有效的保证了本发明用于智能广播的语音合成系统能够实现根据对应的广播信息文本的类型采用针对性的语音合成方式进行语音合成以及音频播放。的语音合成方式进行语音合成以及音频播放。的语音合成方式进行语音合成以及音频播放。


技术研发人员:

明德 石金川 张常华 朱正辉 赵定金

受保护的技术使用者:

广州市保伦电子有限公司

技术研发日:

2022.07.18

技术公布日:

2022/9/2

本文发布于:2024-09-22 16:51:07,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/1/64161.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:所述   文本   模块   文字
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议