一种语音合成的前置处理方法和装置与流程

1.本技术涉及智能语音技术领域，尤其涉及一种语音合成的前置处理方法和装置。

背景技术：

2.智能语音技术是最早落地的人工智能技术，也是市场上众多人工智能产品中应用最为广泛的。伴随着人工智能的快速发展，通过庞大的用户基础以及互联网系统优势明显，随着移动互联网、智能家居、汽车、医疗、教育等领域的应用带动智能语音产业规模持续快速增长，语音交互能够创造全新的“伴随式”场景。语音交互相比其他图像、双手操控，语音控制确实有种种超越的优势，空间越复杂，越能发挥优势。某种程度上，它能解放用户的双手，解放用户的眼睛，解放用户的双脚，特别适合在某些双手不方便的场景中使用。从计算机时代的鼠标+键盘，到互联网时代的触屏技术，再到人工智能时代的语音交互技术；每一次科技的进步都给人们的生活和工作带来了便利。
3.目前业务系统中均是基于各个ai厂商提供的tts(text to speech，语音合成)算法，完成话术文本转语音，由于金融场景中，话术文本均是规章制度，风险条例等范式条款，文字长度很容易超过300字，但是现有的多数ai厂商的tts技术对超过300字的文本就不能正常转换。个别ai厂商的tts技术对于长文本的话术转换速度也很难满足要求，以上问题导致业务系统在处理长文本调用算法时体验很差。

技术实现要素：

4.本技术的目的在于克服上述问题或者至少部分地解决或缓减解决上述问题。
5.根据本技术的一个方面，提供了一种语音合成的前置处理方法，
6.将长文本话术根据文本的语义进行分句处理；
7.将分句处理后的短句集合通过多线程方式，并行使用语音合成技术将所述文本转换为多段语音；
8.将并行处理得到的多段短语音文件合并成所述长文本话术对应的长语音文件。
9.优选地，将长文本话术根据文本的语义进行分句处理之后还包括：
10.记录分句处理得到的多个短句的顺序；
11.将并行处理得到的多段短语音文件合并成所述长文本话术对应的长语音文件包括：
12.根据记录的多个短句的顺序对所述多段短语音文件进行拼接，合并成所述长文本话术对应的长语音文件。
13.优选地，将长文本话术根据文本的语义进行分句处理包括：
14.采用神经语言程序学nlp根据所述长文本话术的语义进行分句处理，将所述长文本话术切分成n段短文本。
15.优选地，将并行处理得到的多段短语音文件合并成所述长文本话术对应的长语音文件包括：
16.将所述n段短文本对应的n段短语音文件，通过ffmpeg合并成一段完整的语音文件。
17.第二方面，本发明还提供一种语音合成的前置处理装置，包括：
18.中文分句引擎，设置为将长文本话术根据文本的语义进行分句处理；
19.多线程执行器，设置为将分句处理后的短句集合通过多线程方式，并行使用语音合成技术将所述文本转换为多段语音；
20.媒体文本处理器，设置为将并行处理得到的多段短语音文件合并成所述长文本话术对应的长语音文件。
21.优选地，所述中文分句引擎还设置为：
22.记录分句处理得到的多个短句的顺序；
23.所述媒体文本处理器将并行处理得到的多段短语音文件合并成所述长文本话术对应的长语音文件包括：
24.根据记录的多个短句的顺序对所述多段短语音文件进行拼接，合并成所述长文本话术对应的长语音文件。
25.优选地，所述中文分句引擎将长文本话术根据文本的语义进行分句处理包括：
26.采用神经语言程序学nlp根据所述长文本话术的语义进行分句处理，将所述长文本话术切分成n段短文本。
27.优选地，所述媒体文本处理器将并行处理得到的多段短语音文件合并成所述长文本话术对应的长语音文件包括：
28.将所述n段短文本对应的n段短语音文件，通过ffmpeg合并成一段完整的语音文件。
29.第三方面，本发明还提供一种计算设备，包括：
30.至少一个处理器和存储有程序指令的存储器；
31.当所述程序指令被所述处理器读取并执行时，使得所述计算设备执行上述的方法。
32.第四方面，本发明还提供一种存储有程序指令的可读存储介质，当所述程序指令被计算设备读取并执行时，使得所述计算设备执行上述的方法。
33.本技术的一种语音合成的前置处理方法和装置，对长文本进行语义切分，保证将长文本切成短文本的同时不破坏文本中的语义；通过多线程的方式，批量并行调用tts算法，缩短转换的时间。
34.根据下文结合附图对本技术的具体实施例的详细描述，本领域技术人员将会更加明了本技术的上述以及其他目的、优点和特征。
附图说明
35.后文将参照附图以示例性而非限制性的方式详细描述本技术的一些具体实施例。附图中相同的附图标记标示了相同或类似的部件或部分。本领域技术人员应该理解，这些附图未必是按比例绘制的。附图中：
36.图1是根据本技术一个实施例的语音合成的前置处理方法的示意性流程图；
37.图2是根据本技术一个实施例的加速语音合成的优化过程的示意性流程图；
38.图3是根据本技术一个实施例的语音合成的前置处理方法的示意图；
39.图4是根据本技术实施例的第一种计算机可读存储介质的示意性结构框图；
40.图5是根据本技术实施例的第二种计算机可读存储介质的示意性结构框图。
具体实施方式
41.如图1所示，本发明实施例的一种语音合成的前置处理方法，包括步骤是s101至步骤s103：
42.s101、将长文本话术根据文本的语义进行分句处理；
43.s102、将分句处理后的短句集合通过多线程方式，并行使用语音合成技术将所述文本转换为多段语音；
44.s103、将并行处理得到的多段短语音文件合并成所述长文本话术对应的长语音文件。
45.本发明实施例中，步骤s101将长文本话术根据文本的语义进行分句处理之后还包括：
46.记录分句处理得到的多个短句的顺序；
47.步骤s103将并行处理得到的多段短语音文件合并成所述长文本话术对应的长语音文件包括：
48.根据记录的多个短句的顺序对所述多段短语音文件进行拼接，合并成所述长文本话术对应的长语音文件。
49.本发明实施例中，步骤s101将长文本话术根据文本的语义进行分句处理包括：
50.采用神经语言程序学nlp根据所述长文本话术的语义进行分句处理，将所述长文本话术切分成n段短文本。
51.本发明实施例中，步骤s103将并行处理得到的多段短语音文件合并成所述长文本话术对应的长语音文件包括：
52.将所述n段短文本对应的n段短语音文件，通过ffmpeg合并成一段完整的语音文件。
53.tts是text to speech的缩写，语音合成技术就是将文本转化为语音，将神经网络与领域知识双重结合，兼具读音准确，韵律自然，声音还原度高，表现力强的特点。在客服机器人、服务机器人等场景中，与语音识别、自然语言处理等模块联动，打通人机交互的闭环，实现高品质的机器人发声，使得人机交互更流畅自然。
54.nlp：nlp是神经语言程序学(neuro-linguistic programming)的英文缩写。n(neuro)指的是神经系统，包括大脑和思维过程。l(linguistic)是指语言，更准确点说，是指从感觉信号的输入到构成意思的过程。p(programming)是指为产生某种后果而要执行的一套具体指令。即指思维上及行为上的习惯，就如同电脑中的程序，可以透过更新软件而改变。故此，nlp被解释为研究大脑如何工作的学问。也因此，nlp为身心语法程式学或神经语言程序学。
55.多线程：多线程是指从软件或者硬件上实现多个线程并发执行的技术。具有多线程能力的计算机因有硬件支持而能够在同一时间执行多于一个线程，进而提升整体处理性能。
56.ffmpeg：ffmpeg是一套可以用来记录、转换数字音频、视频，并能将其转化为流的开源计算机程序。采用lgpl或gpl许可证。它提供了录制、转换以及流化音视频的完整解决方案。
57.本发明实施例中可以通过nlp算法完成中文分句过程，保证长文本切分成短文本时尽可能的保证中文语义。通过nlp的切分，完成整个过程中最重要的一步。再利用软件或者硬件实现多个线程并发执行批量并行调用tts算法接口，缩短转换的时间，提高程序转换效率，缩短接口响应时间。最后通过ffmpeg将n段语音文件无损合并成一个完整的语音文件，完成整个流程的最后一步。
58.结合2说明本发明实施例的加速语音合成的优化过程：
59.1)用户将超长文本话术提交到业务系统
60.2)业务系统将话术输入到tts前置优化引擎，先进行nlp中文分句，nlp根据文本的语义进行分句处理，将长文本话术切分成n段短文本。
61.3)将nlp切分后的短句集合传入多线程执行器中，通过多线程方式批量调用tts算法进行转换。
62.4)媒体文件处理器，将多线程处理器调用接口得到的n个短语音文件合并成一个完整的长语音文件。
63.5)将合并后的语音文件返回给业务系统。
64.本发明实施例的语音合成的前置处理方法是tts算法的前置优化方案，本发明实施例的重点是前置优化或加速合成。本发明实施例调用的tts算法为各ai厂商的tts算法，相当于调用第三方渠道的tts算法。
65.本发明实施例的语音合成的前置处理方法支持的文本话术长度大于300字，基本在300-500字。在金融场景下，由于合同文本内容较多，已超过现有tts算法规定的话术长度。所以要经过优化后再调用算法。
66.现有技术中针对长文本转换需要的时间较长，超过常规接口响应时长(正常接口响应时间：300-600毫秒之间)，故本发明实施例中采用nlp做长文本段落的语义切分，将大段的话术文本，切分成n个小段文本，采用nlp切分的原因，是尽可能保证切分后的话术语义不会被拆分，这样tts转换后的语音听起来就不会出现音调，停顿异常的问题。
67.切分后的多段话术，通过多线程调用，返回n段语音文件，在通过ffmpeg将语音片段拼接成完整的话术播报语音文件返回给前台系统使用。
68.本次发明使用nlp将长话术文本，切分成多段短文本，并保证了原有中文语义，且突破了个别算法厂商不支持长文本转换的缺陷，在业务层适配了各个算法厂商的不足。
69.话术文本切分后，通过多线程的方式并发调用算法接口，缩短了原有方式的调用时间，并通过ffmpeg将每段短音频合并成完整的音频，在达到原有效果之上，缩短程序调用时间。
70.如图3所示，本发明实施例的一种语音合成的前置处理装置，包括：
71.中文分句引擎，设置为将长文本话术根据文本的语义进行分句处理；
72.多线程执行器，设置为将分句处理后的短句集合通过多线程方式，并行使用语音合成技术将所述文本转换为多段语音；
73.媒体文本处理器，设置为将并行处理得到的多段短语音文件合并成所述长文本话
术对应的长语音文件。
74.本发明实施例中，所述中文分句引擎还设置为：
75.记录分句处理得到的多个短句的顺序；
76.所述媒体文本处理器将并行处理得到的多段短语音文件合并成所述长文本话术对应的长语音文件包括：
77.根据记录的多个短句的顺序对所述多段短语音文件进行拼接，合并成所述长文本话术对应的长语音文件。
78.本发明实施中，所述中文分句引擎将长文本话术根据文本的语义进行分句处理包括：
79.采用神经语言程序学nlp根据所述长文本话术的语义进行分句处理，将所述长文本话术切分成n段短文本。
80.本发明实施中，所述媒体文本处理器将并行处理得到的多段短语音文件合并成所述长文本话术对应的长语音文件包括：
81.将所述n段短文本对应的n段短语音文件，通过ffmpeg合并成一段完整的语音文件。
82.本发明实施例中采用在业务系统的前置优化，通过中文分句引擎、多线程执行器、媒体文件处理器，完成长文本转换语音文件的功能，并适配了各个渠道厂商的不足，提高效率的同时，减少对厂商的依赖。
83.使用本发明实施例的方案，不仅能够集成多个同类型的ai厂商，且可以做到灵活切换渠道，不受厂商渠道本身的算法能力不足、程序缺陷或商务问题限制，以最小的成本灵活满足现有业务。
84.本发明实施例在tts的智能应用场景过程中，中文分句引擎、多线程处理器和媒体文件处理器为前置优化的，用于提高tts转换效率或兼容多个第三方渠道厂商的方案方法。
85.本技术实施例还提供了一种计算设备，参照图4，该计算设备包括存储器1120、处理器1110和存储在所述存储器1120内并能由所述处理器1110运行的计算机程序，该计算机程序存储于存储器1120中的用于程序代码的空间1130，该计算机程序在由处理器1110执行时实现用于执行任一项根据本发明的方法步骤1131。
86.本技术实施例还提供了一种计算机可读存储介质。参照图5，该计算机可读存储介质包括用于程序代码的存储单元，该存储单元设置有用于执行根据本发明的方法步骤的程序1131
′
，该程序被处理器执行。
87.本技术实施例还提供了一种包含指令的计算机程序产品。当该计算机程序产品在计算机上运行时，使得计算机执行根据本发明的方法步骤。
88.在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机加载和执行所述计算机程序指令时，全部或部分地产生按照本技术实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、获取其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字
用户线(dsl))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，dvd)、或者半导体介质(例如固态硬盘solid state disk(ssd))等。
89.专业人员应该还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本技术的范围。
90.本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令处理器完成，所述的程序可以存储于计算机可读存储介质中，所述存储介质是非短暂性(英文：non-transitory)介质，例如随机存取存储器，只读存储器，快闪存储器，硬盘，固态硬盘，磁带(英文：magnetic tape)，软盘(英文：floppy disk)，光盘(英文：optical disc)及其任意组合。
91.以上所述，仅为本技术较佳的具体实施方式，但本技术的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本技术揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本技术的保护范围之内。因此，本技术的保护范围应该以权利要求的保护范围为准。
92.以上所述，仅为本技术较佳的具体实施方式，但本技术的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本技术揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本技术的保护范围之内。因此，本技术的保护范围应该以权利要求的保护范围为准。

技术特征：

1.一种语音合成的前置处理方法，其特征在于，包括：将长文本话术根据文本的语义进行分句处理；将分句处理后的短句集合通过多线程方式，并行使用语音合成技术将所述文本转换为多段语音；将并行处理得到的多段短语音文件合并成所述长文本话术对应的长语音文件。2.根据权利要求1所述的方法，其特征在于，将长文本话术根据文本的语义进行分句处理之后还包括：记录分句处理得到的多个短句的顺序；将并行处理得到的多段短语音文件合并成所述长文本话术对应的长语音文件包括：根据记录的多个短句的顺序对所述多段短语音文件进行拼接，合并成所述长文本话术对应的长语音文件。3.根据权利要求1所述的方法，其特征在于，将长文本话术根据文本的语义进行分句处理包括：采用神经语言程序学nlp根据所述长文本话术的语义进行分句处理，将所述长文本话术切分成n段短文本。4.根据权利要求3所述的方法，其特征在于，将并行处理得到的多段短语音文件合并成所述长文本话术对应的长语音文件包括：将所述n段短文本对应的n段短语音文件，通过ffmpeg合并成一段完整的语音文件。5.一种语音合成的前置处理装置，其特征在于，包括：中文分句引擎，设置为将长文本话术根据文本的语义进行分句处理；多线程执行器，设置为将分句处理后的短句集合通过多线程方式，并行使用语音合成技术将所述文本转换为多段语音；媒体文本处理器，设置为将并行处理得到的多段短语音文件合并成所述长文本话术对应的长语音文件。6.根据权利要求5所述的装置，其特征在于，所述中文分句引擎还设置为：记录分句处理得到的多个短句的顺序；所述媒体文本处理器将并行处理得到的多段短语音文件合并成所述长文本话术对应的长语音文件包括：根据记录的多个短句的顺序对所述多段短语音文件进行拼接，合并成所述长文本话术对应的长语音文件。7.根据权利要求5所述的装置，其特征在于，所述中文分句引擎将长文本话术根据文本的语义进行分句处理包括：采用神经语言程序学nlp根据所述长文本话术的语义进行分句处理，将所述长文本话术切分成n段短文本。8.根据权利要求7所述的装置，其特征在于，所述媒体文本处理器将并行处理得到的多段短语音文件合并成所述长文本话术对应的长语音文件包括：将所述n段短文本对应的n段短语音文件，通过ffmpeg合并成一段完整的语音文件。9.一种计算设备，包括：至少一个处理器和存储有程序指令的存储器；
当所述程序指令被所述处理器读取并执行时，使得所述计算设备执行如权利要求1-4中任一项所述的方法。10.一种存储有程序指令的可读存储介质，当所述程序指令被计算设备读取并执行时，使得所述计算设备执行如权利要求1-4中任一项所述的方法。

技术总结

本申请公开了一种语音合成的前置处理方法和装置，涉及智能语音技术领域，所述方法包括：将长文本话术根据文本的语义进行分句处理；将分句处理后的短句集合通过多线程方式，并行使用语音合成技术将所述文本转换为多段语音；将并行处理得到的多段短语音文件合并成所述长文本话术对应的长语音文件。对长文本进行语义切分，保证将长文本切成短文本的同时不破坏文本中的语义；通过多线程的方式，批量并行调用TTS算法，缩短转换的时间。缩短转换的时间。缩短转换的时间。