一种对多声部音频对齐合并的方法与流程

1.本发明涉及音频技术领域，更具体地，涉及一种对多声部音频对齐合并的方法、系统及计算机可读存储介质。

背景技术：

2.近年来随着音乐教育的普及以及互联网技术的飞速发展，音乐爱好者们不在局限于独自练习或演奏。最近越来越多的人开始寻求与不同的人演奏同一首曲子的不同声部，例如弦乐四重奏、钢琴小提琴重奏、甚至是交响乐等，并将它们合成起来分享到社交平台。
3.然而每个声部的演奏者对于音乐作品的理解和处理方式并各有不同，同一首作品每个声部所扮演的角本身也各不相同，因此每个声部的演奏音频会呈现不同的速度、力度、情感变化等。如何将这些不同的声部按照某个速度曲线对齐，然后合并到一起，并且尽量保证各个声部原有的演奏风格，是一件不容易的事情。每个声部很有可能出现长休止符，而用户独奏这个声部的时候通常只是稍作停顿就继续演奏长休止符后面的段落，这又为音频的对齐与合并带来了麻烦。
4.现有技术中，公开号为cn107591149a，中国发明专利公开了一种音频合成方法、装置及存储介质，属于多媒体技术领域。该方法包括：根据待合成的伴奏音频文件对应的歌曲信息，获取与伴奏音频文件对应的目标原唱音频文件；若伴奏音频文件的伴奏音频时长与目标原唱音频文件的原唱音频时长之间的第一时长差值小于或等于预设阈值，则通过短时能量算法，确定伴奏原唱对齐位置，若伴奏音频文件的伴奏音频时长与目标原唱音频文件的原唱音频时长之间的第一时长差值大于预设阈值，则通过短时互相关算法，确定伴奏原唱对齐位置；基于伴奏原唱对齐位置，按照指定音频文件格式，将伴奏音频文件和目标原唱音频文件合并成完整的音频文件。该现有技术针对的是将伴奏与演唱音频的合并，并没有解决不同声部演奏音频合并问题。

技术实现要素：

5.本发明为克服上述现有技术所述的缺陷，提供一种对多声部音频对齐合并的方法、系统及计算机可读存储介质，既能整齐地将各个声部对齐，又能最大限度地保留每个声部的原始演奏风格，让合并后的音频更具艺术表现力。
6.本发明的首要目的是为解决上述技术问题，本发明的技术方案如下：
7.本发明第一方面提供了一种对多声部音频对齐合并的方法，包括以下步骤：
8.获取乐谱中不同声部的演奏音频，检测并提取每个所述演奏音频包括的琴声段落；
9.将乐谱按照声部划分并提取每个声部的分谱，根据每个声部音频的演奏时长和分谱包含的节拍数计算乐谱的参考速度v
mean
；
10.将每个声部的音频与以所述参考速度的乐谱对齐，得到第一对齐路径，根据第一对齐路径利用相位声码器进行变速调节，将变速调节后的各音频合并得到第一音频；
11.计算参考声部与乐谱的第二对齐路径，将第一音频根据第二对齐路径进行非线性调速得到第二音频；
12.利用rms能量值将参考声部的力度引入第二音频得到合并音频；
13.通过房间冲击相应卷积对合并音频加入混响，得到最终音频。
14.本方案中，将乐谱按照声部划分并提取每个声部的分谱，根据每个声部音频的演奏时长和分谱包含的节拍数计算乐谱的参考速度具体过程为：
15.将乐谱按照声部划分得到每个声部的分谱sn，分析每个声部的各段音频的时长，即琴声段落的时长，解析出每个琴声段落相对应的乐谱所包含的拍数，根据琴声段落的时长和所包含的节拍数计算出当前声部的演奏速度vn，将所有声部的演奏速度求均值v
mean
，得到演奏速度均值作为乐谱的参考速度，即：n表示声部个数。
16.本方案中，将每个声部的音频与以所述参考速度的乐谱对齐，得到第一对齐路径，根据第一对齐路径利用相位声码器进行变速调节，将变速调节后的各音频合并得到第一音频具体过程为：
17.将每个声部的音频分帧与相应声部的分谱sn对齐得到帧级的第一对齐路径dn，将各个声部音频按照第一对齐路径dn用相位声码器进行变速，得到与以v
mean
为参考速度的分谱sn一致的音频xn，将n个声部变速调节后的音频相加后除以n，得到第一音频。
18.本方案中，当各声部的分谱包含有休止符时，先对声部的音频和声部的分谱进行切割，到音频包含琴声的段落通过乐谱的休止符拍数结合乐谱参考速度v
mean
，计算休止符的总时长t，并补相应时长的静音信号在之间音频上，进而得到补充完休止符时长的该声部音频bn，再将bn与乐谱sn进行对齐得到第一对齐路径dn，然后将各个声部音频按照第一路径dn用相位声码器进行变速，得到与以v
mean
为参考速度的乐谱sn一致的音频xn，最后将n个声部调节后的音频相加再除以n得到合并后的第一音频。
19.本方案中，计算参考声部与乐谱的第二对齐路径，将第一音频根据第二对齐路径进行非线性调速得到第二音频具体过程为：
20.选择参考声部的音频，将参考声部的音频与以v
mean
为参考速度的乐谱对齐得到第二对齐路径；
21.将第一音频用相位声码器按照第二对齐路径进行非线性变速后即可得到新的带有参考声部演奏速度的第二音频。
22.本方案中，利用rms能量值将参考声部的力度引入第二音频得到合并音频具体过程为：
23.对参考声部的音频信号按照预设的采样率进行分帧，逐帧计算参考声部音频的rms能量值，
24.计算第二音频每个声部音频的能量值，将第二音频每个声部音频每一帧的能量值缩放到与参考声部音频的每帧rms能量值一致；
25.将缩放后的第二音频每个声部音频相加得到合并音频。
26.本方案中，其中第i帧的rms能量表示为：
[0027][0028]
n表示每帧采样点个数，xi表示信号每个采样点的幅度值。
[0029]
本方案中，通过房间冲击相应卷积对合并音频加入混响，得到最终音频具体过程为：
[0030]
选择符合预设条件的房间冲击相应，将所述房间冲击响应与所述合并音频卷积得到最终音频d
final
[0031]dfinal
＝dvv*rir
[0032]
dvv表示合并音频，rir表示房间冲击相应。
[0033]
本发明第二方面提供了一种对多声部音频对齐合并的系统，该系统包括：存储器、处理器，所述存储器中包括一种对多声部音频对齐合并的方法程序，所述一种对多声部音频对齐合并的方法程序被所述处理器执行时实现如下步骤：
[0034]
获取乐谱中不同声部的演奏音频，检测并提取每个所述演奏音频包括的琴声段落；
[0035]
将乐谱按照声部划分并提取每个声部的分谱，根据每个声部音频的演奏时长和分谱包含的节拍数计算乐谱的参考速度v
mean
；
[0036]
将每个声部的音频与以所述参考速度的乐谱对齐，得到第一对齐路径，根据第一对齐路径利用相位声码器进行变速调节，将变速调节后的各音频合并得到第一音频；
[0037]
计算参考声部与乐谱的第二对齐路径，将第一音频根据第二对齐路径进行非线性调速得到第二音频；
[0038]
利用rms能量值将参考声部的力度引入第二音频得到合并音频；
[0039]
通过房间冲击相应卷积对合并音频加入混响，得到最终音频。
[0040]
本发明第三方面提供了一种计算机可读存储介质，所述计算机可读存储介质中包括对多声部音频对齐合并的方法程序，所述对多声部音频对齐合并的方法程序被处理器执行时，实现所述的一种对多声部音频对齐合并的方法的步骤。
[0041]
与现有技术相比，本发明技术方案的有益效果是：
[0042]
本发明通过对演奏音频和乐谱进行预处理，利用参考速度将各声部音频对齐，然后根据参考声部对与乐谱的对齐路径进行音频变速，最后对音频进行力度和混响的润得到最终音频，本发明能整齐地将各个声部对齐，又能最大限度地保留每个声部的原始演奏风格，让合并后的音频更具艺术表现力。
附图说明
[0043]
图1为本发明实施例一种对多声部音频对齐合并的方法流程图。
[0044]
图2为本发明实施例对第一音频利用参考声部演奏速度进行对齐合并的流程图。
[0045]
图3为本发明实施例对第二音频进行力度调整的流程图。
[0046]
图4为本发明实施例一种对多声部音频对齐合并的系统框图。
具体实施方式
[0047]
为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是，在不冲突的情况下，本技术的实施例及实施例中的特征可以相互组合。
[0048]
在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是，本发明还可以采用其他不同于在此描述的其他方式来实施，因此，本发明的保护范围并不受下面公开的具体实施例的限制。
[0049]
实施例1
[0050]
如图1所示，本发明第一方面提供了一种对多声部音频对齐合并的方法，包括以下步骤：
[0051]
s1获取乐谱中不同声部的演奏音频，检测并提取每个所述演奏音频包括的琴声段落；
[0052]
需要说明的是，在本发明中首先获取一个乐谱中不同声部的演奏音频，例如n个声部的演奏音频an，其中每个声部都是演奏者们以不同的速度和力度进行演奏。然后可以利用琴声检测算法检测并提取每个所述演奏音频an包括的琴声段落
[0053]
s2将乐谱按照声部划分并提取每个声部的分谱，根据每个声部音频的演奏时长和分谱包含的节拍数计算乐谱的参考速度v
mean
；
[0054]
需要说明的是，本发明中对乐谱的处理是：将乐谱按照声部划分并提取每个声部的分谱sn，分析每个声部的各段音频的时长，即琴声段落的时长，解析出每个琴声段落相对应的乐谱所包含的拍数，根据琴声段落的时长和所包含的节拍数计算出当前声部的演奏速度vn，将所有声部的演奏速度求均值v
mean
，得到演奏速度均值作为乐谱的参考速度，即：n表示声部个数。
[0055]
需要说明的是，取平均速度作为乐谱的参考速度的原因是：通常音频乐谱对齐的方法对于演奏速度和乐谱速度相差过大的情况，对齐效果会很差，进而影响到多声部音频合并后的效果。
[0056]
根据参考乐谱速度v
mean
补齐各个声部音频的中相应的静音片段，从而得到静音时长与乐谱休止符相匹配的各个声部音频。
[0057]
s3将每个声部的音频与以所述参考速度的乐谱对齐，得到第一对齐路径，根据第一对齐路径利用相位声码器进行变速调节，将变速调节后的各音频合并得到第一音频；
[0058]
需要说明的是，当各声部的分谱不包含有休止符时，可以采用乐谱跟随算法将每个声部的音频分帧与相应声部的分谱sn对齐得到帧级的第一对齐路径dn，将各个声部音频按照第一对齐路径dn用相位声码器进行变速，得到与以v
mean
为参考速度的分谱sn一致的音频xn，将n个声部变速调节后的音频相加后除以n，得到第一音频。
[0059]
当各声部的分谱包含有休止符时，先对声部的音频和声部的分谱进行切割，到音频包含琴声的段落通过乐谱的休止符拍数结合乐谱参考速度v
mean
，计算休止符的总时长t，并补相应时长的静音信号在之间音频上，进而得到补充完休止符时长的该声部音频bn，再用乐谱跟随算法，例如：动态时间规整(dtw)、基于粒子滤波的乐谱跟随等方法将bn与乐谱sn进行对齐得到第一对齐路径dn，然后将各个声部音频按照第一路径dn用相位声码
器进行变速，得到与以v
mean
为参考速度的乐谱sn一致的音频xn，最后将n个声部调节后的音频相加再除以n得到合并后的第一音频。
[0060]
需要说明的是，对合并后的第一音频后处理包括：后处理包含演奏速度、力度、混响的润。
[0061]
s4计算参考声部与乐谱的第二对齐路径，将第一音频根据第二对齐路径进行非线性调速得到第二音频；
[0062]
需要说明的是，由于得到的多声部合并的第一音频是按照乐谱速度机械地进行演奏，缺乏音乐表现力，因此需要用某一声部为参照对第一音频的演奏进行润，使合并后的音频具有参考声部的演奏速度。同时也可使用其他的该曲目的经典演奏音频来对第一音频进行润。
[0063]
如图2所示为对第一音频利用参考声部演奏速度进行对齐合并的流程图。具体步骤为：
[0064]
s401选择参考声部的音频，将参考声部的音频与以v
mean
为参考速度的乐谱对齐得到第二对齐路径；
[0065]
s402将第一音频用相位声码器按照第二对齐路径进行非线性变速后即可得到新的带有参考声部演奏速度的第二音频。
[0066]
s5利用rms能量值将参考声部的力度引入第二音频得到合并音频；
[0067]
在得到第二音频后，接下来引入参考声部的力度变化。当前合并并变速后的音频d
ref
缺乏力度上的统一变化，各个声部仍然按照原本的力度进行演奏，为了达到更好的音乐效果需要对合并音频的整体力度进行控制。
[0068]
图3为对第二音频进行力度调整的流程图，具体步骤为：
[0069]
s501对参考声部的音频信号按照预设的采样率进行分帧，逐帧计算参考声部音频的rms能量值；例如采样率可以为44100hz，每帧有n个采样点，帧跳为441个采样点。其中第i帧的rms能量表示为：
[0070][0071]
n表示每帧采样点个数，xi表示信号每个采样点的幅度值。
[0072]
s502计算第二音频每个声部音频的能量值，将第二音频每个声部音频每一帧的能量值缩放到与参考声部音频的每帧rms能量值一致；
[0073]
s503将缩放后的第二音频每个声部音频相加得到合并音频。
[0074]
s6通过房间冲击相应卷积对合并音频加入混响，得到最终音频。
[0075]
具体过程为：
[0076]
选择符合预设条件的房间冲击相应，将所述房间冲击响应与所述合并音频卷积得到最终音频d
final
[0077]dfinal
＝dvv*rir
[0078]
dvv表示合并音频，rir表示房间冲击相应。
[0079]
如图4所示，本发明第二方面提供了一种对多声部音频对齐合并的系统，该系统包括：存储器、处理器，所述存储器中包括一种对多声部音频对齐合并的方法程序，所述一种
对多声部音频对齐合并的方法程序被所述处理器执行时实现如下步骤：
[0080]
获取乐谱中不同声部的演奏音频，检测并提取每个所述演奏音频包括的琴声段落；
[0081]
将乐谱按照声部划分并提取每个声部的分谱，根据每个声部音频的演奏时长和分谱包含的节拍数计算乐谱的参考速度v
mean
；
[0082]
将每个声部的音频与以所述参考速度的乐谱对齐，得到第一对齐路径，根据第一对齐路径利用相位声码器进行变速调节，将变速调节后的各音频合并得到第一音频；
[0083]
计算参考声部与乐谱的第二对齐路径，将第一音频根据第二对齐路径进行非线性调速得到第二音频；
[0084]
利用rms能量值将参考声部的力度引入第二音频得到合并音频；
[0085]
通过房间冲击相应卷积对合并音频加入混响，得到最终音频。
[0086]
本发明第三方面提供了一种计算机可读存储介质，所述计算机可读存储介质中包括对多声部音频对齐合并的方法程序，所述对多声部音频对齐合并的方法程序被处理器执行时，实现所述的一种对多声部音频对齐合并的方法的步骤。
[0087]
在本技术所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，如：多个单元或组件可以结合，或可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性的、机械的或其它形式的。
[0088]
上述作为分离部件说明的单元可以是、或也可以不是物理上分开的，作为单元显示的部件可以是、或也可以不是物理单元；既可以位于一个地方，也可以分布到多个网络单元上；可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
[0089]
另外，在本发明各实施例中的各功能单元可以全部集成在一个处理单元中，也可以是各单元分别单独作为一个单元，也可以两个或两个以上单元集成在一个单元中；上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。
[0090]
本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：移动存储设备、只读存储器(rom，read-only memory)、随机存取存储器(ram，random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0091]
或者，本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括：移动存储设备、rom、ram、磁碟或者光盘等各种可以存储程序代码的介质。

技术特征：

1.一种对多声部音频对齐合并的方法，其特征在于，包括以下步骤：获取乐谱中不同声部的演奏音频，检测并提取每个所述演奏音频包括的琴声段落；将乐谱按照声部划分并提取每个声部的分谱，根据每个声部音频的演奏时长和分谱包含的节拍数计算乐谱的参考速度v
mean
；将每个声部的音频与以所述参考速度的乐谱对齐，得到第一对齐路径，根据第一对齐路径利用相位声码器进行变速调节，将变速调节后的各音频合并得到第一音频；计算参考声部与乐谱的第二对齐路径，将第一音频根据第二对齐路径进行非线性调速得到第二音频；利用rms能量值将参考声部的力度引入第二音频得到合并音频；通过房间冲击相应卷积对合并音频加入混响，得到最终音频。2.根据权利要求1所述的一种对多声部音频对齐合并的方法，其特征在于，将乐谱按照声部划分并提取每个声部的分谱，根据每个声部音频的演奏时长和分谱包含的节拍数计算乐谱的参考速度具体过程为：将乐谱按照声部划分得到每个声部的分谱s
n
，分析每个声部的各段音频的时长，即琴声段落的时长，解析出每个琴声段落相对应的乐谱所包含的拍数，根据琴声段落的时长和所包含的节拍数计算出当前声部的演奏速度v
n
，将所有声部的演奏速度求均值v
mean
，得到演奏速度均值作为乐谱的参考速度，即：n表示声部个数。3.根据权利要求1所述的一种对多声部音频对齐合并的方法，其特征在于，将每个声部的音频与以所述参考速度的乐谱对齐，得到第一对齐路径，根据第一对齐路径利用相位声码器进行变速调节，将变速调节后的各音频合并得到第一音频具体过程为：将每个声部的音频分帧与相应声部的分谱s
n
对齐得到帧级的第一对齐路径d
n
，将各个声部音频按照第一对齐路径d
n
用相位声码器进行变速，得到与以v
mean
为参考速度的分谱s
n
一致的音频x
n
，将n个声部变速调节后的音频相加后除以n，得到第一音频。4.根据权利要求3所述的一种对多声部音频对齐合并的方法，其特征在于，当各声部的分谱包含有休止符时，先对声部的音频和声部的分谱进行切割，到音频包含琴声的段落通过乐谱的休止符拍数结合乐谱参考速度v
mean
，计算休止符的总时长t，并补相应时长的静音信号在之间音频上，进而得到补充完休止符时长的该声部音频b
n
，再将b
n
与乐谱s
n
进行对齐得到第一对齐路径d
n
，然后将各个声部音频按照第一路径d
n
用相位声码器进行变速，得到与以v
mean
为参考速度的乐谱s
n
一致的音频x
n
，最后将n个声部调节后的音频相加再除以n得到合并后的第一音频。5.根据权利要求1所述的一种对多声部音频对齐合并的方法，其特征在于，计算参考声部与乐谱的第二对齐路径，将第一音频根据第二对齐路径进行非线性调速得到第二音频具体过程为：选择参考声部的音频，将参考声部的音频与以v
mean
为参考速度的乐谱对齐得到第二对齐路径；将第一音频用相位声码器按照第二对齐路径进行非线性变速后即可得到新的带有参考声部演奏速度的第二音频。6.根据权利要求1所述的一种对多声部音频对齐合并的方法，其特征在于，利用rms能
量值将参考声部的力度引入第二音频得到合并音频具体过程为：对参考声部的音频信号按照预设的采样率进行分帧，逐帧计算参考声部音频的rms能量值，计算第二音频每个声部音频的能量值，将第二音频每个声部音频每一帧的能量值缩放到与参考声部音频的每帧rms能量值一致；将缩放后的第二音频每个声部音频相加得到合并音频。7.根据权利要求6所述的一种对多声部音频对齐合并的方法，其特征在于，其中第i帧的rms能量表示为：n表示每帧采样点个数，x
i
表示信号每个采样点的幅度值。8.根据权利要求1所述的一种对多声部音频对齐合并的方法，其特征在于，通过房间冲击相应卷积对合并音频加入混响，得到最终音频具体过程为：选择符合预设条件的房间冲击相应，将所述房间冲击响应与所述合并音频卷积得到最终音频d
final
：d
final
＝dvv*rirdvv表示合并音频，rir表示房间冲击相应。9.一种对多声部音频对齐合并的系统，其特征在于，该系统包括：存储器、处理器，所述存储器中包括一种对多声部音频对齐合并的方法程序，所述一种对多声部音频对齐合并的方法程序被所述处理器执行时实现如下步骤：获取乐谱中不同声部的演奏音频，检测并提取每个所述演奏音频包括的琴声段落；将乐谱按照声部划分并提取每个声部的分谱，根据每个声部音频的演奏时长和分谱包含的节拍数计算乐谱的参考速度v
mean
；将每个声部的音频与以所述参考速度的乐谱对齐，得到第一对齐路径，根据第一对齐路径利用相位声码器进行变速调节，将变速调节后的各音频合并得到第一音频；计算参考声部与乐谱的第二对齐路径，将第一音频根据第二对齐路径进行非线性调速得到第二音频；利用rms能量值将参考声部的力度引入第二音频得到合并音频；通过房间冲击相应卷积对合并音频加入混响，得到最终音频。10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中包括对多声部音频对齐合并的方法程序，所述对多声部音频对齐合并的方法程序被处理器执行时，实现如权利要求1至8中任一项所述的一种对多声部音频对齐合并的方法的步骤。

技术总结

本发明公开了一种对多声部音频对齐合并的方法、系统及计算机存储介质，包括：获取乐谱中不同声部的演奏音频，检测并提取每个演奏音频包括的琴声段落；提取每个声部的分谱，根据每个声部音频的演奏时长和分谱包含的节拍数计算乐谱的参考速度v

技术研发人员：

魏新元段志尧周霄易洋

受保护的技术使用者：

深圳市芒果未来科技有限公司

技术研发日：

2022.07.15

技术公布日：

2022/10/18

本文发布于:2024-09-21 15:27:14，感谢您对本站的认可！

本文链接：https://www.17tex.com/tex/3/24741.html

上一篇：一种带有电箱的双音梁柳琴

下一篇：语音转换方法、语音转换装置、电子设备及存储介质与流程

标签：声部音频乐谱所述

留言与评论（共有 0 条评论）