多声道声音编解码器中立体声编解码模式之间的切换的制作方法



1.本公开涉及立体声声音编码(encode),特别是但不排他性地在多声道声音编解码器中的“立体声编解码模式”(以下也称为“立体声模式”)之间切换,特别是但不排他性地能够在例如复杂音频场景中以低比特率和低延迟产生良好的立体声质量。
2.在本公开内容和所附权利要求中:
3.术语“声音”(“sound”)可以与语音、音频和任何其他声音有关;
4.术语“立体声”(“stereo”)是“立体声响”(stereophonic)的缩写;和
5.术语“单声道”(“mono”)是“单频声道”(“monophonic”)的缩写。


背景技术:



6.从历史上看,会话电话是用只有一个换能器的手机来实现的,该换能器只能将声音输出到用户的一只耳朵上。在过去的十年里,用户已经开始使用他们的便携式手机和耳机结合在一起,通过他们的两只耳朵接收声音,主要是为了听音乐,但有时也是为了听语音。然而,当便携式手机被用于发送和接收会话语音时,内容仍然是单声道的,但当耳机被使用时呈现给用户的两只耳朵。
7.使用如参考文献[1]所描述的最新的3gpp语音编解码(code)标准,其全部内容通过引用并入本文,通过便携式手机发送和接收的编解码声音的质量,例如语音和/或音频,已经显著地改善。下一个自然步骤是发送立体声信息,使得接收器尽可能接近在通信链路的另一端捕获的真实生活的音频场景。
[0008]
在音频编解码器中,例如,如参考文献[2]所描述,其全部内容通过引用并入本文,通常使用立体声信息的传输。
[0009]
对于会话语音编解码器,单声道信号是规范的。当发送立体声信号时,由于立体声信号的左声道和右声道都使用单声道编解码器进行编解码,所以比特率通常需要翻倍。这在大多数场景下都工作得很好,但存在比特率翻倍和未能利用两个声道(立体声信号的左声道和右声道)之间任何可能冗余的缺点。此外,为了将总体比特率保持在合理的水平,对每个声道使用非常低的比特率,从而影响总体声音质量。为了降低比特率,高效的立体声编解码技术已经被开发和使用。作为非限制性示例,在以下段落中讨论可以在低比特率下有效使用的三种立体声编解码技术的使用。
[0010]
第一种立体声编解码技术称为参数化立体声。参数化立体声编解码使用常见单声道编解码器加上表示立体声图像的一定量立体声侧信息(对应于立体声参数)将左右两个声道编码为单声道信号。将两个输入左声道和右声道下混合成单声道信号,然后通常在变换域(例如离散傅立叶变换(dft)域)计算立体声参数,并与所谓的双耳或声道间线索(cue)有关。双耳线索(参考文献[3],其全部内容通过引用并入本文)包括耳间电平差(ild)、耳间时差(itd)和耳间相关性(ic)。根据信号特性、立体声场景配置等,对一些或全部双耳线索进行编解码并发送到解码器。关于什么双耳线索被编解码和发送的信息被作为信令信息发送,这通常是立体声侧信息的一部分。还可以使用不同的编解码技术对特定的双耳线索进
行量化,这引起使用可变数量的比特。然后,除了量化的双耳线索之外,立体声侧信息通常在中等和较高比特率下可以包含由下混合引起的量化的残差信号。残差信号可以使用熵编解码技术,例如算术编解码器进行编解码。在本公开中,具有在变换域中计算的立体声参数的参数化立体声编解码将被称为“dft立体声”编解码。
[0011]
另一种立体声编解码技术是在时域(td)中操作的技术。这种立体声编解码技术将两个输入左声道和右声道混合成所谓的主声道和次声道。例如,遵循参考文献[4]中所描述的方法,其全部内容通过引用并入本文,时域混合可以基于混合比,该混合比确定在产生主声道和次声道时两个输入左声道和右声道的各自贡献。混合比是从几个度量导出的,例如,输入左声道和右声道相对于单声道信号版本的归一化相关或两个输入左声道和右声道之间的长期相关差。主声道可以由常见单声道编解码器编解码,而次声道可由较低比特率编解码器编解码。次声道编解码可以利用主声道和次声道之间的相干性,并且可以重用来自主声道的一些参数。在本公开中,时域立体声编解码将被称为“td立体声”编解码。一般来说,td立体声编解码在低和中比特率对于编解码语音信号是最有效的。
[0012]
第三立体声编解码技术是在经修正离散余弦变换(mdct)域中操作的技术。它是基于左右声道的联合编解码,同时在白化谱域计算全局ild和中/边(m/s)处理。第三立体声编解码技术使用改编自mpeg(运动图像专家组)编解码器中的tcx(变换编解码激励)编解码的若干工具,如在例如参考文献[6]和[7]中所描述的,其全部内容通过引用并入本文;这些工具可以包括tcx核心编解码、tcx ltp(长期预测)分析、tcx噪声填充、频域噪声整形(fdns)、立体声智能间隙填充(igf)和/或声道之间的自适应比特分配。通常,该第三种立体声编解码技术对于以中和高比特率编码所有种类的音频内容是有效的。在本公开中,mdct域立体声编解码技术将被称为“mdct立体声编解码”。一般来说,mdct立体声编解码在中和高比特率下对编解码一般的音频信号是最有效的。
[0013]
近年来,立体声编解码进一步扩展到多声道编解码。存在提供多声道编解码的几种技术,但所有这些技术的基本核心常常是基于单声道或立体声编解码技术的单个或多个实例。因此,本公开提出了立体声编解码模式之间的切换,立体声编解码模式可以是诸如元数据辅助空间音频(masa)的多声道编解码技术的一部分,如在例如参考文献[8]中所描述的,其全部内容通过引用结合于此。在masa方法中,masa元数据(例如,方向、能量比、扩展相干性、距离、环绕相干性,都在几个时频时隙中)在masa分析器中产生、量化、编解码并传递到比特流中,同时(多个)masa音频声道被处理为由(多个)核心编解码器编解码的(多个)单声道或(多个)立体声传输信号。在masa解码器处,masa元数据随后指导解码(decode)和渲染过程以重新创建输出的空间声音。


技术实现要素:



[0014]
本公开提供如所附权利要求中定义的立体声声音信号编码设备和方法。
[0015]
立体声编码和解码设备和方法的前述和其他目标、优点和特征在阅读以下对其说明性实施例的非限制性描述后将变得更加明显,该描述仅通过参考附图的示例方式给出。
附图说明
[0016]
在附图中:
[0017]
图1是描绘立体声编码和解码设备和方法的实现方式的可能上下文的声音处理和通信系统的示意性框图;
[0018]
图2是同时示出沉浸式语音和音频服务(ivas)立体声编码设备和对应的立体声编码方法的高层框图,其中ivas立体声编码设备包括频域(fd)立体声编码器、时域(td)立体声编码器和经修改的离散余弦变换(mdct)立体声编码器,其中在本说明性实施例和附图中,fd立体声编码器实现方式基于离散傅立叶变换(dft)(以下称为“dft立体声编码器”);
[0019]
图3是同时示出图2的dft立体声编码器和对应的dft立体声编码方法的框图;
[0020]
图4是同时示出图2的td立体声编码器和对应的td立体声编码方法的框图;
[0021]
图5是同时示出图2的mdct立体声编码器和对应的mdct立体声编码方法的框图;
[0022]
图6是示出当从td立体声模式切换到dft立体声模式时ivas立体声编码设备和方法中的处理操作的流程图;
[0023]
图7a是示出当从dft立体声模式切换到td立体声模式时ivas立体声编码设备和方法中的处理操作的流程图;
[0024]
图7b是示出当从dft立体声模式切换到td立体声模式时与td立体声过去信号相关的处理操作的流程图;
[0025]
图8是同时示出ivas立体声解码设备和对应解码方法的高层框图,其中ivas立体声解码设备包括dft立体声解码器、td立体声解码器和mdct立体声解码器;
[0026]
图9是示出当从td立体声模式切换到dft立体声模式时ivas立体声解码设备和方法中的处理操作的流程图;
[0027]
图10是示出图9的实例b)的流程图,包括在解码器侧更新td立体声帧中的dft立体声合成存储器;
[0028]
图11是示出图9的实例c)的流程图,包括在解码器侧,在从td立体声模式切换到dft立体声模式之后,平滑第一dft立体声帧中的输出立体声合成;
[0029]
图12是示出当从dft立体声模式切换到td立体声模式时ivas立体声解码设备和方法中的处理操作的流程图;
[0030]
图13是示出图12的实例a)的流程图,包括在解码器侧,在从dft立体声模式切换到td立体声模式之后,更新第一td立体声帧中的td立体声同步存储器;以及
[0031]
图14是实现ivas立体声编码设备和方法以及ivas立体声解码设备和方法中的每一个的硬件组件的示例配置的简化框图。
具体实施方式
[0032]
如上所述,本公开涉及立体声声音编码,特别但不排他性地涉及在声音(包括语音和/或音频)中的立体声编解码模式之间切换,编解码器特别但不排他性地能够例如在复杂音频场景中以低比特率和低延迟产生良好的立体声质量。在本公开中,复杂音频场景包括以下情况,例如但不排他性地,其中:(a)由麦克风记录的声音信号之间的相关性低,(b)存在背景噪声的重要波动,和/或(c)存在干扰说话者。复杂音频场景的非限制性示例包括具有a/b麦克风配置的大型消声会议室、具有双耳麦克风的小型回声室和具有单/侧麦克风设置的小型回声室。所有这些房间配置可能包括波动的背景噪音和/或干扰说话者。
[0033]
图1是立体声声音处理和通信系统100的示意性框图,描绘了ivas立体声编码设备
和方法以及ivas立体声解码设备和方法的实现方式的可能上下文。
[0034]
图1的立体声声音处理和通信系统100支持立体声声音信号跨通信链路101的传输。通信链路101可以包括,例如,电线或光纤链路。可替代地,通信链路101可以至少部分地包括无线电频率链路。无线电频率链路通常支持多个需要共享带宽资源的同步通信,诸如蜂窝电话中可以发现的那样。虽然没有示出,但在系统100的单一设备实现方式中,通信链路101可以由存储设备替换,该存储设备记录并存储编解码的立体声声音信号,以便以后回放。
[0035]
仍然参考图1,例如,一对麦克风102和122产生原始模拟立体声声音信号的左103和右123声道。如前述描述所指出的,声音信号可以特别地但不排他地包括语音和/或音频。
[0036]
原始模拟声音信号的左103和右123声道被提供给模数(a/d)转换器104,用于将它们转换成原始数字立体声声音信号的左105和右125声道。原始数字立体声声音信号的左105和右125声道也可以从存储设备(未示出)记录和提供。
[0037]
立体声声音编码器106对原始数字立体声声音信号的左105和右125声道进行编解码,从而产生编解码参数集,该编解码参数在比特流107的形式下被复用,比特流107交付给可选的纠错编码器108。可选的纠错编码器108,当存在时,在通过通信链路101传输所得的比特流111之前,将冗余添加到比特流107中的编解码参数的二进制表示。
[0038]
在接收侧,可选的纠错解码器109利用接收的数字比特流111中的上述冗余信息来检测和纠正在通信链101上传输期间可能发生的错误,产生具有接收的编解码参数的比特流112。立体声解码器110转换比特流112中接收的编解码参数,用于创建数字立体声声音信号的合成左113和右133声道。在立体声解码器110中重构的数字立体声声音信号的左113和右133声道在数模(d/a)转换器115中被转换为模拟立体声声音信号的合成左114和右134声道。
[0039]
模拟立体声声音信号的合成左114和右134声道分别在一对扬声器单元或双耳耳机116和136中回放。可替代地,来自立体声声音解码器110的数字立体声声音信号的左113和右133声道也可以被提供给存储设备(未示出)并记录在存储设备中。
[0040]
例如,(a)图1的左声道可以由图2-13的左声道实现,(b)图1的右声道可以由图2-13的右声道实现,(c)图1的立体声编码器106可以由图2-7的ivas立体声编码设备实现,以及(d)图1的立体声解码器110可以由图8-13的ivas立体声解码设备实现。
[0041]
1.ivas立体声编码设备200和方法250中的立体声模式之间的切换
[0042]
图2是同时示出ivas立体声编码设备200和对应的ivas立体声编码方法250的高层框图,图3是同时示出图2的ivas立体声编码设备200的fd立体声编码器300和对应的fd立体声编码方法350的框图,图4是同时示出图2的ivas立体声编码设备200的td立体声编码器400和对应的td立体声编码方法450的框图,以及图5是同时示出图2的ivas立体声编码设备200的mdct立体声编码器500和对应的mdct立体声编码方法550的框图。
[0043]
在图2-图5的说明性、非限制性实现方式中,ivas立体声编码设备200(以及对应地图8的ivas立体声解码设备800)的框架基于增强型语音服务(evs)编解码器的修改版本(见参考文献[1])。具体地,evs编解码器被扩展到编解码(和解码)立体声和多声道,并处理沉浸式语音和音频服务(ivas)。因此,在本公开中,编码设备200和方法250被称为ivas立体声编码设备和方法。在所描述的示例性实现方式中,ivas立体声编码设备200和方法250作为
非限制性示例使用三种立体声编解码模式:基于dft(离散傅立叶变换)的频域(fd)立体声模式,在本公开中称为“dft立体声模式”;时域(td)立体声模式,在本公开中称为“td立体声模式”;以及基于经修改的离散余弦变换(mdct)立体声模式的联合立体声编解码模式,在本公开中称为“mdct立体声模式”。应当记住,其他编解码器结构也可以用作ivas立体声编码设备200(以及对应地ivas立体声解码设备800)的框架的基础。
[0044]
在所描述的非限制性实现方式中,ivas编解码器(ivas立体声编码设备200和ivas立体声解码设备800)中的立体声模式切换指的是dft、td和mdct立体声模式之间的切换。
[0045]
1.1不同立体声编码器和编码方法之间的差异
[0046]
在本公开和附图中使用以下命名:小写字母指示时域信号,大写字母指示变换域信号,l/l表示左声道,r/r表示右声道,m/m表示中间声道,s/s表示侧声道,pch表示主声道,sch表示次声道。此外,在图中,没有单位的数字对应于16khz采样率下的样本数。
[0047]
在(a)dft立体声编码器300和编码方法350、(b)td立体声编码器400和编码方法450、(c)mdct立体声编码器500和编码方法550之间存在差异。这些差异中的一些将在以下段落中总结,至少其中一些将在以下描述中将被更好地解释。
[0048]
ivas立体声编码设备200和编码方法250执行诸如缓冲立体声输入信号(左声道和右声道)的一个20ms帧(本领域众所周知,立体声声音信号在包含给定数量的声音信号样本的给定持续时间的连续帧中被处理)、少量分类步骤、下混合、预处理和实际编解码的操作。8.75ms的前瞻(look-ahead)是可获得的,主要用于变换域中的分析、分类和重叠加法(ola)操作,如变换编解码激励(tcx)核心、高质量(hq)核心和频域带宽扩展(fd-bwe)。参考文献[1]第5.3和5.2.6.2条对这些操作进行了描述。
[0049]
与未修改的evs编码器相比,ivas立体声编码设备200和编码方法250中的前瞻短0.9375ms(对应于有限脉冲响应(fir)滤波器重采样延迟(见参考文献[1],第5.1.3.1条)。这对每帧中的下处理信号(对于td和dft立体声模式的下混合信号)的重采样过程有影响:
[0050]-dft立体声编码器300和编码方法350:重采样在dft域中执行,因此,不引入额外的延迟;
[0051]-td立体声编码器400和编码方法450:使用0.9375ms的延迟执行fir重采样(抽取)。由于该重采样延迟在ivas立体声编码设备200中不可用,因此通过在下混合信号的末尾加零来补偿重采样延迟。因此,需要在下一帧重新计算(再次采样)下混合信号的0.9375ms长的补偿部分。
[0052]-mdct立体声编码器500和编码方法550:与td立体声编码器400和编码方法450中的相同。
[0053]
dft立体声编码器300、td立体声编码器400和mdct立体声编码器500中的重采样是从输入采样率(通常为16、32或48khz)到内部采样率(通常为12.8、16、25.6或32khz)进行的。然后在预处理和核心编码中使用重采样信号。
[0054]
此外,前瞻包含一部分下处理信号(td和dft立体声模式的下混合信号),该信号不准确,而是外推或估计的,这也对重采样过程有影响。前瞻下处理信号(对于td和dft立体声模式的下混合信号)的不准确性取决于当前立体声编解码模式:
[0055]-dft立体声编码器300和编码方法350:前瞻的8.75ms的长度对应于与dft分析窗口的ola部分、分别与dft合成窗口的ola部分相关的下混合信号的加窗重叠部分。为了对尽
可能有意义的信号执行预处理,对下混合信号的此前瞻部分进行校正(或去窗,即将逆窗应用于前瞻部分)。结果,前瞻中的8.75ms长的校正下混合信号不能在当前帧中准确地重构;
[0056]-td立体声编码器400和编码方法450:在时域(td)下混合之前,使用时域中两个输入声道l和r之间的声道间时间延迟(itd)同步来执行声道间对准(ica)。这是通过延迟输入声道(l或r)中的一个和通过外推对应于itd延迟长度的下混合信号的缺失部分来实现的;itd延迟的最大值是7.5ms。因此,前瞻中上至7.5ms长的外推下混合信号不能在当前帧中准确地重构。
[0057]-mdct立体声编码器500和编码方法550:通常不执行下混合或时移,因此输入音频信号的前瞻部分通常是准确的。
[0058]
前瞻中的校正/外推信号部分不受实际编解码的影响,而是用于分析和分类。因此,在下一帧中重新计算前瞻中的校正/外推信号部分,然后将得到的下处理信号(用于td和dft立体声模式的下混合信号)用于实际编解码。重新计算的信号的长度取决于立体声模式和编解码处理:
[0059]-dft立体声编码器300和编码方法350:8.75ms长的信号受输入立体声信号采样率和内部采样率两者下的重新计算的影响;
[0060]-td立体声编码器400和编码方法450:7.5ms长的信号受输入立体声信号采样率下的重新计算的影响,而7.5+0.9375=8.4375ms长的信号受内部采样率下的重新计算的影响。
[0061]-mdct立体声编码器500和编码方法550:在输入立体声信号采样率下通常不需要重新计算,而0.9375ms长的信号受内部采样率下的重新计算的影响。
[0062]
注意,这里作为说明提到了前瞻中的校正的、分别外推的信号部分的长度,而通常可以实现任何其他长度。
[0063]
关于dft立体声编码器300和编码方法350的附加信息可以在参考文献[2]和[3]中到。关于td立体声编码器400和编码方法450的附加信息可以在参考文献[4]中到。关于mdct立体声编码器500和编码方法550的附加信息可以在参考文献[6]和[7]中到。
[0064]
1.2ivas立体声编码设备200的结构及ivas立体声编码方法250中的处理
[0065]
下表i根据当前立体声编解码模式按顺序列出了每个帧的处理操作(另见图2-5)。
[0066]
表i-在ivas立体声编码设备200处的处理操作。
[0067][0068][0069]
ivas立体声编码方法250包括控制dft、td和mdct立体声模式之间的切换的操作(未示出)。为了执行切换控制操作,ivas立体声编码设备200包括在dft、td和mdct立体声模式之间进行切换的控制器(未示出)。ivas立体声编码设备200和编解码方法250中的dft和td立体声模式之间的切换涉及使用立体声模式切换控制器(未示出)来保持以下输入信号1)到5)的连续性,以使得能够在ivas立体声编码设备200和方法250中充分处理这些信号:
[0070]
1)输入立体声信号包括左l/l和右r/r声道,例如用于时域瞬态检测或声道间bwe
(ic-bwe);
[0071]
2)输入立体声信号采样率下的立体声下处理信号(用于td和dft立体声模式的下混合信号):
[0072]-dft立体声编码器300和编码方法350:中间声道m/m;
[0073]-td立体声编码器400和编码方法450:主声道(pch)和次声道(sch);
[0074]-mdct立体声编码器500和编码方法550:原始(无下混合)左、右声道l和r;
[0075]
3)12.8khz采样率下的下处理信号(用于td和dft立体声模式的下混合信号)-用于预处理;
[0076]
4)内部采样率下的下处理信号(用于td和dft立体声模式的下混合信号)-用于核心编码;
[0077]
5)高频段(hb)输入信号-用于带宽扩展(bwe)。
[0078]
虽然保持上述信号1)的连续性是简单的,但由于几个方面,例如不同的下混合、前瞻的重新计算部分的不同长度、仅在td立体声模式中使用声道间对准(ica)等,对于信号2)-5)是具有挑战性的。
[0079]
1.2.1立体声分类和立体声模式选择
[0080]
控制dft、td和mdct立体声模式之间的切换的操作(未示出)包括立体声分类和立体声模式选择的操作255,例如,如参考文献[9]所述,其全部内容通过引用并入本文。为了执行操作255,在dft、td和mdct立体声模式之间进行切换的控制器(未示出)包括立体声分类器和立体声模式选择器205。
[0081]
在td立体声模式、dft立体声模式和mdct立体声模式之间的切换响应于立体声模式选择。立体声分类(参考文献[9])响应于输入立体声信号的左l和右r声道,和/或请求的编解码比特率而进行。立体声模式选择(参考文献[9])包括基于立体声分类选择dft、td和mdct立体声模式中的一个。
[0082]
立体声分类器和立体声模式选择器205产生立体声模式信令270用于识别所选择的立体声编解码模式。
[0083]
1.2.2存储器分配/释放
[0084]
控制dft、td和mdct立体声模式之间的切换的操作(未示出)包括存储器分配操作(未示出)。为了执行存储器分配操作,在dft、td和mdct立体声模式(未示出)之间进行切换的控制器根据当前立体声模式动态地向/从dft、td和mdct立体声模式分配/释放静态存储器数据结构。这样的存储器分配通过仅保持在当前帧中采用的那些数据结构而将ivas立体声编码设备200的静态存储器影响保持为尽可能低。
[0085]
例如,在td立体声帧之后的第一dft立体声帧中,解除(释放)与td立体声模式相关的数据结构(例如,td立体声数据处理、第二核心编码器数据结构),并且替代地分配和初始化与dft立体声模式相关的数据结构(例如,dft立体声数据结构)。注意,首先进行进一步未使用的数据结构的释放分配,然后进行新使用的数据结构的分配。这种操作顺序对于在编码的任何点上不增加静态存储器影响很重要。
[0086]
在各种立体声模式中使用的主要静态存储器数据结构的概要如表ii所示。
[0087]
表ii-不同立体声模式下数据结构的分配。
[0088]“x”表示分配
‑‑“
xx”表示两次分配
‑‑
[0089]
“‑”
表示释放,
“‑‑”
表示两次释放。
[0090][0091]
下面是示出c源代码中存储器分配/释放编码器模块的示例实现方式。
[0092]
[0093]
[0094]
[0095]
[0096][0097]
1.2.3设置td立体声模式
[0098]
td立体声模式可以包括两个子模式。一个是所谓的正常td立体声子模式,其td立体声混合比高于0而低于1。另一个是所谓的lrtd立体声子模式,其td立体声混合比为0或1;因此,lrtd是td立体声模式的一个极端情况,其中td下混合实际上不混合时域左l和右r声道的内容以形成主pch和次sch声道,而是直接从声道l和r获得它们。
[0099]
当td立体声模式的两个子模式(正常和lrtd)可用时,立体声模式切换操作(未示出)包括td立体声模式设置(未示出)。为了执行形成存储器分配的一部分的td立体声模式设置,ivas立体声编码设备200的立体声模式切换控制器(未示出)在正常td立体声模式和lrtd立体声模式之间进行切换时分配/释放某些静态存储器数据结构。例如,仅在使用正常
td立体声模式的帧中分配ic-bwe数据结构(见表ii),而仅在使用lrtd立体声模式的帧中分配几个数据结构(用于次声道sch的复杂低延迟滤波器组(cldfb)和bwe)(见表ii)。下面是示出c源代码中存储器分配/释放编码器模块的示例实现方式:
[0100]
[0101][0102]
主要地,在本公开中将仅详细描述正常td立体声模式(为了简单起见,进一步仅称为td立体声模式)。lrtd立体声模式被提到作为一个可能的实现方式。
[0103]
1.2.4立体声模式切换更新
[0104]
立体声模式切换控制操作(未示出)包括立体声切换更新操作(未示出)。为了执行该立体声切换更新操作,立体声模式切换控制器(未示出)更新长期参数并更新或重置过去的缓冲存储器。
[0105]
当从dft立体声模式切换到td立体声模式时,立体声模式切换控制器(未示出)重置td立体声和ica静态存储器数据结构。这些数据结构分别存储ica算法(图2中201)的td立体声分析和加权下混合(图4中401)的参数和存储器。然后,立体声模式切换控制器(未示出)根据正常td立体声模式或lrtd立体声模式设置td立体声过去帧混合比索引。作为非限制性的说明性示例:
[0106]-先前帧混合比索引设置为15,指示在正常td立体声模式下,将下混合的中间声道m/m编解码为主声道pch,其中混合比为0.5;或
[0107]-先前帧混合比索引被设置为31,指示在lrtd立体声模式中将左声道l编解码为主声道pch。
[0108]
当从td立体声模式切换到dft立体声模式时,立体声模式切换控制器(未示出)重置dft立体声数据结构。该dft立体声数据结构存储与dft立体声处理和下混合模块(图3中的303)相关的参数和存储器。
[0109]
此外,立体声模式切换控制器(未示出)在数据结构之间传输一些立体声相关参数。作为示例,与声道l和r之间的时移和能量相关的参数,即dft立体声模式的侧增益(或ild参数)和itd参数,被用于更新td立体声模式的目标增益和相关滞后(correlation lag)(ica参数202),反之亦然。这些目标增益和相关滞后在本公开的下一节1.2.5中进一步描述。
[0110]
与核心编码器相关的更新/重置(见图3和4)稍后在本公开的第1.4节中描述。在编码器中的一些存储器的处理的示例实现方式如下所示。
[0111]
[0112]
[0113]
[0114][0115]
1.2.5ica编码器
[0116]
在td立体声帧中,立体声模式切换控制操作(未示出)包括时间声道间对准(ica)操作251。为了执行操作251,立体声模式切换控制器(未示出)包括ica编码器201,以时间对准输入立体声信号的声道l和r,然后缩放声道r。
[0117]
如前述描述所述,在td下混合之前,在时域中使用两个输入声道l和r之间的itd同步来执行ica。这是通过延迟输入声道(l或r)中的一个和通过外推对应于itd延迟的长度的
下混合信号的缺失部分来实现的;itd延迟的最大值是7.5ms。首先应用时间对准,即ica时移,并改变当前td立体声帧的大部分。前瞻下混合信号的外推部分被重新计算,并因此在下一帧中基于在该下一帧中估计的itd进行时间调整。
[0118]
当预期没有立体声模式切换时,在ica编码器201中重新计算7.5ms长的外推信号。然而,当可能发生立体声模式切换,即从dft立体声模式切换到td立体声模式时,较长的信号将受到重新计算。然后,该长度对应于dft立体声校正信号的长度加上fir重采样延迟,即8.75ms+0.9375ms=9.6875ms。第1.4节更详细地解释了这些特征。
[0119]
ica编码器201的另一目的是对输入声道r进行缩放。无论使用dft或td立体声模式,缩放增益,即上述目标增益,被估计为在每一帧与先前帧目标增益平滑的l和r声道能量的对数比。在当前帧(20ms)中估计的目标增益被应用于当前输入声道r的最后15ms,而当前声道r的前5ms以淡入/淡出方式通过先前和当前帧目标增益的组合来缩放。
[0120]
ica编码器201产生ica参数202,诸如itd延迟、目标增益和目标声道索引。
[0121]
1.2.6时域瞬态检测器
[0122]
立体声模式切换控制操作(未示出)包括从ica编码器201检测声道l中的时域瞬态的操作253。为了执行操作253,立体声模式切换控制器(未示出)包括检测器203,以检测声道l中的时域瞬态。
[0123]
以同样的方式,立体声模式切换控制操作(未示出)包括从ica编码器201检测声道r中的时域瞬态的操作254。为了执行操作254,立体声模式切换控制器(未示出)包括检测器204,以检测声道r中的时域瞬态。
[0124]
时域声道l和r中的时域瞬态检测是预处理步骤,该预处理步骤使得能够在变换域核心编码模块(tcx核心、hq核心、fd-bwe)中检测并因此适当地处理和编码这种瞬态。
[0125]
关于时域瞬态检测器203和204以及时域瞬态检测操作253和254的进一步信息可以例如在参考文献[1],第5.1.8条中到。
[0126]
1.2.7立体声编码器配置
[0127]
为了执行立体声编码器配置,ivas立体声编码设备200设置立体声编码器300、400和500的参数。例如,设置核心编码器的标称比特率。
[0128]
1.2.8dft分析、dft域中的立体声处理和下混合以及idft合成
[0129]
参考图3,dft立体声编码方法350包括用于将dft变换应用到来自图2的时域瞬态检测器203的声道l的操作351。为了执行操作351,dft立体声编码器300包括声道l的dft变换(dft分析)的计算器301,以产生dft域中的声道l。
[0130]
dft立体声编码方法350还包括用于将dft变换应用到来自图2的时域瞬态检测器204的声道r的操作352。为了执行操作352,dft立体声编码器300包括声道r的dft变换(dft分析)的计算器302,以产生dft域中的声道r。
[0131]
dft立体声编码方法350还包括在dft域中的立体声处理和下混合的操作353。为了执行操作353,dft立体声编码器300包括立体声处理器和下混合器303,以在侧声道s上产生侧信息。声道l和r的下混合也在侧声道s上产生残差信号。例如,使用编解码操作354和相应的编码器304对来自侧声道s的侧信息和残差信号进行编解码,然后在dft立体声编码器300的输出比特流310中复用。立体声处理器和下混合器303还对来自dft计算器301和302的左l和右r声道进行下混合,以产生dft域中的中间声道m。关于立体声处理和下混合的操作353、
立体声处理器和下混合器303、中间声道m和来自侧声道s的侧信息和残差信号的进一步信息可以例如在参考文献[3]中到。
[0132]
在dft立体声编码方法350的逆dft(idft)合成操作355中,dft立体声编码器300的计算器305以输入立体声信号的采样率(例如12.8khz)计算中间声道m的idft变换m。以同样的方式,在dft立体声编码方法350的逆dft(idft)合成操作356中,dft立体声编码器300的计算器306以内部采样率计算声道m的idft变换m。
[0133]
1.2.9td域中td分析和下混合
[0134]
参考图4,td立体声编码方法450包括td域中的时域分析和加权下混合的操作451。为了执行操作451,td立体声编码器400包括时域分析器和下混合器401,以计算立体声侧参数402,诸如子模式标志、混合比索引或线性预测重用标志,这些参数在td立体声编码器400的输出比特流410中被复用。时域分析器和下混合器401还执行来自检测器203和204(图2)的声道l和r的加权下混合器,以使用与ica缩放对准的估计混合比来产生主声道pch和次声道sch。关于时域分析器和下混合器401以及操作451的进一步信息可以例如在参考文献[4]中到。
[0135]
使用当前帧混合比的下混合例如在输入声道l和r的当前帧的最后15ms执行,而使用先前和当前帧混合比的组合以淡入/淡出方式对当前帧的前5ms进行下混合,以平滑从一个声道到另一个声道的转换。在立体声输入声道采样率(例如32khz)下采样的两个声道(主声道pch和次声道sch)使用fir抽取滤波器在12.8khz和内部采样率下重采样到它们的表示。
[0136]
在td立体声模式下,下混合的不仅是当前帧的立体声输入信号。另外,对应于先前帧的存储的下混合信号再次被下混合。受此重新计算的先前信号的长度对应于ica模块中重新计算的时移信号的长度,即8.75ms+0.9375ms=9.6875ms。
[0137]
1.2.10前置预处理
[0138]
在ivas编解码器(ivas立体声编码设备200和ivas立体声解码设备800)中,存在对传统预处理的重构,使得在编解码器总体比特率上进行一些分类决策,而根据核心编码比特率进行其他决策。因此,例如在evs编解码器(参考文献[1])中使用的传统预处理被分成两个部分,以确保在每个经处理的帧中使用最佳可能的编解码器配置。因此,编解码器配置可以从帧到帧改变,同时可以尽可能快地进行配置的某些改变,例如基于信号活动或信号类别的那些改变。另一方面,编解码器配置中的一些改变不应该经常发生,例如编解码音频带宽的选择、内部采样率的选择或低频段和高频段编解码之间的比特预算分配;在这样的编解码器配置中过于频繁的改变会导致不稳定的编解码信号质量甚至是可听到的伪音。
[0139]
预处理的第一部分,即前置预处理,可以包括预处理和分类模块,诸如预处理采样率下的重采样、频谱分析、带宽检测(bwd)、声音活动检测(sad)、线性预测(lp)分析、开环基音搜索、信号分类、语音/音乐分类。注意,前置预处理中的决策完全取决于总体编解码器比特率。关于在上述预处理期间执行的操作的进一步信息可以在例如参考文献[1]中到。
[0140]
在dft立体声模式(图3的dft立体声编码器300)中,前置预处理由前置预处理处理器307和对应的前置预处理操作357以来自idft计算器306的内部采样率在时域中对中间声道m执行。
[0141]
在td立体声模式中,前置预处理由(a)前置预处理器403和对应的前置预处理操作
453对来自时域分析器和下混合器401的主声道pch执行,以及(b)前置预处理处理器404和对应的前置预处理操作454对来自时域分析器和下混合器401的次声道sch执行。
[0142]
在mdct立体声模式中,前置预处理由前置预处理器503和对应的前置预处理操作553对来自时域瞬态检测器203(图2)的输入左声道l执行,以及(b)前置预处理处理器504和对应的前置预处理操作554对来自时域瞬态检测器204(图2)的输入右声道r执行。
[0143]
1.2.11核心编码器配置
[0144]
核心编码器的配置是基于编解码器总体比特率和前置预处理进行的。
[0145]
具体地,在dft立体声编码器300和对应的dft立体声编码方法350(图3)中,核心编码器配置器308和对应的核心编码器配置操作358响应于来自idft计算器305的时域中的中间声道m和来自前置预处理器307的输出,以配置核心编码器311和对应的核心编码操作361。核心编码器配置器308负责例如设置内部采样率和/或修改核心编码器类型分类。关于dft域中的核心编码器配置的进一步信息可以在例如参考文献[1]和[2]中到。
[0146]
在td立体声编码器400和对应的td立体声编码方法450(图4)中,核心编码器配置器405和对应的核心编码器配置操作455分别响应于来自前置预处理器403和404的前置预处理主声道pch和次声道sch,以执行核心编码器406的配置和主声道pch的对应的核心编码操作456以及核心编码器407和次声道sch的对应的核心编码操作457。核心编码器配置器405负责例如设置内部采样率和/或修改核心编码器类型分类。关于td域中的核心编码器配置的进一步信息可以在例如参考文献[1]和[4]中到。
[0147]
1.2.12进一步预处理
[0148]
dft编码方法350包括进一步预处理的操作362。为了执行操作362,dft立体声编码器300的所谓的另一预处理器312执行预处理的第二部分,该第二部分可以包括分类、核心选择、编码内部采样率下的预处理等。前置预处理器307中的决策根据核心编码比特率,核心编码比特率通常在会话期间波动。例如,关于在dft域中的这种进一步预处理期间执行的操作的附加信息可以在参考文献[1]中到。
[0149]
td编码方法450包括进一步预处理的操作458。为了执行操作458,td立体声编码器400的所谓的另一预处理器408在对主声道pch进行核心编码之前,执行预处理的第二部分,该预处理的第二部分可以包括分类、核心选择、编码内部采样率下的预处理等。进一步的预处理器408中的决策根据核心编码比特率,核心编码比特率通常在会话期间波动。
[0150]
并且,td编码方法450包括进一步预处理的操作459。为了执行操作459,td立体声编码器400包括所谓的另一预处理器409,用于在对次声道sch进行核心编码之前,执行预处理的第二部分,该预处理的第二部分可以包括分类、核心选择、编码内部采样率下的预处理等。进一步的预处理器409中的决策根据核心编码比特率,核心编码比特率通常在会话期间波动。
[0151]
关于在td域中的这种进一步预处理的附加信息可以在例如参考文献[1]中到。
[0152]
mdct编码方法550包括进一步预处理左声道l的操作555。为了执行操作555,mdct立体声编码器500的所谓的另一预处理器505在mdct立体声编码器500的联合核心编码器506执行的左声道l和右声道r的联合核心编码的操作556之前,执行左声道l的预处理的第二部分,该预处理的第二部分可以包括分类、核心选择、编码内部采样率下的预处理等。
[0153]
mdct编码方法550包括对右声道r进行进一步预处理的操作557。为了执行操作
557,mdct立体声编码器500的所谓的另一预处理器507在mdct立体声编码器500的联合核心编码器506执行的左声道l和右声道r的联合核心编码的操作556之前,执行左声道l的预处理的第二部分,该预处理的第二部分可以包括分类、核心选择、编码内部采样率下的预处理等。
[0154]
关于在mdct域中的这种进一步预处理的附加信息可以在例如参考文献[1]中到。
[0155]
1.2.13核心编码
[0156]
通常,dft立体声编码器300中的核心编码器311(执行核心编码操作361)和td立体声编码器400中的核心编码器406(执行核心编码操作456)和407(执行核心编码操作457)可以是任何可变比特率单声道编解码器。在本公开的说明性实现方式中,使用具有波动比特率能力(见参考文献[5])的evs编解码器(见参考文献[1])。当然,也可以考虑和实现其他合适的编解码器。在mdct立体声编码器500中,采用联合核心编码器506,其通常可以是具有立体声工具的立体声编解码模块,立体声工具以联合方式处理和量化l和r声道。
[0157]
1.2.14通用立体声更新
[0158]
最后,执行通用立体声更新。关于通用立体声更新的进一步信息可以在例如参考文献[1]中到。
[0159]
1.2.15比特流
[0160]
参考图2和图3,来自立体声分类器和立体声模式选择器205的立体声模式信令270,来自侧信息、残差信号编码器304的比特流313和来自核心编码器311的比特流314被复用以形成dft立体声编码器比特流310(然后形成ivas立体声编码设备200的输出比特流206(图2))。
[0161]
参考图2和图4,来自立体声分类器和立体声模式选择器205的立体声模式信令270、来自时域分析器和下混合器401的侧参数402、来自ica编码器201的ica参数202、来自核心编码器406的比特流411和来自核心编码器407的比特流412被复用以形成td立体声编码器比特流410(然后形成ivas立体声编码设备200的输出比特流206(图2))。
[0162]
参考图2和图5,来自立体声分类器和立体声模式选择器205的立体声模式信令270和来自联合核心编码器506的比特流509被复用以形成mdct立体声编码器比特流508(然后形成ivas立体声编码设备200的输出比特流206(图2))。
[0163]
1.3在ivas立体声编码设备200中从td立体声模式切换到dft立体声模式
[0164]
从td立体声模式(td立体声编码器400)切换到dft立体声模式(dft立体声编码器300)相对简单,如图6所示。
[0165]
具体地,图6是示出从td立体声模式切换到dft立体声模式时ivas立体声编码设备200和方法250中的处理操作的流程图。可以看出,图5示出了在从td立体声模式切换到dft立体声模式时,具有不同的处理操作和相关的时间实例的立体声输入信号的两个帧,即,td立体声帧601跟随有dft立体声帧602。
[0166]
足够长的前瞻是可用的,在dft域中进行重采样(因此没有fir抽取滤波器存储器处理),并且存在从最后td立体声帧501中的两个核心编码器406和407到第一dft立体声帧502中的一个核心编码器311的转换。
[0167]
响应于立体声模式选择,上述立体声模式切换控制器(未示出)执行在从td立体声
模式(td立体声编码器400)切换到dft立体声模式(dft立体声编码器300)时执行的以下操作。
[0168]
图6的实例a)指的是dft分析存储器,特别是作为dft立体声数据结构的一部分的dft立体声ola分析存储器的更新,该dft分析存储器在dft计算操作351和352之前受到加窗。该更新由立体声模式切换控制器(未示出)在声道间对准(ica)(见图2中的251)之前完成,并包括存储与输入立体声信号的声道l和r的当前td立体声帧601的最后8.75ms有关的样本。此更新在声道l和r两者中的每个td立体声帧中进行。关于dft分析存储器的进一步信息可以在例如参考文献[1]和[2]中到。
[0169]
图6的实例b)指的是在从td立体声模式切换到dft立体声模式时,在idft计算操作355和356之后加窗而引起的dft合成存储器,特别是作为dft立体声数据结构的一部分的ola合成存储器的更新。立体声模式切换控制器(未示出)在td立体声帧601之后的第一dft立体声帧602中执行该更新,并且为了该更新,将td立体声存储器用作td立体声数据结构的一部分并用于对应于下混合主声道pch的td立体声处理。关于dft合成存储器的进一步信息可以例如在参考文献[1]和[2]中到,关于td立体声存储器的进一步信息可以例如在参考文献[4]中到。
[0170]
从第一dft立体声帧602开始,不再需要某些td立体声相关数据结构,例如td立体声数据结构(如在td立体声编码器400中使用的)和与次声道sch相关的核心编码器407的数据结构,因此,由立体声模式切换控制器(未示出)释放,即解除。
[0171]
在td立体声帧601之后的dft立体声帧602中,立体声模式切换控制器(未示出)在前面的td立体声帧601中用主pch声道核心编码器406的存储器(例如,合成存储器、预加重存储器、过去的信号和参数等)继续dft立体声编码器300的核心编码器311中的核心编码操作361,同时控制td和dft立体声模式之间的时间实例差,以确保几个核心编码器缓冲器的连续性,例如预加重输入信号缓冲器、hb输入缓冲器等,这些缓冲器后来被分别用于低频段编码器,fd-bwe高频段编码器。关于核心编码操作361、pch声道核心编码器406的存储器、预加重输入信号缓冲器、hb输入缓冲器等的进一步信息可以例如在参考文献[1]中到。
[0172]
1.4在ivas立体声编码设备200中从dft立体声模式切换到td立体声模式
[0173]
从dft立体声模式切换到td立体声模式比从td立体声模式切换到dft立体声模式更复杂,这是由于td立体声编码器400的更复杂的结构。响应于立体声模式选择,立体声模式切换控制器(未示出)执行在从dft立体声模式(dft立体声编码器300)切换到td立体声模式(td立体声编码器400)时执行的以下操作。
[0174]
图7a是示出从dft立体声模式切换到td立体声模式时ivas立体声编码设备200和方法250中的处理操作的流程图。具体地,图7a示出了当从dft立体声模式切换到td立体声模式时,在具有相关时间实例的不同处理操作处的立体声输入信号的两个帧,即dft立体声帧701跟随有td立体声帧702。
[0175]
图7a的实例a)指的是td立体声编解码模式的主声道pch中使用的fir重采样滤波器存储器的更新(如在从输入立体声信号采样率到12.8khz采样率和内部核心编码器采样率的fir重采样中采用)。立体声模式切换控制器(未示出)使用下混合的中间声道m在每个dft立体声帧中执行该更新,并对应于dft立体声帧701中最后7.5ms长的段之前的2
×
0.9375ms长的段703(见704),从而确保主声道pch的fir重采样存储器的连续性。
[0176]
由于dft立体声编码方法350的侧声道s(图3)不可用,虽然在例如12.8khz采样率、输入立体声信号采样率和内部采样率下使用,因此立体声模式切换控制器(未示出)不同地填充下混合次声道sch的fir重采样滤波器存储器。为了在核心编码器407的内部采样率下重构下混合信号的全长,在td立体声帧702中重新计算先前帧的下混合信号的8.75ms段(见705)。因此,下混合次声道sch fir重采样滤波器存储器的更新对应于在最后8.75ms长的段之前的下混合中间声道m的2
×
0.9375ms长的段708(见705);这在从前面的dft立体声帧701切换之后的第一td立体声帧702中进行。次声道sch fir重采样滤波器存储器更新由图7a中的实例c)参考。可以看出,立体声模式切换控制器(未示出)在td立体声帧中重新计算下混合信号的长度(见706),该长度在次声道sch中相对于在主声道pch中重新计算的下混合信号的长度(见707)更长。
[0177]
图7a中的实例b)涉及dft立体声帧701之后的第一td立体声帧702中的主pch和次sch声道的更新(重新计算)。由立体声模式切换控制器(未示出)执行的实例b)的操作在图7b中更详细地示出。如前述描述所述,图7b是示出从dft立体声模式切换到td立体声模式时的处理操作的流程图。
[0178]
参考图7b,在操作710中,立体声模式切换控制器(未示出)重新计算ica存储器,如ica分析和计算中所使用的(见图2中的操作251)以及随后作为对应于先前dft立体声帧701的声道l和r的长度为9.6875ms(如在本公开的1.2.7-1.2.9节中讨论的)的预处理和核心编码器(见操作453-454和456-459)的输入信号。
[0179]
因此,在操作712和713中,立体声模式切换控制器(未示出)通过使用dft立体声帧701的立体声混合比对ica处理的声道l和r进行下混合来重新计算该dft立体声帧701的主pch和次sch声道。
[0180]
对于次声道sch,在操作712中由立体声模式切换控制器(未示出)重新计算的过去段的长度(见714)是9.6875ms,尽管在没有立体声编解码模式切换时重新计算长度仅为7.5ms的段(见715)。对于主声道pch(见操作713),立体声模式切换控制器(未示出)使用过去帧701的td立体声混合比重新计算的段的长度总是7.5ms(见715)。这确保了主pch和次sch声道的连续性。
[0181]
当从dft立体声帧701的中间声道m切换到td立体声帧702的主声道pch时,采用连续下混合信号。为此,立体声模式切换控制器(未示出)交叉衰落(717)dft中间声道m的7.5ms长的段(见715)和dft立体声帧701的重新计算的主声道pch(713),以便平滑转换并均衡dft立体声模式和td立体声模式之间的不同下混合信号能量。在操作712中,次声道sch的重构使用帧701的混合比,同时由于来自dft立体声帧701的次声道sch不可用而不应用进一步的平滑。
[0182]
然后,在dft立体声帧701之后的第一td立体声帧702中的核心编码继续使用fir滤波器对下混合信号进行重采样、预加重这些信号、hb信号的计算等。关于这些操作的进一步信息可以在参考文献[1]中到。
[0183]
关于实现为用于加重输入信号的较高频率的一阶高通滤波器的预加重滤波器(见参考文献[1],第5.1.4条),立体声模式切换控制器(未示出)在每个dft立体声帧中存储预加重滤波器存储器的两个值。这些存储值对应于基于dft和td立体声模式的不同的重新计算长度的时间实例。该机制确保在声道m和主声道pch中分别以最小的信号长度对预加重信
号进行最优的重新计算。对于td立体声模式的次声道sch,在第一td立体声帧被处理之前,预加重滤波器存储器被设置为零。
[0184]
从dft立体声帧701之后的第一td立体声帧702开始,不需要某些dft立体声相关数据结构(例如,上文提到的dft立体声数据结构),因此由立体声模式切换控制器(未示出)释放/解除它们。另一方面,为次声道sch的核心编码(操作457)分配和初始化核心编码器数据结构的第二实例。次声道sch核心编码器数据结构的大多数被重置,尽管它们中的一些被估计用于更平滑的切换转换。例如,次声道sch的先前激励缓冲器(acelp核心的自适应码本)、先前lsf参数和lsp参数(见参考文献[1])从主声道pch中的对应部分填充。对次声道sch先前缓冲器的重置或估计可能是大量伪音的来源。虽然许多这样的伪音在解码器的基于平滑的过程中被显著地抑制,但它们中的很少可能仍然是主观伪音的来源。
[0185]
1.5ivas立体声编码设备200中从td立体声模式切换到mdct立体声模式
[0186]
从td立体声模式切换到mdct立体声模式相对简单,因为这两种立体声模式处理两个输入声道并采用两个核心编码器实例。主要障碍是保持输入左、右声道的正确相位。
[0187]
为了保持立体声声音信号的输入左声道和右声道的正确相位,立体声模式切换控制器(未示出)改变td立体声下混合。在第一mdct立体声帧之前的最后一td立体声帧中,td立体声混合比被设置为β=1.0,并且使用例如以下用于td立体声下混合的公式来实现立体声声音信号的左声道和右声道的反相下混合:
[0188]
pch(i)=r(i)
·
(1-β)+l(i)
·
β
[0189]
sch(i)=l(i)
·
(1-β)+r(i)
·
β
[0190]
其中pch(i)为td主声道,sch(i)为td次声道,l(i)为左声道,r(i)为右声道,β为td立体声混合比,i为离散时间索引。
[0191]
反过来,这意味着td立体声主声道pch(i)与mdct立体声过去左声道lpast(i)相同,而td立体声次声道sch(i)与mdct立体声过去右声道rpast(i)相同,其中i是离散时间索引。为了完整性,注意立体声模式切换控制器(未示出)可以在最后的td立体声帧中使用例如以下公式,使用默认的td立体声下混合:
[0192]
pch(i)=r(i)
·
(1-β)+l(i)
·
β
[0193]
sch(i)=l(i)
·
(1-β)-r(i)
·
β
[0194]
接着,在通常(无立体声模式切换)mdct立体声处理中,前置预处理(前置预处理503和504以及前置预处理操作553和554)不重新计算立体声声音信号的左l和右r声道的前瞻,除了其最后的0.9375ms长的段。然而,在实践中,7.5+0.9375ms长的前瞻受内部采样率(在这个非限制性说明性实现方式中为12.8khz)下的重新计算的影响。因此,不需要特定的处理来保持输入信号在输入采样率下的连续性。
[0195]
然后,在通常(没有立体声模式切换)mdct立体声处理中,进一步的预处理(进一步的预处理器505和507以及前置预处理操作555和557)不重新计算立体声声音信号的左l和右r声道的前瞻,除了其最后的0.9375ms长的段。与前置预处理相反,在进一步的预处理中重新计算长度仅为0.9375ms的内部采样率(在该非限制性说明性实现方式中为12.8khz)下的输入信号(立体声声音信号的左l和右r声道)。
[0196]
换句话说:
[0197]
mdct立体声编码器500包括(a)前置预处理器503和504,其在第二mdct立体声模式
下,以内部采样率重新计算立体声声音信号的左l和右r声道的第一持续时间的前瞻,以及(b)进一步的预处理器,其在第二mdct立体声模式下,以内部采样率重新计算立体声声音信号的左l和右r声道的前瞻的给定持续时间的最后段,其中第一和第二持续时间是不同的。
[0198]
mdct立体声编解码操作550包括,在第二mdct立体声模式中:(a)以内部采样率重新计算立体声声音信号的左l和右r声道的第一持续时间的前瞻,以及(b)以内部采样率重新计算立体声声音信号的左l和右r声道的前瞻的给定持续时间的最后段,其中第一和第二持续时间是不同的。
[0199]
1.6在ivas立体声编码设备200中从mdct立体声模式切换到td立体声模式
[0200]
与从td立体声模式切换到mdct立体声模式类似,在这种场景下,总是有两个输入声道可用,并且总是采用两个核心编码器实例。主要障碍再次是保持输入左和右声道的正确相位。因此,在最后mdct立体声帧之后的第一td立体声帧中,立体声模式切换控制器(未示出)将td立体声混合比设置为β=1.0,并通过类似于在第1.5节中描述的使用反相混合方案来改变td立体声下混合。
[0201]
关于从mdct立体声模式到td立体声模式的切换的另一个具体操作是立体声模式切换控制器(未示出)在第一td帧中以内部采样率适当地重构立体声声音信号的输入声道的过去段。因此,对应于8.75-7.5=1.25ms的前瞻的一部分在第一td立体声帧中被重构(重采样和预加重)。
[0202]
1.7在ivas立体声编码设备200中从dft立体声模式切换到mdct立体声模式
[0203]
在该场景中使用类似于如上所述从dft立体声模式切换到td立体声模式的机制,其中,td立体声模式的主pch和次sch声道被mdct立体声模式的左l和右r声道替换。
[0204]
1.8在ivas立体声编码设备200中从mdct立体声模式切换到dft立体声模式
[0205]
在该场景中使用类似于如上所述从td立体声模式切换到dft立体声模式的机制,其中,td立体声模式的主pch和次sch声道被mdct立体声模式的左l和右r声道替换。
[0206]
2.在ivas立体声解码设备800和方法850中的立体声模式之间切换
[0207]
图8是同时示出ivas立体声解码设备800和对应的解码方法850的高层框图,其中ivas立体声解码设备800包括dft立体声解码器801和对应的dft立体声解码方法851、td立体声解码器802和对应的td立体声解码方法852、以及mdct立体声解码器803和对应的mdct立体声解码方法853。为了简单起见,只示出和描述了dft、td和mdct立体声模式;然而,使用和实现其他类型的立体声模式也在本公开的范围内。
[0208]
ivas立体声解码设备800和对应的解码方法850接收从ivas立体声编码设备200发送的比特流830。一般而言,ivas立体声解码设备800和对应的解码方法850从比特流830解码经编解码的立体声信号的连续帧,例如在evs编解码器的情况下20ms长的帧,执行解码帧的上混合,并最终产生包括声道l和r的立体声输出信号。
[0209]
2.1不同立体声解码器和解码方法之间的差异
[0210]
在内部采样率下执行的核心解码基本相同,与实际立体声模式无关;然而,对于dft立体声帧,核心解码执行一次(中间声道m),对于td立体声帧(主pch和次sch声道)或对于mdct立体声帧(左l和右r声道)执行两次。一个问题是,分别当从dft立体声帧切换到td立体声帧时保持(更新)td立体声帧的次声道sch的存储器,当从dft立体声帧切换到mdct立体声帧时保持(更新)mdct立体声帧的r声道的存储器。
[0211]
此外,核心解码之后的进一步解码操作强烈地取决于实际立体声模式,这因此使立体声模式之间的切换复杂化。最根本的区别如下:
[0212]
dft立体声解码器801和解码方法851:
[0213]-从内部采样率到输出立体声信号采样率的经解码核心合成的重采样在dft域中完成,其dft分析和合成重叠窗长度为3.125ms。
[0214]-低频段(lb)低音后滤波(在acelp帧中)适配在dft域中完成。
[0215]-核心切换(acelp核心《-》tcx/hq核心)在dft域中完成,可用延迟为3.125ms。
[0216]-lb合成和hb合成之间的同步(在acelp帧中)不需要额外的延迟。
[0217]-立体声上混合在dft域中完成,可用延迟为3.125ms。
[0218]-与总体解码器延迟(其为3.25ms)匹配的时间同步被应用为0.125ms的长度。
[0219]
td立体声解码器802和解码方法852:(关于td立体声解码器的进一步信息可以在例如参考文献[4])中到)
[0220]-利用延迟为1.25ms的cldfb滤波器对解码核心合成进行从内部采样率到输出立体声信号采样率的重采样。
[0221]-lb低音后滤波(在acelp帧中)调整是在cldfb域中完成的。
[0222]-核心切换(acelp核心《-》tcx/hq核心)在时域内完成,可用时延为1.25ms。
[0223]-在lb合成和hb合成之间的同步(在acelp帧中)引入了额外的延迟。
[0224]-立体声上混合在td域完成,具有零延迟。
[0225]-与总体解码器延迟相匹配的时间同步被应用为2.0ms的长度。
[0226]
mdct立体声解码器803和解码方法853:
[0227]-由于仅采用了基于tcx的核心解码器,因此仅1.25ms的时延调整用于同步不同核心之间的核心合成信号。
[0228]-跳过lb低音后过滤(在acelp帧中)。
[0229]-核心切换(acelp核心《-》tcx/hq核心)仅在td或dft立体声帧之后的第一mdct立体声帧中、在时域中进行,可用延迟为1.25ms。
[0230]-lb合成和hb合成的同步性是不相关的。
[0231]-跳过立体声上混合。
[0232]-与总体解码器延迟相匹配的时间同步被应用为2.0ms的长度。
[0233]
在本文下面描述的用于在dft和td立体声模式之间进行切换的过程中,仔细考虑解码期间的不同操作,主要是dft“vs”td域处理,以及dft立体声模式和td立体声模式之间的不同延迟方案。
[0234]
2.2ivas立体声解码设备800中的处理及解码方法850
[0235]
下表iii根据当前dft、td或mdct立体声模式按顺序列出ivas立体声解码设备800中针对每个帧的处理操作(也见图8)。
[0236]
表iii-ivas立体声解码设备800中的处理步骤
[0237][0238][0239]
ivas立体声解码方法850包括控制dft、td和mdct立体声模式之间的切换的操作(未示出)。为了执行切换控制操作,ivas立体声解码设备800包括在dft、td和mdct立体声模式之间切换的控制器(未示出)。ivas立体声解码设备800和解码方法850中的dft、td和mdct立体声模式之间的切换涉及使用立体声模式切换控制器(未示出)来保持以下若干解码器信号和存储器1)到6)的连续性,以使得能够在ivas立体声解码设备800和方法850中充分地处理这些信号以及使用这些存储器:
[0240]
1)内部采样率下的下混合信号和核心后滤波器的存储器,用于核心解码;
[0241]-dft立体声解码器801:中间声道m;
[0242]-td立体声解码器802:主声道pch和次声道sch;
[0243]-mdct立体声解码器803:左声道l和右声道r(不下混合)。
[0244]
2)tcx-ltp(变换编解码激励-长期预测)后滤波存储器。tcx-ltp后滤波器用于使用多相fir插值滤波器在过去的合成样本之间进行插值(见参考文献[1],第6.9.2条);
[0245]
3)在dft操作854之前的先前帧和当前帧中,在窗口的ola部分中使用的内部采样率和输出立体声信号采样率下dft ola分析存储器;
[0246]
4)在idft操作855和856之后并且在输出立体声信号采样率下,在先前和当前帧中的窗口的ola部分中使用的dft ola合成存储器;
[0247]
5)输出立体声信号,包括声道l和r;和
[0248]
6)在bwe和ic-bwe中使用的hb信号存储器(见参考文献[1],条款6.1.5),声道l和r。
[0249]
虽然在上述条目1)中保持一个声道(dft立体声模式中的中间声道m,分别为在td立体声模式中的主声道pch或mdct立体声模式中的l声道)的连续性相对简单,但对于上述条目1)中的次声道sch以及对于条目2)-6)中的信号/存储器来说,由于几个方面,例如完全丢失次声道sch的过去信号和存储器、不同的下混合、dft立体声模式和td立体声模式之间不同的默认延迟等,这是具有挑战性的。此外,与编码器延迟(8.75ms)相比,较短的解码器延迟(3.25ms)进一步使解码过程复杂化。
[0250]
2.2.1读取立体声模式和音频带宽信息
[0251]
ivas立体声解码方法850以从传输的比特流830读取(未示出)立体声模式和音频带宽信息开始。基于当前读取的立体声模式,对每个特定立体声模式执行相关的解码操作(见表iii),同时保持其他立体声模式的存储器和缓冲器。
[0252]
2.2.2存储器分配
[0253]
类似于ivas立体声编码设备200,在存储器分配操作(未示出)中,立体声模式切换控制器(未示出)根据当前立体声模式动态地分配/释放数据结构(静态存储器)。立体声模式切换控制器(未示出)通过仅保持在当前帧中使用的静态存储器的那些部分来将编解码器的静态存储器影响保持得尽可能低。参考表ii以获得以具体立体声模式分配的数据结构的概要。
[0254]
此外,立体声模式切换控制器(未示出)读取lrtd立体声子模式标志,以区分正常td立体声模式和lrtd立体声模式。基于子模式标志,立体声模式切换控制器(未示出)在td立体声模式内分配/释放相关数据结构,如表ii所示。
[0255]
2.2.3立体声模式切换更新
[0256]
类似于ivas立体声编码设备200,立体声模式切换控制器(未示出)在从dft、td和mdct立体声模式之一切换到另一立体声模式的情况下处理存储器。这保持更新的长期参数并更新或重置过去的缓冲存储器。
[0257]
在接收到td立体声帧或mdct立体声帧之后的第一dft立体声帧时,立体声模式切换控制器(未示出)执行重置dft立体声数据结构的操作(已经关于dft立体声编码器300进行了定义)。在接收到dft或mdct立体声帧之后的第一td立体声帧时,立体声模式切换控制
器执行重置td立体声数据结构的操作(已经关于td立体声解码器400进行了描述)。最后,在接收到dft或td立体声帧之后的第一mdct立体声帧时,立体声模式切换控制器(未示出)执行重置mdct立体声数据结构的操作。再次,当从dft和td立体声模式之一切换到另一立体声模式时,立体声模式切换控制器(未示出)执行在数据结构之间传输一些立体声相关参数的操作,如关于ivas立体声编码设备200所述(见上面的1.2.4节)。
[0258]
与核心解码的次声道sch相关的更新/重置在2.4节中描述。
[0259]
另外,关于表iii中的立体声解码器配置、核心解码器配置、td立体声解码器配置、核心解码、dft域中的核心切换、td域中的核心切换的操作的进一步信息可以在例如参考文献[1]和[2]中到。
[0260]
2.2.4dft立体声模式重叠存储器的更新
[0261]
立体声模式切换控制器(未示出)保持或更新每个td或mdct立体声帧中的dft ola存储器(见表iii的“dft立体声模式重叠存储器的更新”、“mdct立体声tcx重叠缓冲器的更新”和“dft立体声重叠存储器的重置/更新”)。以这种方式,更新的dft ola存储器可用于下一dft立体声帧。实际的保持/更新机制和相关的存储器缓冲器稍后在本公开的2.3节中描述。下面给出了c源代码中在td或mdct立体声帧中执行的dft立体声ola存储器更新的示例实现方式。
[0262]
[0263]
[0264][0265]
2.2.5dft立体声解码器801及解码方法851
[0266]
dft解码方法851包括对中间声道m进行核心解码的操作857。为了执行操作857,核心解码器807响应于接收的比特流830,在时域中对中间信道m进行解码。dft立体声解码器801中的核心解码器807(执行核心解码操作857)可以是任何可变比特率单声道编解码器。在本公开的说明性实现方式中,使用具有波动比特率能力(见参考文献[5])的evs编解码器(见参考文献[1])。当然,也可以考虑和实现其他合适的编解码器。
[0267]
在dft解码方法851的dft计算操作854(表iii的dft分析)中,计算器804计算中间声道m的dft以恢复dft域中的中间声道m。
[0268]
dft解码方法851还包括解码立体声侧信息和残差信号s的操作858(表iii的残差解码)。为了执行操作858,解码器808响应于比特流830以恢复立体声侧信息和残差信号s。
[0269]
在dft立体声解码(表iii的dft立体声解码)和上混合(表iii的dft域中的上混合)操作859中,dft立体声解码器和上混合器809响应于中间声道m以及侧信息和残差信号s产生dft域中的声道l和r。一般而言,dft立体声解码和上混合操作859与图3的dft立体声处理和下混合操作353相反。
[0270]
在idft计算操作855(表iii的dft合成)中,计算器805计算声道l的idft以在时域中恢复声道l。同样,在idft计算操作856(表iii的dft合成)中,计算器806计算声道r的idft以在时域中恢复声道r。
[0271]
2.2.6td立体声解码器802及解码方法852
[0272]
td解码方法852包括对主声道pch进行核心解码的操作860。为了执行操作860,核心解码器810响应于接收的比特流830对主声道pch进行解码。
[0273]
td解码方法852还包括对次声道sch进行核心解码的操作861。为了执行操作861,核心解码器811响应于接收到的比特流830对次声道sch进行解码。
[0274]
同样,核心解码器810(在td立体声解码器802中执行核心解码操作860)和核心解码器811(在td立体声解码器802中执行核心解码操作861)可以是任何可变比特率单模编解码器。在本公开的说明性实现方式中,使用具有波动比特率能力(见参考文献[5])的evs编
解码器(见参考文献[1])。当然,也可以考虑和实现其他合适的编解码器。
[0275]
在时域(td)上混合操作862(表iii的td域中的上混合)中,上混合器812接收主pch和次sch声道并进行上混合,以基于td立体声混合因子恢复立体声信号的时域声道l和r。
[0276]
2.2.7mdct立体声解码器803及解码方法853
[0277]
mdct解码方法853包括对左声道l和右声道r进行联合核心解码(表iii的联合立体声解码)的操作863。为了执行操作863,联合核心解码器813响应于接收的比特流830解码左声道l和右声道r。注意,在mdct立体声模式中不执行上混合操作,也不采用上混合器。
[0278]
2.2.8合成同步
[0279]
为了执行立体声合成时间同步(表iii的合成同步)和立体声切换操作864,立体声模式切换控制器(未示出)包括时间同步器和立体声切换814,以从dft立体声解码器801、td立体声解码器802或mdct立体声解码器803接收声道l和r,并同步上混合输出立体声声道l和r。时间同步器和立体声切换814延迟上混合输出立体声声道l和r,以匹配编解码器总体延迟值,并处理dft立体声输出声道、td立体声输出声道和mdct立体声输出声道之间的转换。
[0280]
默认情况下,在dft立体声模式中,时间同步器和立体声切换814在dft立体声解码器801处引入3.125ms的延迟。为了匹配32ms的编解码器总体延迟(帧长度20ms,编码器延迟8.75ms,解码器延迟3.25ms),时间同步器和立体声切换814应用0.125ms的延迟同步。在td或mdct立体声模式的情况下,时间同步器和立体声切换814应用由1.25ms重采样延迟和用于lb和hb合成之间的同步的2ms延迟组成的延迟,以匹配32ms的总体编解码器延迟。
[0281]
在执行时间同步和立体声切换(见图8的合成时间同步和立体声切换操作864和时间同步器和立体声切换814)之后,hb合成(来自bwe或ic-bwe)被添加到核心合成(ic-bwe,表iii的hb合成的添加;还见图8中的bwe或ic-bwe计算操作865和bwe或ic-bwe计算器815),并且在从ivas立体声解码设备800输出声道l和r的最终立体声合成之前执行ica解码(ica解码器-表iii的时间调整,其使两个输出声道l和r去同步)(见时间ica操作866和对应的ica解码器816)。在mdct立体声模式中跳过操作865和866。
[0282]
最后,如表iii所示,执行通用立体声更新。
[0283]
2.3在ivas立体声解码设备处从td立体声模式切换到dft立体声模式
[0284]
关于2.3和2.4节中提到的元素、操作和信号的进一步信息可以在参考文献[1]和[2]中到。
[0285]
在ivas立体声解码设备800处从td立体声模式切换到dft立体声模式的机制由于以下事实而变得复杂,即这两个立体声模式之间的解码步骤根本不同(详情见上面的2.1节),包括从最后td立体声帧中的两个核心解码器810和811到第一dft立体声帧中的一个核心解码器807的转换。
[0286]
图9是示出从td立体声模式切换到dft立体声模式时ivas立体声解码设备800和方法850中的处理操作的流程图。具体地,图9示出当从td立体声帧901切换到dft立体声帧902时,在具有相关时间实例的不同处理操作处的解码立体声信号的两个帧。
[0287]
首先,td立体声解码器802的核心解码器810和811用于主pch和次sch声道,并且每个以内部采样率输出对应的解码核心合成。在td立体声帧901中,来自两个核心解码器810和811的解码核心合成被用于更新dft立体声ola存储器缓冲器(每声道一个存储器缓冲器,
即总共两个ola存储器缓冲器;见上面描述的dft ola分析和合成存储器)。这些ola存储器缓冲器在每个td立体声帧中更新,以在下一帧是dft立体声帧的情况下保持最新。
[0288]
图9的实例a)指的是,在接收到td立体声帧901之后的第一dft立体声帧902时,使用立体声模式切换控制器(未示出)以内部采样率input_mem_lb[]更新dft立体声分析存储器(这些存储器在dft计算操作854之前在前一帧和当前帧中的加窗的ola部分中使用)的操作(未示出)。为此,立体声模式切换控制器(未示出)使用td立体声帧901中主声道pch和次声道sch的内部采样率下的td立体声合成的数量l
ovl
的最后样本903的来分别更新dft立体声中间声道m和侧声道s的dft立体声分析存储器。重叠段903的长度l
ovl
对应于dft分析窗口905的3.125ms长的重叠部分,例如在12.8khz内部采样率下l
ovl
=40个样本。
[0289]
类似地,立体声模式切换控制器(未示出)以内部采样率input_mem_bpf[],使用td主声道pch的bpf误差信号(见参考文献[1],第6.1.4.2条)的l
ovl
个最后样本,更新中间声道m的dft立体声低音后滤波器(bpf)分析存储器(其在dft计算操作854之前,在先前帧和当前帧中的加窗的ola部分中使用)。此外,分别使用td立体声pch hb合成(acelp核心)、pch tcx合成的3.125ms最后样本更新输出立体声信号采样率input_mem[]下的中声道m的dft立体声全频带(fb)分析存储器(该存储器用于在dft计算操作854之前的先前帧和当前帧中的加窗的ola部分)。dft立体声bpf和fb分析存储器不用于侧信息声道s,因此这些存储器不使用次声道sch核心合成来更新。
[0290]
接下来,在td立体声帧901中,使用引入1.25ms延迟的cldfb域滤波以内部采样率对经解码acelp核心合成(主pch和次sch声道)进行重采样。在tcx/hq核心帧的情况下,使用1.25ms的补偿延迟来同步不同核心之间的核心合成。然后将tcx-ltp后滤波器应用于核心声道pch和sch两者。
[0291]
在下一操作中,来自td立体声帧901的输出立体声信号采样率下的td立体声合成的主pch和次sch声道受td立体声上混合的影响(使用td上混合器812中的td立体声混合比对主pch和次sch声道进行组合(见参考文献[4])),引起时域中的上混合立体声声道l和r。由于上混合操作862是在时域中执行的,因此不引入上混合延迟。
[0292]
然后,在更新dft立体声合成存储器的操作(未示出)中使用来自td立体声解码器802的上混合器812的td立体声帧901的左l和右r上混合声道(这些存储器在idft计算操作855之后,在先前帧和当前帧中的加窗的ola部分中使用)。再次,在下一帧是dft立体声帧的情况下,立体声模式切换控制器(未示出)在每个td立体声帧中完成该更新。图9的实例b)描绘了td立体声左l和右r声道合成的可用最后样本的数量不足以用于直接更新dft立体声合成存储器。3.125ms长的dft立体合成存储器因此使用近似重构成两段。第一段对应于可用的(3.125-1.25)ms长的信号(即输出立体声信号采样率下的上混合合成),而第二段对应于由于核心解码器重采样延迟而不可用的剩余1.25ms长的信号。
[0293]
具体地,dft立体声合成存储器由立体声模式切换控制器(未示出)使用以下子操作更新,如图10所示。图10是示出图9的实例b)的流程图,包括在解码器侧更新td立体声帧中的dft立体声合成存储器:
[0294]
(a)在解码方法850期间早些时候重构的内部采样率input_mem_lb[]下的dft立体声分析存储器的两个声道l和r(它们与内部采样率下的核心合成相同)受取决于实际解码核心的进一步处理的影响:
[0295]-acelp核心:使用具有零延迟的简单线性插值,将内部采样率下的主pch和次sch声道的lb核心合成的最后l
ovl
个样本1001重采样到输出立体声信号采样率(见1003)。
[0296]-tcx/hq核心:使用具有零延迟的简单线性插值,将内部采样率下的主pch和次sch声道的lb核心合成的最后l
ovl
个样本1001类似地重采样到输出立体声信号采样率(见1003)。然而,然后,tcx同步存储器(来自前一帧的tcx合成的最后1.25ms段)被用于更新重采样的核心合成的最后1.25ms。
[0297]
(b)与td立体声帧901的主pch和次sch声道的3.125ms长的部分相对应的线性重采样lb信号被上混合(见1003),以形成左l和右r声道,使用通用td立体声上混合例程,同时使用来自当前帧的td立体声混合比(见td上混合操作862)。得到的信号进一步被称为“重构合成”1002。
[0298]
(c)dft立体声合成存储器的第一(3.125-1.25ms)长的部分的重构取决于实际解码核心:
[0299]-acelp核心:在td立体声帧901的声道的第一(3.125-1.25)ms长的部分期间,对声道l和r两者执行输出立体声信号采样率下的基于cldfb的重采样和td上混合合成1005和重构合成1002(来自先前子操作(b))之间的交叉衰落1004。
[0300]-tcx/hq核心:使用上混合合成1005更新dft立体声合成存储器的第一(3.125-1.25)ms长的部分。
[0301]
(d)用重构合成1002的最后部分填充dft立体声合成存储器的1.25ms长的最后部分。
[0302]
(e)仅在第一dft立体声帧902中(如果发生从td到dft立体声模式的切换),将dft合成窗口(图9中的904)应用于dft ola合成存储器(在上文定义)。注意,由于dft合成窗形状904收敛到零,所以dft ola合成存储器的最后1.25ms部分的重要性有限,并且它因此屏蔽了从基于简单线性插值的重采样而得到的重构合成1002的近似样本。
[0303]
最后,td立体声帧901的上混合重构合成1002被对准,即在时间同步器和立体声切换814中延迟2ms,以便匹配编解码器总体延迟。具体地:
[0304]-在从td立体声帧切换到dft立体声帧的情况下,由立体声模式切换控制器(未示出)重置其他dft立体声存储器(除了重叠存储器之外),即dft立体声解码器过去的帧参数和缓冲器。
[0305]-然后,执行dft立体声解码(见859)、上混合(见859)和dft合成(见855和856),并且对准立体声输出合成(声道l和r),即在时间同步器和立体声切换814中延迟0.125ms,以便匹配编解码器总体延迟。
[0306]
图11是示出图9的实例c)的流程图,包括在解码器侧,在立体声模式切换之后,平滑第一dft立体声帧902中的输出立体声合成。
[0307]
参考图11,一旦dft立体声合成与第一dft立体声帧902中的编解码器总体延迟对准和同步,立体声模式切换控制器(未示出)在td立体声对准和同步合成1101(来自操作864)与dft立体声对准和同步合成1102(来自操作864)之间执行交叉衰落操作1151以平滑切换转换。交叉衰落在1.875ms长的段1103上执行,该段1103在输出声道l和r两者的开始处的0.125ms延迟1104之后开始(所有信号都处于输出立体声信号采样率)。这个实例对应于图9中的实例c)。
[0308]
然后利用ic-bwe计算器815、ica解码器816和通用立体声解码器更新继续解码,而不管当前立体声模式如何。
[0309]
2.4在ivas立体声解码设备处从dft立体声模式切换到td立体声模式
[0310]
dft立体声模式和td立体声模式之间的根本不同的解码操作以及td立体声解码器802中两个核心解码器810和811的存在使得在ivas立体声解码设备800中从dft立体声模式切换到td立体声模式具有挑战性。图12是示出从dft立体声模式切换到td立体声模式时ivas立体声解码设备800和方法850中的处理操作的流程图。具体地,图12示出了在从dft立体声帧1201切换到td立体声帧1202时,在具有相关时间实例的不同处理操作处的解码立体声信号的两个帧。
[0311]
核心解码可以使用相同的处理,而不管实际的立体声模式,但有两个例外。
[0312]
第一例外:在dft立体声帧中,在dft域中执行从内部采样率到输出立体声信号采样率的重采样,但是并行地运行cldfb重采样,以便在下一帧是td立体声帧的情况下保持/更新cldfb分析和合成存储器。
[0313]
第二例外:然后,在dft立体声帧的dft域中应用bpf(低音后滤波器)(一种低频基音增强过程,见文献[1],第6.1.4.2条),而在时域中对误差信号进行bpf分析和计算,而不管立体声模式如何。
[0314]
否则,当从dft中间声道m切换到td主声道pch时,核心解码器的所有内部状态和存储器简单地连续并良好地保持。
[0315]
然后,在dft立体声帧1201中,解码继续进行:对中间声道m进行核心解码(857),在时域中计算中间声道m的dft变换(854)以获得dft域中的中间声道m,以及在dft域中对声道m和s进行立体声解码和上混合(859)到声道l和r,包括对残差信号的解码(858)。dft域分析和合成引入了3.125ms的ola时延。然后在时间同步器和立体声切换814中处理合成转换。
[0316]
当从dft立体声帧1201切换到td立体声帧1202时,dft立体声解码器801中只有一个核心解码器807的事实使得td次声道sch的核心解码变得复杂,因为td立体声解码器802的第二核心解码器811的内部状态和存储器不连续保持(相反,使用dft立体声解码器801的核心解码器807的内部状态和存储器连续保持第一核心解码器810的内部状态和存储器)。因此,第二核心解码器811的存储器通常在立体声模式切换更新中由立体声模式切换控制器(未示出)重置(见表iii)。然而,在主声道sch存储器被某些pch缓冲器(例如,先前的激励、先前的lsf参数和先前的lsp参数)的存储器填充的情况下,有很少的例外。在任何情况下,在从dft立体声帧1201切换到td立体声帧1202之后的第一td次声道sch帧的开始处的合成因此遭受不完美的重构。因此,当来自第一核心解码器810的合成在立体声模式切换期间被良好且平滑地解码时,来自第二核心解码器811的有限质量合成在立体声上混合和最终合成(862)期间引入不连续性。如后文所述,通过在第一td立体声输出合成重构期间采用dft立体声ola存储器来抑制这些不连续性。
[0317]
立体声模式切换控制器(未示出)通过信号能量的简单均衡来抑制dft立体声和td立体声上混合声道之间可能的不连续性和差异。如果ica目标增益g
ica
低于1.0,则在立体声模式切换后的第一td立体声帧1202中,使用以下关系式改变上混合(862)之后和时间同步(864)之前的声道l,y
l(i)
:
[0318]y′
l
(i)=α
·yl
(i)for i=0,...,l
eq-1
[0319]
其中,l
eq
是用于均衡的信号的长度,其在ivas立体声解码设备800中对应于8.75ms的长的段(例如,对应于16khz输出立体声信号采样率下的leq=140个采样)。然后,利用以下关系式得到增益因子α的值:
[0320][0321]
参考图12,实例a)涉及与来自dft立体声帧1201的先前dft立体声上混合同步合成存储器相对应的td立体声帧1202的td立体声上混合同步合成(来自操作864)的缺失部分1203。当从dft立体声帧1201切换到td立体声帧1202时,除了其第一0.125ms长的段1204之外,长度为(3.25-1.25)ms的这种存储器不可用。
[0322]
图13是示出图12的实例a)的流程图,包括在解码器侧,从dft立体声模式切换到td立体声模式之后,在第一td立体声帧中更新td立体声上混合同步合成存储器。
[0323]
参考图12和图13,立体声模式切换控制器(未示出)对左l和右r声道使用以下操作(a)至(e)重构td立体声上混合同步合成的3.25ms的1205:
[0324]
(a)校正dft立体声ola合成存储器(在上文定义)(即,将逆合成窗口应用于ola合成存储器;见1301)。
[0325]
(b)td立体声上混合同步合成1303的第一0.125ms部分1302(见图12中的1204)与先前dft立体声上混合同步合成存储器1304(先前帧dft立体声上混合同步合成存储器的最后0.125ms长的段)相同,并且因此被重使用以形成td立体声上混合同步合成1303的第一部分。
[0326]
(c)具有长度为(3.125-1.25)ms的td立体声上混合同步合成1303的第二部分(见图12中的1203)用经修正的dft立体声ola合成存储器1301来近似。
[0327]
(d)然后将来自前面两个步骤(b)和(c)的长度为2ms的td立体声上混合同步合成1303的部分填充到第一td立体声帧1202中的输出立体声合成。
[0328]
(e)在td立体声同步上混合合成1305开始时,对先前dft立体声ola合成存储器1301与来自当前td立体声帧1202的操作864的td同步上混合合成1305之间的转换进行平滑。转换段为1.25ms长(见1306),并且使用经修正的dft立体声ola合成存储器1301和td立体声同步上混合合成1305之间的交叉衰落1307获得。
[0329]
2.5ivas立体声解码设备中td立体声模式到mdct立体声模式的切换
[0330]
从td立体声模式切换到mdct立体声模式相对简单,因为这两种立体声模式处理两个传输声道并采用两个核心解码器实例。
[0331]
由于在td立体声编码器400中采用反相下混合方案,因此立体声模式切换控制器(未示出)类似地改变td立体声声道上混合,以在第一mdct立体声帧之前的最后td立体声帧中保持立体声声音信号的左声道和右声道的正确相位。具体地,立体声模式切换控制器(未示出)设置混合比β=1.0,并实现td立体声主声道pch(i)和td立体声次声道sch(i)的反相上混合(与td立体声编码器400中采用的反相下混合相反),以计算mdct立体声过去左声道l
past
(i)和mdct立体声过去右声道r
pas
t(i)。因此,td立体声主声道pch(i)与mdct立体声过去左声道l
past
(i)相同,td立体声次声道sch(i)信号与mdct立体声过去右声道rpast(i)相同。
[0332]
2.6在ivas立体声解码设备中从mdct立体声模式切换到td立体声模式
[0333]
类似于从td立体声模式到mdct立体声模式的切换,在此场景中有两个传输声道可用,并且采用两个核心解码器实例。为了保持立体声声音信号的左和右声道的正确相位,立体声模式切换控制器(未示出)在最后mdct立体声帧之后的第一td立体声帧中将td立体声混合比设置为1.0,并再次使用反相上混合方案。
[0334]
2.7在ivas立体声解码设备中从dft立体声模式切换到mdct立体声模式
[0335]
在该场景中使用类似于解码器侧从dft立体声模式切换到td立体声模式的机制,其中td立体声模式的主pch和次sch声道被mdct立体声模式的左l和右r声道替换。
[0336]
2.8在ivas立体声解码设备中从mdct立体声模式切换到dft立体声模式
[0337]
在该场景中使用类似于解码器侧从td立体声模式切换到dft立体声模式的机制,其中td立体声模式的主pch和次sch声道被mdct立体声模式的左l和右r声道替换。
[0338]
最后,无论当前立体声模式如何,解码都继续进行:ic-bwe解码865(在mdct立体声模式下跳过)、添加hb合成(在mdct立体声模式下跳过)、时间ica对准866(在mdct立体声模式下跳过)和通用立体声解码器更新。
[0339]
2.9硬件实现
[0340]
图14是形成上述ivas立体声编码设备200和ivas立体声解码设备800中的每一个的硬件组件的示例配置的简化框图。
[0341]
ivas立体声编码设备200和ivas立体声解码设备800中的每一个可以作为移动终端的部分、作为便携式媒体播放器的部分或在任何类似的设备中实现。ivas立体声编码设备200和ivas立体声解码设备800中的每一个(在图14中标识为1400)包括输入1402、输出1404、处理器1406和存储器1408。
[0342]
输入1402被配置为在ivas立体声编码设备200的情况下以数字或模拟形式接收输入立体声声音信号的左l和右r声道,或者在ivas立体声解码设备800的情况下接收比特流803。输出1404被配置为在ivas立体声编码设备200的情况下提供复用比特流206,或者在ivas立体声解码设备800的情况下提供经解码的左声道l和右声道r。输入1402和输出1404可以在通用模块中实现,例如串行输入/输出设备。
[0343]
处理器1406可操作地连接到输入1402、输出1404和存储器1408。处理器1406被实现为一个或多个处理器,用于执行代码指令,以支持上述ivas立体声编码设备200、ivas立体声编码方法250、ivas立体声解码设备800和ivas立体声解码方法850的各种元素和操作的功能,如附图所示和/或如本公开所述。
[0344]
存储器1408可以包括用于存储可由处理器1406执行的代码指令的非瞬态存储器,具体地,存储非瞬态指令的处理器可读存储器,该指令在执行时使得处理器实现ivas立体声编码设备200、ivas立体声编码方法250、ivas立体声解码设备800和ivas立体声解码方法850的元素和操作。存储器1408还可以包括随机存取存储器或一个或多个缓冲器,以存储由处理器1406执行的各种功能的中间处理数据。
[0345]
本领域的普通技术人员将认识到,对ivas立体声编码设备200、ivas立体声编码方法250、ivas立体声解码设备800和ivas立体声解码方法850的描述只是说明性的,并且不打算以任何方式进行限制。其他的实施例将很容易向受益于本公开的本领域普通技术人员给出暗示。此外,所公开的ivas立体声编码设备200、ivas立体声编码方法250、ivas立体声解码设备800和ivas立体声解码方法850可以被定制以提供对现有需要和对立体声进行编码
和解码的问题的有价值的解决方案。
[0346]
为了清楚起见,示出并描述了ivas立体声编码设备200、ivas立体声编码方法250、ivas立体声解码设备800和ivas立体声解码方法850的实现的并非所有例程特征。当然,将会理解的是,在开发ivas立体声编码设备200、ivas立体声编码方法250、ivas立体声解码设备800和ivas立体声解码方法850的任何此类实际实现时,可能需要作出许多实现特定的决定,以达到开发者的特定目标,诸如符合应用、系统、网络和业务相关的约束,并且这些特定目标将因不同的实现和不同的开发者而不同。此外,可以理解的是,开发工作可能是复杂和耗时的,但对于受益于本公开的声音处理领域的普通技术人员来说,仍将是工程的常规工作。
[0347]
根据本公开,本文描述的元素、处理操作和/或数据结构可以使用各种类型的操作系统、计算平台、网络设备、计算机程序和/或通用机器来实现。此外,本领域的普通技术人员将认识到,也可以使用通用性较差的设备,如硬接线设备、现场可编程门阵列(fpga)、专用集成电路(asic)或类似设备。当包括一系列操作和子操作的方法由处理器、计算机或机器实施并且这些操作和子操作可以被存储为一系列可由处理器、计算机或机器读取的非暂时性代码指令时,它们可被存储在有形和/或非暂时性介质上。
[0348]
如本文所述的ivas立体声编码设备200、ivas立体声编码方法250、ivas立体声解码设备800和ivas立体声解码方法850的元件和处理操作可以包括软件、固件、硬件或适用于本文所述目的的软件、固件或硬件的任何组合。
[0349]
在本文所述的ivas立体声编码方法250和ivas立体声解码方法850中,可以以各种顺序执行各种处理操作和子操作,并且一些处理操作和子操作可以是可选的。
[0350]
尽管本公开已经以其非限制性的说明性的实施例的方式在上文进行了描述,但这些实施例可以在所附权利要求的范围内随意修改,而不偏离本发明的精神和性质。
[0351]
本公开提及以下参考文献,其全部内容通过引用结合于此:
[0352]
[1]3gpp ts 26.445,v.12.0.0,“codec for enhanced voice services(evs);detailed algorithmic description”,sep 2014.
[0353]
[2]m.neuendorf,m.multrus,n.rettelbach,g.fuchs,j.robillard,j.lecompte,s.wilde,s.bayer,s.disch,c.helmrich,r.lefevbre,p.gournay,et al.,“the iso/mpeg unified speech and audio coding standard-consistent high quality for all content types and at all bit rates”,j.audio eng.soc.,vol.61,no.12,pp.956-977,dec.2013.
[0354]
[3]f.baumgarte,c.faller,"binaural cue coding-part i:psychoacoustic fundamentals and design principles,"ieee trans.speech audio processing,vol.11,pp.509-519,nov.2003.
[0355]
[4]t.vaillancourt,“method and system using a long-term correlation difference between left and right channels for time domain down mixing a stereo sound signal into primary and secondary channels,”pct application wo2017/049397a1.
[0356]
[5]v.eksler,"method and device for allocating a bit-budget between sub-frames in a celp codec,"pct application wo2019/056107a1.
[0357]
[6]m.neuendorf et al.,“mpeg unified speech and audio coding-the iso/mpeg standard for high-efficiency audio coding of all content types”,journal of the audio engineering society,vol.61,n
°
12,pp.956-977,december 2013.
[0358]
[7]j.herre et al.,“mpeg-h audio-the new standard for universal spatial/3d audio coding”,in 137th international aes convention,paper 9095,los angeles,october 9-12,2014.
[0359]
[8]3gpp sa4 contribution s4-180462,“on spatial metadata for ivas spatial audio input format”,sa4 meeting#98,april 9-13,2018,https://www.3gpp.org/ftp/tsg_sa/wg4_codec/tsgs4_98/docs/s4-180462.z ip
[0360]
[9]v.malenovsky,t.vaillancourt,“method and device for classification of uncorrelated stereo content,cross-talk detection,and stereo mode selection in a sound codec,”us provisional patent application 63/075,984filed on september 9,2020.

技术特征:


1.一种用于编码立体声声音信号的设备,包括:使用在时域(td)中操作的第一立体声模式的立体声声音信号的第一立体声编码器,其中第一td立体声模式在立体声声音信号的td帧中:(a)产生第一下混合信号,和(b)使用第一数据结构和存储器;使用在频域(fd)中操作的第二立体声模式的立体声声音信号的第二立体声编码器,其中第二fd立体声模式在立体声声音信号的fd帧中:(a)产生第二下混合信号,和(b)使用第二数据结构和存储器;控制器,在(i)第一td立体声模式和第一立体声编码器与(ii)第二fd立体声模式和第二立体声编码器之间进行切换,以在时域或频域中对立体声声音信号进行编解码;其中,当从第一td立体声模式和第二fd立体声模式中的一个立体声模式切换第一td立体声模式和第二fd立体声模式中的另一个立体声模式时,立体声模式切换控制器重新计算立体声声音信号的当前帧中的下混合信号的至少一个长度,其中在第一td立体声模式中重新计算的下混合信号长度不同于在第二fd立体声模式中重新计算的下混合信号长度。2.一种用于编码立体声声音信号的设备,包括:使用在时域(td)中操作的第一立体声模式的立体声声音信号的第一立体声编码器,其中第一td立体声模式在立体声声音信号的td帧中:(a)产生第一下混合信号,和(b)使用第一数据结构和存储器;使用在频域(fd)中操作的第二立体声模式的立体声声音信号的第二立体声编码器,其中第二fd立体声模式在立体声声音信号的fd帧中:(a)产生第二下混合信号,和(b)使用第二数据结构和存储器;控制器,在(i)第一td立体声模式和第一立体声编码器与(ii)第二fd立体声模式和第二立体声编码器之间进行切换,以在时域或频域中对立体声声音信号进行编解码;其中,当从第一td立体声模式和第二fd立体声模式中的一个立体声模式切换第一td立体声模式和第二fd立体声模式中的另一个立体声模式时,立体声模式切换控制器适配在所述另一个立体声模式中使用的数据结构和/或存储器,以对当前帧中的立体声声音信号进行编解码。3.一种用于编码立体声声音信号的设备,包括:使用在时域(td)中操作的第一立体声模式的立体声声音信号的第一立体声编码器,其中第一td立体声模式在立体声声音信号的td帧中:(a)产生第一下混合信号,和(b)使用第一数据结构和存储器;使用在频域(fd)中操作的第二立体声模式的立体声声音信号的第二立体声编码器,其中第二fd立体声模式在立体声声音信号的fd帧中:(a)产生第二下混合信号,和(b)使用第二数据结构和存储器;控制器,在(i)第一td立体声模式和第一立体声编码器与(ii)第二fd立体声模式和第二立体声编码器之间进行切换,以在时域或频域中对立体声声音信号进行编解码;其中,当从第一td立体声模式和第二fd立体声模式中的一个立体声模式切换第一td立体声模式和第二fd立体声模式中的另一个立体声模式时,立体声模式切换控制器在当前帧中重构下混合信号和与所述另一个立体声模式相关的其他信号。4.如权利要求2所述的立体声声音信号编码设备,其中所述立体声模式切换控制器为
了适配在所述另一个立体声模式中使用的数据结构和/或存储器,重置在所述另一个立体声模式中使用的数据结构和/或存储器。5.如权利要求2所述的立体声声音信号编码设备,其中所述立体声模式切换控制器为了适配在所述另一个立体声模式中使用的数据结构和/或存储器,使用在所述一个立体声模式中使用的数据结构和/或存储器更新在所述另一个立体声模式中使用的数据结构和/或存储器。6.如权利要求1至5中任一项所述的立体声声音信号编码设备,其中所述第二fd立体声模式是离散傅里叶变换(dft)立体声模式。7.如权利要求6所述的立体声声音信号编码设备,其中,当从第一td和第二dft立体声模式中的一个立体声模式切换第一td和第二dft立体声模式的另一个立体声模式时,立体声编解码模式切换控制器保持以下信号中至少一个的连续性:包括左声道和右声道的输入立体声信号;在第二dft立体声模式中使用的中间声道;在第一td立体声模式中使用的主声道和次声道;预处理中使用的下混合信号;和核心编码中使用的下混合信号。8.如权利要求6或7所述的立体声声音信号编码设备,其中,当从第一td和第二dft立体声模式中的一个立体声模式切换第一td和第二dft立体声模式中的另一个立体声模式时,所述立体声模式切换控制器根据当前立体声模式向/从第一td和第二dft立体声模式分配/释放数据结构,以通过仅保持在当前帧中采用的那些数据结构来减少存储器影响。9.如权利要求8所述的立体声声音信号编码设备,其中,当从第一td立体声模式切换到第二dft立体声模式时,所述立体声模式切换控制器释放td立体声相关数据结构。10.如权利要求9所述的立体声声音信号编码设备,其中,所述td立体声相关数据结构包括td立体声数据结构和/或第一立体声编码器的核心编码器的数据结构。11.如权利要求6至10中任一项所述的立体声声音信号编码设备,其中,当从第一td立体声模式切换到第二dft立体声模式时,第二立体声编码器利用主声道pch核心编码器存储器在td立体声帧之后的dft立体声帧中继续核心编码操作。12.如权利要求6至11中任一项所述的立体声声音信号编码设备,其中所述立体声模式切换控制器在从所述一个立体声模式切换到所述另一个立体声模式时使用来自所述一个立体声模式的立体声相关参数来更新所述另一个立体声模式的立体声相关参数。13.如权利要求12所述的立体声声音信号编码设备,其中所述立体声模式切换控制器在数据结构之间传输立体声相关参数。14.如权利要求12或13所述的立体声声音信号编码设备,其中所述立体声相关参数包括第二dft立体声模式的侧增益和声道间时间延迟(itd)参数以及第一td立体声模式的目标增益和相关滞后。15.如权利要求6至14中任一项所述的立体声声音信号编码设备,其中所述立体声模式切换控制器通过存储与当前td帧的最后时间段相关的样本,在每个td帧更新dft分析存储器。16.如权利要求6至15中任一项所述的立体声声音信号编码设备,其中所述立体声模式
切换控制器在td帧期间保持dft相关存储器。17.如权利要求6至16中任一项所述的立体声声音信号编码设备,其中所述立体声模式切换控制器在从第一td立体声模式切换到第二dft立体声模式时,在td帧之后的dft帧中使用对应于td帧的主声道pch的td立体声存储器更新dft合成存储器。18.如权利要求6至17中任一项所述的立体声声音信号编码设备,其中所述立体声模式切换控制器在立体声声音信号的dft帧期间保持有限脉冲响应(fir)重采样滤波器存储器。19.如权利要求18所述的立体声声音信号编码设备,其中所述立体声模式切换控制器在每个dft帧中使用dft帧中的中间声道m的第一长度的最后段之前的中间声道m的一段更新第一立体声编码器中的主声道pch中使用的fir重采样滤波器存储器。20.如权利要求18或19所述的立体声声音信号编码设备,其中所述立体声模式切换控制器填充在第一立体声编码器的次声道sch中使用的fir重采样滤波器存储器,其与在第一立体声编码器的主声道pch中使用的fir重采样滤波器存储器的更新不同。21.如权利要求20所述的立体声声音信号编码设备,其中所述立体声模式切换控制器通过使用所述dft帧中的中间声道m的第二长度的最后段之前的中间声道m的一段填充所述fir重采样滤波器存储器,在当前td帧中更新在第一立体声编码器中的次声道sch中使用的fir重采样滤波器存储器。22.如权利要求6至21中任一项所述的立体声声音信号编码设备,其中,当从第二dft立体声模式切换到第一td立体声模式时,所述立体声模式切换控制器在当前td帧中重新计算次声道sch中相对于主声道pch中的下混合信号的重新计算长度更长的下混合信号的长度。23.如权利要求6至22中任一项所述的立体声声音信号编码设备,其中,当从第二dft立体声模式切换到第一td立体声模式时,所述立体声模式切换控制器交叉衰落dft立体声声道的重新计算的主声道pch和dft中间声道m,以在dft帧之后的第一td帧中重新计算主下混合声道pch。24.如权利要求6至23中任一项所述的立体声声音信号编码设备,其中,当从第二dft立体声模式切换到第一td立体声模式时,所述立体声模式切换控制器重新计算对应于td帧之前的dft帧的左l和右r声道的ica存储器。25.如权利要求24所述的立体声声音信号编码设备,其中所述立体声模式切换控制器通过使用dft帧的立体声混合比对ica处理的声道l和r进行下混合来重新计算dft帧的主pch和次sch声道。26.如权利要求25所述的立体声声音信号编码设备,其中,当没有立体声模式切换时,所述立体声模式切换控制器重新计算次声道sch的较短长度。27.如权利要求25或26所述的立体声声音信号编码设备,其中所述立体声模式切换控制器在td帧之前的dft帧中重新计算主声道pch的第一长度和次声道sch的第二长度,并且其中第一长度短于第二长度。28.如权利要求6至27中任一项所述的立体声声音信号编码设备,其中所述立体声模式切换控制器在立体声声音信号的每个dft帧中存储预加重滤波器存储器的两个值。29.如权利要求6至28中任一项所述的立体声声音信号编码设备,包括次sch声道核心编码器数据结构,其中,当从第二dft立体声模式切换到第一td立体声模式时,所述立体声模式切换控制器基于主pch声道核心编码器数据结构重置或估计次声道sch核心编码器数
据结构。30.一种用于解码立体声声音信号的设备,包括:使用在时域(td)中操作的第一立体声模式的立体声声音信号的第一立体声解码器,其中第一立体声解码器在立体声声音信号的td帧中:(a)解码下混合信号,和(b)使用第一数据结构和存储器;使用在频域(fd)中操作的第二立体声模式的立体声声音信号的第二立体声解码器,其中第二立体声解码器在立体声声音信号的fd帧中:(a)解码第二下混合信号,和(b)使用第二数据结构和存储器;控制器,在(i)第一td立体声模式和第一立体声解码器与(ii)第二fd立体声模式和第二立体声解码器之间进行切换;其中,当从第一td立体声模式和第二fd立体声模式中的一个立体声模式切换第一td立体声模式和第二fd立体声模式中的另一个立体声模式时,立体声模式切换控制器重新计算立体声声音信号的当前帧中的下混合信号的至少一个长度,其中在第一td立体声模式中重新计算的下混合信号长度不同于在第二fd立体声模式中重新计算的下混合信号长度。31.一种用于解码立体声声音信号的设备,包括:使用在时域(td)中操作的第一立体声模式的立体声声音信号的第一立体声解码器,其中第一立体声解码器在立体声声音信号的td帧中:(a)解码下混合信号,和(b)使用第一数据结构和存储器;使用在频域(fd)中操作的第二立体声模式的立体声声音信号的第二立体声解码器,其中第二立体声解码器在立体声声音信号的fd帧中:(a)解码第二下混合信号,和(b)使用第二数据结构和存储器;控制器,在(i)第一td立体声模式和第一立体声解码器与(ii)第二fd立体声模式和第二立体声解码器之间进行切换;其中,当从第一td立体声模式和第二fd立体声模式中的一个立体声模式切换第一td立体声模式和第二fd立体声模式中的另一个立体声模式时,立体声模式切换控制器适配所述另一个立体声模式的数据结构和/或存储器,以对当前帧中的立体声声音信号进行解码。32.一种用于解码立体声声音信号的设备,包括:使用在时域(td)中操作的第一立体声模式的立体声声音信号的第一立体声解码器,其中第一立体声解码器在立体声声音信号的td帧中:(a)解码下混合信号,和(b)使用第一数据结构和存储器;使用在频域(fd)中操作的第二立体声模式的立体声声音信号的第二立体声解码器,其中第二立体声解码器在立体声声音信号的fd帧中:(a)解码第二下混合信号,和(b)使用第二数据结构和存储器;控制器,在(i)第一td立体声模式和第一立体声解码器与(ii)第二fd立体声模式和第二立体声解码器之间进行切换;其中,当从第一td立体声模式和第二fd立体声模式中的一个立体声模式切换第一td立体声模式和第二fd立体声模式中的另一个立体声模式时,立体声模式切换控制器在当前帧中重构下混合信号和与所述另一个立体声模式相关的其他信号。33.如权利要求31所述的立体声声音信号解码设备,其中所述立体声模式切换控制器
为了适配所述另一个立体声模式的数据结构和/或存储器,重置在所述另一个立体声模式中使用的数据结构和/或存储器。34.如权利要求31所述的立体声声音信号解码设备,其中所述立体声模式切换控制器为了适配所述另一个立体声模式的数据结构和/或存储器,使用在所述一个立体声模式中使用的数据结构和/或存储器更新在所述另一个立体声模式中使用的数据结构和/或存储器。35.如权利要求30至34中任一项所述的立体声声音信号解码设备,其中所述第二fd立体声模式是离散傅里叶变换(dft)立体声模式。36.如权利要求35所述的立体声声音信号解码设备,其中第一td立体声模式使用第一处理延迟,第二dft立体声模式使用第二处理延迟,并且第一和第二处理延迟是不同的并且包括重采样和上混合处理延迟。37.如权利要求35或36所述的立体声声音信号解码设备,其中,当从第一td和第二dft立体声模式中的所述一个立体声模式切换第一td和第二dft立体声模式中的所述另一个立体声模式时,所述立体声模式切换控制器保持以下信号和存储器中的至少一个的连续性:在第二dft立体声模式中使用的中间声道m;在第一td立体声模式中使用的主声道pch和次声道sch;tcx-ltp后滤波器存储器;内部采样率和输出立体声声音信号采样率下的dft ola分析存储器;输出立体声声音信号采样率下的dft ola合成存储器;输出立体声声音信号,包括声道l和r;和hb信号存储器,以及在bwe和ic-bwe中使用的声道l和r。38.如权利要求35至37中任一项所述的立体声声音信号解码设备,其中所述立体声模式切换控制器根据当前立体声模式向/从第一td和第二dft立体声模式分配/释放数据结构,以通过仅保持在当前帧中采用的那些数据结构来减少静态存储器影响。39.如权利要求35至38中任一项所述的立体声声音信号解码设备,其中,当接收到td帧之后的第一dft帧时,所述立体声模式切换控制器重置dft立体声数据结构。40.如权利要求35至39中任一项所述的立体声声音信号解码设备,其中,当接收到dft帧之后的第一td帧时,所述立体声模式切换控制器重置td立体声数据结构。41.如权利要求35至40中任一项所述的立体声声音信号解码设备,其中所述立体声模式切换控制器在每个td立体声帧中更新dft立体声ola存储器缓冲器。42.如权利要求35至41中任一项所述的立体声声音信号解码设备,其中所述立体声模式切换控制器更新dft立体声分析存储器。43.如权利要求42所述的立体声声音信号解码设备,其中,在接收到td帧之后的第一dft帧时,所述立体声模式切换控制器使用td帧的主声道pch和次声道sch的若干最后样本在dft帧中分别更新dft立体声中间声道m和侧声道s的dft立体声分析存储器。44.如权利要求35至43中任一项所述的立体声声音信号解码设备,其中所述立体声模式切换控制器在每个td立体声帧中更新dft立体声合成存储器。45.如权利要求44所述的立体声声音信号解码设备,其中,为了更新dft立体声合成存储器和为了acelp核心,所述立体声模式切换控制器在每个td帧中通过交叉衰落(a)基于
cldfb的重采样和td上混合的左和右声道合成与(b)重构的重采样和上混合的左和右声道合成来重构dft立体声合成存储器的第一部分。46.如权利要求35至45中任一项所述的立体声声音信号解码设备,其中所述立体声模式切换控制器交叉衰落td对准和同步合成与dft立体声对准和同步合成,以在从td帧切换到dft帧时平滑转换。47.如权利要求35至46中任一项所述的立体声声音信号解码设备,其中,在下一帧是td帧的情况下,编解码模式切换控制器在dft帧期间更新td立体声合成存储器。48.如权利要求35至47中任一项所述的立体声声音信号解码设备,其中,当从dft帧切换到td帧时,所述立体声模式切换控制器重置第一立体声解码器中的次声道sch的核心解码器的存储器。49.如权利要求35至48中任一项所述的立体声声音信号解码设备,其中,当从dft帧切换到td帧时,所述立体声模式切换控制器使用信号能量均衡来抑制dft和td立体声上混合声道之间的不连续性和差异。50.如权利要求49所述的立体声声音信号解码设备,其中,为了抑制dft和td立体声上混合声道之间的不连续性和差异,如果ica目标增益g
ica
低于1.0,则所述立体声模式切换控制器在td帧中使用以下关系式在上混合之后并在时间同步之前改变左声道l,y
l
(i):y

l
(i)=α
·
y
l
(i) for i=0,...,l
eq-1其中l
eq
是要均衡的信号的长度,并且α是使用以下关系式获得的增益因子的值:51.如权利要求35至50中任一项所述的立体声声音信号解码设备,其中所述立体声模式切换控制器重构td立体声上混合同步合成。52.如权利要求51所述的立体声声音信号解码设备,其中所述立体声模式切换控制器对左声道和右声道都使用以下操作(a)至(e)来重构td立体声上混合同步合成:(a)修正dft立体声ola合成存储器;(b)重用dft立体声上混合同步合成存储器作为td立体声上混合同步合成的第一部分;(c)使用经修正的dft立体声ola合成存储器近似td立体声上混合同步合成的第二部分;和(d)在td立体声同步上混合合成开始时,通过交叉衰落经修正的dft立体声ola合成存储器与td立体声同步上混合合成来平滑dft立体声上混合同步合成存储器与td立体声同步上混合合成之间的转换。53.一种用于编码多声道信号的设备,包括如权利要求1至29中任一项所述的立体声声音信号编码设备。54.一种用于解码多声道信号的设备,包括如权利要求30至52中任一项所述的立体声声音信号解码设备。55.一种用于编码立体声声音信号的方法,包括:提供使用在时域(td)中操作的第一立体声模式的立体声声音信号的第一立体声编码器,其中第一td立体声模式在立体声声音信号的td帧中:(a)产生第一下混合信号,和(b)使用第一数据结构和存储器;
提供使用在频域(fd)中操作的第二立体声模式的立体声声音信号的第二立体声编码器,其中第二fd立体声模式在立体声声音信号的fd帧中:(a)产生第二下混合信号,和(b)使用第二数据结构和存储器;控制在(i)第一td立体声模式和第一立体声编码器与(ii)第二fd立体声模式和第二立体声编码器之间进行切换,以在时域或频域中对立体声声音信号进行编解码;其中,当从第一td立体声模式和第二fd立体声模式中的一个立体声模式切换第一td立体声模式和第二fd立体声模式中的另一个立体声模式时,控制立体声模式切换包括重新计算立体声声音信号的当前帧中的下混合信号的至少一个长度,其中在第一td立体声模式中重新计算的下混合信号长度不同于在第二fd立体声模式中重新计算的下混合信号长度。56.一种用于编码立体声声音信号的方法,包括:提供使用在时域(td)中操作的第一立体声模式的立体声信号的第一立体声编码器,其中第一td立体声模式在立体声信号的td帧中:(a)产生第一下混合信号,和(b)使用第一数据结构和存储器;提供使用在频域(fd)中操作的第二立体声模式的立体声信号的第二立体声编码器,其中第二fd立体声模式在立体声信号的fd帧中:(a)产生第二下混合信号,和(b)使用第二数据结构和存储器;控制在(i)第一td立体声模式和第一立体声编码器与(ii)第二fd立体声模式和第二立体声编码器之间进行切换,以在时域或频域中对立体声声音信号进行编解码;其中,当从第一td立体声模式和第二fd立体声模式中的一个立体声模式切换第一td立体声模式和第二fd立体声模式中的另一个立体声模式时,控制立体声模式切换包括适配在所述另一个立体声模式中使用的数据结构和/或存储器,以对当前帧中的立体声声音信号进行编解码。57.一种用于编码立体声声音信号的方法,包括:提供使用在时域(td)中操作的第一立体声模式的立体声信号的第一立体声编码器,其中第一td立体声模式在立体声信号的td帧中:(a)产生第一下混合信号,和(b)使用第一数据结构和存储器;提供使用在频域(fd)中操作的第二立体声模式的立体声信号的第二立体声编码器,其中第二fd立体声模式在立体声信号的fd帧中:(a)产生第二下混合信号,和(b)使用第二数据结构和存储器;控制在(i)第一td立体声模式和第一立体声编码器与(ii)第二fd立体声模式和第二立体声编码器之间进行切换,以在时域或频域中对立体声声音信号进行编解码;其中,当从第一td立体声模式和第二fd立体声模式中的一个立体声模式切换第一td立体声模式和第二fd立体声模式中的另一个立体声模式时,控制立体声模式切换包括在当前帧中重构下混合信号和与所述另一个立体声模式相关的其他信号。58.如权利要求56所述的立体声声音信号编码方法,其中适配数据结构和/或存储器包括重置在所述另一个立体声模式中使用的数据结构和/或存储器。59.如权利要求56所述的立体声声音信号编码方法,其中适配在所述另一个立体声模式中使用的结构和/或存储器包括使用在所述一个立体声模式中使用的数据结构和/或存储器更新在所述另一个立体声模式中使用的数据结构和/或存储器。
60.如权利要求55至59中任一项所述的立体声声音信号编码方法,其中所述第二fd立体声模式是离散傅里叶变换(dft)立体声模式。61.如权利60所述的立体声声音信号编码方法,其中,当从第一td和第二dft立体声模式中的所述一个立体声模式切换第一td和第二dft立体声模式中的所述另一个立体声模式时,控制立体声模式切换包括保持以下信号中的至少一个的连续性:包括左声道和右声道的输入立体声信号;在第二dft立体声模式中使用的中间声道;在第一td立体声模式中使用的主声道和次声道;预处理中使用的下混合信号;和核心编码中使用的下混合信号。62.如权利要求60或61所述的立体声声音信号编码方法,其中,当从第一td和第二dft立体声模式中的所述一个立体声模式切换第一td和第二dft立体声模式中的所述另一个立体声模式时,控制立体声模式切换包括根据当前立体声模式向/从第一td和第二dft立体声模式分配/释放数据结构,以通过仅保持在当前帧中采用的那些数据结构来减少存储器影响。63.如权利要求62所述的立体声声音信号编码方法,其中,当从第一td立体声模式切换到第二dft立体声模式时,控制立体声模式切换包括释放td立体声相关数据结构。64.如权利要求63所述的立体声声音信号编码方法,其中,所述td立体声相关数据结构包括td立体声数据结构和/或第一立体声编码器的核心编码器的数据结构。65.如权利要求60至64中任一项所述的立体声声音信号编码方法,其中,当从第一td立体声模式切换到第二dft立体声模式时,第二立体声编码器利用主声道pch核心编码器存储器在td帧之后的dft帧中继续核心编码操作。66.如权利要求60至65中任一项所述的立体声声音信号编码方法,其中控制立体声模式切换包括在从所述一个立体声模式切换到所述另一个立体声模式时使用来自所述一个立体声模式的立体声相关参数来更新所述另一个立体声模式的立体声相关参数。67.如权利要求66所述的立体声声音信号编码方法,其中控制立体声模式切换包括在数据结构之间传输立体声相关参数。68.如权利要求66或67所述的立体声声音信号编码方法,其中所述立体声相关参数包括第二dft立体声模式的侧增益和声道间时间延迟(itd)参数以及第一td立体声模式的目标增益和相关滞后。69.如权利要求60至68中任一项所述的立体声声音信号编码方法,其中控制立体声模式切换包括通过存储与当前td立体声帧的最后时间段相关的样本,在每个td立体声帧更新dft分析存储器。70.如权利要求60至69中任一项所述的立体声声音信号编码方法,其中控制立体声模式切换包括在td立体声帧期间保持dft相关存储器。71.如权利要求60至70中任一项所述的立体声声音信号编码方法,其中控制立体声模式切换包括在从第一td立体声模式切换到第二dft立体声模式时,在td帧之后的dft帧中使用对应于td帧的主声道pch的td立体声存储器更新dft合成存储器。72.如权利要求60至71中任一项所述的立体声声音信号编码方法,其中控制立体声模
式切换包括在dft帧期间保持有限脉冲响应(fir)重采样滤波器存储器。73.如权利要求72所述的立体声声音信号编码方法,其中控制立体声模式切换包括在每个dft帧中使用dft帧中的中间声道m的第一长度的最后段之前的中间声道m的一段更新第一立体声编码器中的主声道pch中使用的fir重采样滤波器存储器。74.如权利要求72或73所述的立体声声音信号编码方法,其中控制立体声模式切换包括填充在第一立体声编码器的次声道sch中使用的fir重采样滤波器存储器,其与在第一立体声编码器的主声道pch中使用的fir重采样滤波器存储器的更新不同。75.如权利要求74所述的立体声声音信号编码方法,其中控制立体声模式切换包括通过使用所述dft帧中的中间声道m的第二长度的最后段之前的中间声道m的一段填充所述fir重采样滤波器存储器,在当前td帧中更新在第一立体声编码器中的次声道sch中使用的fir重采样滤波器存储器。76.如权利要求60至75中任一项所述的立体声声音信号编码方法,其中,当从第二dft立体声模式切换到第一td立体声模式时,控制立体声模式切换包括在当前td帧中重新计算次声道sch中相对于主声道pch中的下混合信号的重新计算长度更长的下混合信号的长度。77.如权利要求60至76中任一项所述的立体声声音信号编码方法,其中,当从第二dft立体声模式切换到第一td立体声模式时,控制立体声模式切换包括交叉衰落dft声道的重新计算的主声道pch和dft中间声道m,以在dft帧之后的第一td帧中重新计算主下混合声道pch。78.如权利要求60至77中任一项所述的立体声声音信号编码方法,其中,当从第二dft立体声模式切换到第一td立体声模式时,控制立体声模式切换包括重新计算对应于td帧之前的dft帧的所述左l和右r声道的ica存储器。79.如权利要求78所述的立体声声音信号编码方法,其中控制立体声模式切换包括通过使用dft帧的立体声混合比对ica处理的声道l和r进行下混合来重新计算dft帧的主pch和次sch声道。80.如权利要求79所述的立体声声音信号编码方法,其中,当没有立体声编解码模式切换时,控制立体声模式切换包括重新计算次声道sch的较短长度。81.如权利要求79或80所述的控制立体声声音信号编码方法,其中控制立体声模式切换包括在td帧之前的dft帧中重新计算主声道pch的第一长度和次声道sch的第二长度,并且其中第一长度短于第二长度。82.如权利要求60至81中任一项所述的立体声声音信号编码方法,其中控制立体声模式切换包括在每个dft帧中存储预加重滤波器存储器的两个值。83.如权利要求60至82中任一项所述的立体声声音信号编码方法,包括次sch声道核心编码器数据结构,其中,当从第二dft立体声模式切换到第一td立体声模式时,控制立体声模式切换包括基于主pch声道核心编码器数据结构重置或估计次声道sch核心编码器数据结构。84.一种用于解码立体声声音信号的方法,包括:提供使用在时域(td)中操作的第一立体声模式的立体声声音信号的第一立体声解码器,其中第一立体声解码器在立体声声音信号的td帧中:(a)解码下混合信号,和(b)使用第一数据结构和存储器;
提供使用在频域(fd)中操作的第二立体声模式的立体声声音信号的第二立体声解码器,其中第二立体声解码器在立体声声音信号的fd帧中:(a)解码第二下混合信号,和(b)使用第二数据结构和存储器;控制在(i)第一td立体声模式和第一立体声解码器与(ii)第二fd立体声模式和第二立体声解码器之间进行切换;其中,当从第一td立体声模式和第二fd立体声模式中的一个立体声模式切换第一td立体声模式和第二fd立体声模式中的另一个立体声模式时,控制立体声模式切换包括重新计算立体声声音信号的当前帧中的下混合信号的至少一个长度,其中在第一立体声模式中重新计算的下混合信号长度不同于在第二立体声模式中重新计算的下混合信号长度。85.一种用于解码立体声声音信号的方法,包括:提供使用在时域(td)中操作的第一立体声模式的立体声声音信号的第一立体声解码器,其中第一立体声解码器在立体声声音信号的td帧中:(a)解码下混合信号,和(b)使用第一数据结构和存储器;提供使用在频域(fd)中操作的第二立体声模式的立体声声音信号的第二立体声解码器,其中第二立体声解码器在立体声声音信号的fd帧中:(a)解码第二下混合信号,和(b)使用第二数据结构和存储器;控制在(i)第一td立体声模式和第一立体声解码器与(ii)第二fd立体声模式和第二立体声解码器之间进行切换;其中,当从第一td立体声模式和第二fd立体声模式中的一个立体声模式切换第一td立体声模式和第二fd立体声模式中的另一个立体声模式时,控制立体声模式切换包括适配所述另一个立体声模式的数据结构和/或存储器,以对当前帧中的立体声声音信号进行解码。86.一种用于解码立体声声音信号的方法,包括:提供使用在时域(td)中操作的第一立体声模式的立体声声音信号的第一立体声解码器,其中第一立体声解码器在立体声声音信号的td帧中:(a)解码下混合信号,和(b)使用第一数据结构和存储器;提供使用在频域(fd)中操作的第二立体声模式的立体声声音信号的第二立体声解码器,其中第二立体声解码器在立体声声音信号的fd帧中:(a)解码第二下混合信号,和(b)使用第二数据结构和存储器;控制在(i)第一td立体声模式和第一立体声解码器与(ii)第二fd立体声模式和第二立体声解码器之间进行切换;其中,当从第一td立体声模式和第二fd立体声模式中的一个立体声模式切换第一td立体声模式和第二fd立体声模式中的另一个立体声模式时,控制立体声模式切换包括在当前帧中重构下混合信号和与所述另一个立体声模式相关的其他信号。87.如权利要求85所述的立体声声音信号解码方法,其中适配所述另一个立体声模式的数据结构和/或存储器包括重置在所述另一个立体声模式中使用的数据结构和/或存储器。88.如权利要求85所述的立体声声音信号解码方法,其中适配所述另一个立体声模式的数据结构和/或存储器包括使用在所述一个立体声模式中使用的数据结构和/或存储器更新在所述另一个立体声模式中使用的数据结构和/或存储器。
89.如权利要求84至88中任一项所述的立体声声音信号解码方法,其中所述第二fd立体声模式是离散傅里叶变换(dft)立体声模式。90.如权利要求89所述的立体声声音信号解码方法,其中第一立体声模式使用第一处理延迟,第二立体声模式使用第二处理延迟,并且第一和第二处理延迟是不同的并且包括重采样和上混合处理延迟。91.如权利89或90所述的立体声声音信号解码方法,其中,当从第一td和第二dft立体声模式中的一个立体声模式切换第一fd和第二dft立体声模式中的另一个立体声模式时,控制立体声模式切换包括保持以下信号和存储器中的至少一个的连续性:在第二dft立体声模式中使用的中间声道m;在第一td立体声模式中使用的主声道pch和次声道sch;tcx-ltp后滤波器存储器;内部采样率和输出立体声信号采样率下的dft ola分析存储器;输出立体声信号采样率下的dft ola合成存储器;输出立体声信号,包括声道l和r;和hb信号存储器,以及在bwe和ic-bwe中使用的声道l和r。92.如权利要求89至91中任一项所述的立体声声音信号解码方法,其中控制立体声模式切换包括根据当前立体声模式向/从第一td和第二dft立体声模式分配/释放数据结构,以通过仅保持在当前帧中采用的那些数据结构来减少静态存储器影响。93.如权利要求89至92中任一项所述的立体声声音信号解码方法,其中,当接收到td帧之后的第一dft帧时,控制立体声模式切换包括重置dft立体声数据结构。94.如权利要求89至93中任一项所述的立体声声音信号解码方法,其中,当接收到dft帧之后的第一td帧时,控制切换包括重置td立体声数据结构。95.如权利要求89至94中任一项所述的立体声声音信号解码方法,其中控制立体声模式切换包括在每个td帧中更新dft立体声ola存储器缓冲器。96.如权利要求89至95中任一项所述的立体声声音信号解码方法,其中控制立体声模式切换包括更新dft立体声分析存储器。97.如权利要求96所述的立体声声音信号解码方法,其中,在接收到td帧之后的第一dft帧时,控制立体声模式切换包括使用td帧的主声道pch和次声道sch的若干最后样本在dft帧中分别更新dft立体声中间声道m和侧声道s的dft立体声分析存储器。98.如权利要求89至97中任一项所述的立体声声音信号解码方法,其中控制立体声模式切换包括在每个td帧中更新dft立体声合成存储器。99.如权利要求98所述的立体声声音信号解码方法,其中,为了更新dft立体声合成存储器和为了acelp核心,控制立体声模式切换包括在每个td帧中通过交叉衰落(a)基于cldfb的重采样和td上混合的左和右声道合成与(b)重构的重采样和上混合的左和右声道合成来重构dft立体声合成存储器的第一部分。100.如权利要求89至99中任一项所述的立体声声音信号解码方法,其中控制立体声模式切换包括交叉衰落td对准和同步合成与dft立体声对准和同步合成,以在从td帧切换到dft帧时平滑转换。101.如权利要求89至100中任一项所述的立体声声音信号解码方法,其中,在下一帧是
td帧的情况下,控制立体声模式切换包括在dft帧期间更新td立体声合成存储器。102.如权利要求89至101中任一项所述的立体声声音信号解码方法,其中,当从dft帧切换到td帧时,控制切换包括重置第一立体声解码器中的次声道sch的核心解码器的存储器。103.如权利要求89至102中任一项所述的立体声声音信号解码方法,其中,当从dft帧切换到td帧时,控制立体声模式切换包括使用信号能量均衡来抑制dft和td立体声上混合声道之间的不连续性和差异。104.如权利要求103所述的立体声声音信号解码方法,其中,为了抑制dft和td立体声上混合声道之间的不连续性和差异,如果ica目标增益g
ica
低于1.0,则控制立体声模式切换包括在td帧中使用以下关系式在上混合之后并在时间同步之前改变左声道l,y
l
(i):y

l
(i)=α
·
y
l
(i) for i=0,...,l
eq-1其中l
eq
是要均衡的信号的长度,并且α是使用以下关系式获得的增益因子的值:105.如权利要求89至104中任一项所述的立体声声音信号解码方法,其中控制立体声模式切换包括重构td立体声上混合同步合成。106.如权利要求105所述的立体声声音信号解码方法,其中控制立体声模式切换包括对左声道和右声道都使用以下操作(a)至(e)来重构td立体声上混合同步合成:(a)修正dft立体声ola合成存储器;(b)重用dft立体声上混合同步合成存储器作为td立体声上混合同步合成的第一部分;(c)使用经修正的dft立体声ola合成存储器近似td立体声上混合同步合成的第二部分;和(d)在td立体声同步上混合合成开始时,通过交叉衰落经修正的dft立体声ola合成存储器与td立体声同步上混合合成来平滑dft立体声上混合同步合成存储器与td立体声同步上混合合成之间的转换。107.一种用于编码多声道信号的方法,包括使用如权利要求55至83中任一项所述的立体声声音信号编码方法。108.一种用于解码多声道信号的方法,包括使用如权利要求84至106中任一项所述的立体声声音信号解码方法。109.一种用于编码立体声声音信号的设备,包括:使用在时域(td)中操作的第一立体声模式的立体声声音信号的第一立体声编码器;使用在经修改的离散余弦变换(mdct)域中操作的第二立体声模式的立体声声音信号的第二立体声编码器;控制器,从(i)第一td立体声模式和第一立体声编码器切换到(ii)第二mdct立体声模式和第二立体声编码器,以在mdct域中对立体声声音信号进行编解码;其中,在第一mdct帧之前的最后td帧中,立体声模式切换控制器改变td立体声声道下混合以保持立体声声音信号的左声道和右声道的正确相位。110.如权利要求109所述的立体声声音信号编码设备,其中,为了改变td立体声声道下混合,立体声模式切换控制器将td立体声混合比设置为β=1.0,并实现左声道和右声道的
反相下混合。111.如权利要求110所述的立体声声音信号编码设备,其中,为了实现下混合,立体声模式切换控制器使用以下公式:pch(i)=r(i)
·
(1-β)+l(i)
·
βsch(i)=l(i)
·
(1-β)+r(i)
·
β其中pch(i)是td主声道,sch(i)是td次声道,l(i)是左声道,r(i)是右声道,β是td立体声混合比,i是离散时间索引。112.如权利要求111所述的立体声声音信号编码设备,其中,td主声道pch(i)与mdct过去左声道l
past
(i)相同,而td次声道sch(i)与mdct过去右声道r
past
(i)相同。113.如权利要求109至112中任一项所述的立体声声音信号编码设备,其中立体声模式切换控制器在最后td帧中使用以下公式使用默认的td立体声下混合:pch(i)=r(i)
·
(1-β)+l(i)
·
βsch(i)=l(i)
·
(1-β)-r(i)
·
β其中pch(i)是td主声道,sch(i)是td次声道,l(i)是左声道,r(i)是右声道,β是td立体声混合比,i是离散时间索引。114.如权利要求109至113中任一项所述的立体声声音信号编码设备,包括前置预处理器,其在第二mdct立体声模式下,当从第一td立体声模式切换到第二mdct立体声模式时,立体声模式切换控制器释放td立体声数据结构并分配mdct立体声数据结构。115.如权利要求109至114中任一项所述的立体声声音信号编码设备,其中所述第二立体声编码器包括:前置预处理器,其在第二mdct立体声模式下,以内部采样率重新计算立体声声音信号的左l和右r声道的第一持续时间的前瞻;和进一步的预处理器,其在第二mdct立体声模式下,以内部采样率重新计算立体声声音信号的左l和右r声道的前瞻的给定持续时间的最后段;其中第一和第二持续时间是不同的。116.一种用于编码立体声声音信号的设备,包括:使用在时域(td)中操作的第一立体声模式的立体声声音信号的第一立体声编码器;使用在经修改的离散余弦变换(mdct)域中操作的第二立体声模式的立体声声音信号的第二立体声编码器;控制器,从(i)第二mdct立体声模式和第二立体声编码器切换到(ii)第一td立体声模式和第一立体声编码器,以对td域中的立体声声音信号进行编解码;其中,在最后mdct帧之后的第一td帧中,立体声模式切换控制器改变td立体声声道下混合以保持立体声声音信号的左声道和右声道的正确相位。117.如权利要求116所述的立体声声音信号编码设备,其中,为了改变td立体声声道下混合,立体声模式切换控制器将td立体声混频比设置为β=1.0,并实现左声道和右声道的反相下混合。118.如权利要求117所述的立体声声音信号编码设备,其中,为了实现反相下混合,立体声模式切换控制器使用以下公式:pch(i)=r(i)
·
(1-β)+l(i)
·
sch(i)=l(i)
·
(1-β)+r(i)
·
β其中pch(i)是td主声道,sch(i)是td次声道,l(i)是左声道,r(i)是右声道,β是td立体声混合比,i是离散时间索引。119.如权利要求118所述的立体声声音信号编码设备,其中,td主声道pch(i)与mdct过去左声道lpast(i)相同,而td次声道sch(i)与mdct过去右声道rpast(i)相同。120.如权利要求116至119中任一项所述的立体声声音信号编码设备,其中所述立体声模式切换控制器在第一td帧中使用以下公式使用默认的td立体声下混合:pch(i)=r(i)
·
(1-β)+l(i)
·
βsch(i)=l(i)
·
(1-β)-r(i)
·
β其中pch(i)是td主声道,sch(i)是td次声道,l(i)是左声道,r(i)是右声道,β是td立体声混合比,i是离散时间索引。121.如权利要求116至120中任一项所述的立体声声音信号编码设备,其中,在第一td帧中,立体声模式切换控制器以内部采样率重构立体声声音信号的输入声道的过去段。122.如权利要求116至121中任一项所述的立体声声音信号编码设备,其中,在第一td帧中,立体声模式切换控制器重构给定持续时间的前瞻的一部分。123.如权利要求116至122中任一项所述的立体声声音信号编码设备,其中,当从第二mdct立体声模式切换到第一td立体声模式时,立体声模式切换控制器释放mdct立体声数据结构并分配td立体声数据结构。124.一种用于解码立体声声音信号的设备,包括:使用在时域(td)中操作的第一立体声模式的立体声声音信号的第一立体声解码器;使用在经修改的离散余弦变换(mdct)域中操作的第二立体声模式的立体声声音信号的第二立体声解码器;控制器,从(i)第一td立体声模式和第一立体声解码器切换到(ii)第二mdct立体声模式和第二立体声解码器;其中,在第一mdct帧之前的最后td帧中,立体声模式切换控制器改变td立体声声道上混合以保持立体声声音信号的左声道和右声道的正确相位。125.如权利要求124所述的立体声声音信号解码设备,其中,为了改变td立体声声道上混合,所述立体声模式切换控制器将td立体声混合比设置为β=1.0,并实现td主声道和td次声道的反相上混合。126.如权利要求125所述的立体声声音信号解码设备,其中,td主声道与mdct过去左声道相同,而td次声道与mdct过去右声道相同。127.如权利要求124至126中任一项所述的立体声声音信号解码设备,其中,当接收到td帧之后的第一mdct帧时,所述立体声模式切换控制器重置mdct立体声数据结构。128.如权利要求124至127中任一项所述的立体声声音信号解码设备,其中,当从第一td立体声模式切换到第二mdct立体声模式时,所述立体声模式切换控制器释放td立体声数据结构并分配mdct立体声数据结构。129.一种用于解码立体声声音信号的设备,包括:使用在时域(td)中操作的第一立体声模式的立体声声音信号的第一立体声解码器;使用在经修改的离散余弦变换(mdct)域中操作的第二立体声模式的立体声声音信号
的第二立体声解码器;控制器,从(i)第二mdct立体声模式和第二立体声解码器切换到(ii)第一td立体声模式和第二立体声解码器;其中,在最后mdct帧之后的第一td帧中,立体声模式切换控制器改变td立体声声道上混合以保持立体声声音信号的所述左声道和右声道的正确相位。130.如权利要求129所述的立体声声音信号解码设备,其中,为了改变td立体声声道上混合,所述立体声模式切换控制器将td立体声混合比设置为β=1.0,并实现td主声道和td次声道的反相上混合。131.如权利要求130所述的立体声声音信号解码设备,其中,td主声道与mdct过去左声道相同,而td次声道与mdct过去右声道相同。132.如权利要求129至131中任一项所述的立体声声音信号解码设备,其中,在mdct之后接收到第一td立体声帧时,所述立体声模式切换控制器重置td立体声数据结构。133.如权利要求129至132中任一项所述的立体声声音信号解码设备,其中,当从第二mdct立体声模式切换到第一td立体声模式时,所述立体声模式切换控制器释放mdct立体声数据结构并分配td立体声数据结构。134.一种用于编码立体声声音信号的方法,包括:提供使用在时域(td)中操作的第一立体声模式的立体声声音信号的第一立体声编码器;提供使用在经修改的离散余弦变换(mdct)域中操作的第二立体声模式的立体声声音信号的第二立体声编码器;控制从(i)第一td立体声模式和第一立体声编码切换到(ii)第二mdct立体声模式和第二立体声编码器,以在mdct域中对立体声声音信号进行编解码;其中,在第一mdct帧之前的最后td帧中,控制立体声模式切换包括改变td立体声声道下混合以保持立体声声音信号的左声道和右声道的正确相位。135.如权利要求134所述的立体声声音信号编码方法,其中,为了改变td立体声声道下混合,控制立体声模式切换包括将td立体声混合比设置为β=1.0,并实现左声道和右声道的反相下混合。136.如权利要求135所述的立体声声音信号编码方法,其中,为了实现反相下混合,控制立体声模式切换包括使用以下公式:pch(i)=r(i)
·
(1-β)+l(i)
·
βsch(i)=l(i)
·
(1-β)+r(i)
·
β其中pch(i)是td主声道,sch(i)是td次声道,l(i)是左声道,r(i)是右声道,β是td立体声混合比,i是离散时间索引。137.如权利要求136所述的立体声声音信号编码方法,其中,td主声道pch(i)与mdct过去左声道l
past
(i)相同,而td次声道sch(i)与mdct过去右声道r
past
(i)相同。138.如权利要求134至137中任一项所述的立体声声音信号编码方法,其中控制立体声模式切换包括在最后td帧中使用以下公式使用默认的td立体声下混合:pch(i)=r(i)
·
(1-β)+l(i)
·
βsch(i)=l(i)
·
(1-β)-r(i)
·
β
其中pch(i)是td主声道,sch(i)是td次声道,l(i)是左声道,r(i)是右声道,β是td立体声混合比,i是离散时间索引。139.如权利要求134至138中任一项所述的立体声声音信号编码方法,其中,当从第一td立体声模式切换到第二mdct立体声模式时,控制立体声模式切换包括释放td立体声数据结构并分配mdct立体声数据结构。140.如权利要求134至139中任一项所述的立体声声音信号编码设备,包括,在第二mdct立体声模式中:在第二立体声编码器中,以内部采样率重新计算立体声声音信号的左l和右r声道的第一持续时间的前瞻;和在第二立体声编码器中,以内部采样率重新计算立体声声音信号的左l和右r声道的前瞻的给定持续时间的最后段;其中第一和第二持续时间是不同的。141.一种用于编码立体声声音信号的方法,包括:提供使用在时域(td)中操作的第一立体声模式的立体声声音信号的第一立体声编码器;提供使用在经修改的离散余弦变换(mdct)域中操作的第二立体声模式的立体声声音信号的第二立体声编码器;控制从(i)第二mdct立体声模式和第二立体声编码器切换到(ii)第一td立体声模式和第一立体声编码器,以对td域中的立体声声音信号进行编解码;其中,在最后mdct帧之后的第一td帧中,控制立体声模式切换包括改变td立体声声道下混合以保持立体声声音信号的左声道和右声道的正确相位。142.如权利要求141所述的立体声声音信号编码方法,其中,为了改变td立体声声道下混合,控制立体声模式切换包括将td立体声混合比设置为β=1.0,并实现左声道和右声道的反相下混合。143.如权利要求142所述的立体声声音信号编码方法,其中,为了实现反相下混合,控制立体声模式切换包括使用以下公式:pch(i)=r(i)
·
(1-β)+l(i)
·
βsch(i)=l(i)
·
(1-β)+r(i)
·
β其中pch(i)是td主声道,sch(i)是td次声道,l(i)是左声道,r(i)是右声道,β是td立体声混合比,i是离散时间索引。144.如权利要求143所述的立体声声音信号编码方法,其中,td主声道pch(i)与mdct过去左声道lpast(i)相同,而td次声道sch(i)与mdct过去右声道rpast(i)相同。145.如权利要求141至144中任一项所述的立体声声音信号编码方法,其中控制立体声模式切换包括在第一td帧中使用以下公式使用默认的td立体声下混合:pch(i)=r(i)
·
(1-β)+l(i)
·
βsch(i)=l(i)
·
(1-β)-r(i)
·
β其中pch(i)是td主声道,sch(i)是td次声道,l(i)是左声道,r(i)是右声道,β是td立体声混合比,i是离散时间索引。146.如权利要求141至145中任一项所述的立体声声音信号编码方法,其中,在第一td
帧中,控制立体声模式切换包括以内部采样率重构立体声声音信号的输入声道的过去段。147.如权利要求141至146中任一项所述的立体声声音信号编码方法,其中,在第一td帧中,控制立体声模式切换包括重构给定持续时间的前瞻的一部分。148.如权利要求141至147中任一项所述的立体声声音信号编码方法,其中,当从第二mdct立体声模式切换到第一td立体声模式时,控制立体声模式切换包括释放mdct立体声数据结构并分配td立体声数据结构。149.一种用于解码立体声声音信号的方法,包括:提供使用在时域(td)中操作的第一立体声模式的立体声声音信号的第一立体声解码器;提供使用在经修改的离散余弦变换(mdct)域中操作的第二立体声模式的立体声声音信号的第二立体声解码器;控制从(i)第一td立体声模式和第一立体声解码切换到(ii)第二mdct立体声模式和第二立体声解码器;其中,在第一mdct帧之前的最后td帧中,控制立体声模式切换包括改变td立体声声道上混合以保持立体声声音信号的所述左声道和右声道的正确相位。150.如权利要求149所述的立体声声音信号解码设备,其中,为了改变td立体声声道上混合,控制立体声模式切换包括将td立体声混合比设置为β=1.0,并实现td主声道和td次声道的反相上混合。151.如权利要求150所述的立体声声音信号解码方法,其中,td主声道与mdct过去左声道相同,而td次声道与mdct过去右声道相同。152.如权利要求149至151中任一项所述的立体声声音信号解码方法,其中,当接收到td帧之后的第一mdct帧时,控制立体声模式切换包括重置mdct立体声数据结构。153.如权利要求149至152中任一项所述的立体声声音信号编码方法,其中,当从第一td立体声模式切换到第二mdct立体声模式时,控制立体声模式切换包括释放td立体声数据结构并分配mdct立体声数据结构。154.一种用于解码立体声声音信号的方法,包括:提供使用在时域(td)中操作的第一立体声模式的立体声声音信号的第一立体声解码器;提供使用在经修改的离散余弦变换(mdct)域中操作的第二立体声模式的立体声声音信号的第二立体声解码器;控制从(i)第二mdct立体声模式和第二立体声解码切换到(ii)第一td立体声模式和第二立体声解码器;其中,在最后mdct帧之后的第一td帧中,控制立体声模式切换包括改变td立体声声道上混合以保持立体声声音信号的所述左声道和右声道的正确相位。155.如权利要求154所述的立体声声音信号解码设备,其中,为了改变td立体声声道上混合,控制立体声模式切换包括将td立体声混合比设置为β=1.0,并实现td主声道和td次声道的反相上混合。156.如权利要求155所述的立体声声音信号解码方法,其中,td主声道与mdct过去左声道的相同,而td次声道与mdct过去右声道相同。
157.如权利要求154至156中任一项所述的立体声声音信号解码方法,其中,当接收到mdct之后的第一td立体声帧时,控制立体声模式切换包括重置td立体声数据结构。158.如权利要求154至157中任一项所述的立体声声音信号解码方法,其中,当从第二mdct立体声模式切换到第一td立体声模式时,控制立体声模式切换包括释放mdct立体声数据结构并分配td立体声数据结构。159.一种用于编码立体声声音信号的设备,包括:使用在经修改的离散余弦变换(mdct)域中操作的第一立体声模式的立体声声音信号的第一立体声编码器,其中第一mdct立体声模式在立体声声音信号的mdct帧中:(a)产生第一下处理信号,和(b)使用第一数据结构和存储器;使用在频域(fd)中操作的第二立体声模式的立体声声音信号的第二立体声编码器,其中第二fd立体声模式在立体声声音信号的fd帧中:(a)产生第二下混合信号,和(b)使用第二数据结构和存储器;控制器,在(i)第一mdct立体声模式和第一立体声编码器与(ii)第二fd立体声模式和第二立体声编码器之间进行切换,以在mdct域或频域中对立体声声音信号进行编解码;其中,当从第一mdct立体声模式和第二fd立体声模式中的一个立体声模式切换第一mdct立体声模式和第二fd立体声模式中的另一个立体声模式时,立体声模式切换控制器重新计算立体声声音信号的当前帧中的下处理或下混合信号的至少一个长度,其中在第一mdct立体声模式中重新计算的下处理信号长度不同于在第二fd立体声模式中重新计算的下混合信号长度。160.一种用于编码立体声声音信号的设备,包括:使用在经修改的离散余弦变换(mdct)域中操作的第一立体声模式的立体声声音信号的第一立体声编码器,其中第一mdct立体声模式在立体声声音信号的mdct帧中:(a)产生第一下处理信号,和(b)使用第一数据结构和存储器;使用在频域(fd)中操作的第二立体声模式的立体声声音信号的第二立体声编码器,其中第二fd立体声模式在立体声声音信号的fd帧中:(a)产生第二下混合信号,和(b)使用第二数据结构和存储器;控制器,在(i)第一mdct立体声模式和第一立体声编码器与(ii)第二fd立体声模式和第二立体声编码器之间进行切换,以在mdct域或频域中对立体声声音信号进行编解码;其中,当从第一mdct立体声模式和第二fd立体声模式中的一个立体声模式切换第一mdct立体声模式和第二fd立体声模式中的另一个立体声模式时,立体声模式切换控制器适配在所述另一个立体声模式中使用的数据结构和/或存储器,以对当前帧中的立体声声音信号进行编解码。161.一种用于编码立体声声音信号的设备,包括:使用在经修改的离散余弦变换(mdct)域中操作的第一立体声模式的立体声声音信号的第一立体声编码器,其中第一mdct立体声模式在立体声声音信号的mdct帧中:(a)产生第一下处理信号,和(b)使用第一数据结构和存储器;使用在频域(fd)中操作的第二立体声模式的立体声声音信号的第二立体声编码器,其中第二fd立体声模式在立体声声音信号的fd帧中:(a)产生第二下混合信号,和(b)使用第二数据结构和存储器;
控制器,在(i)第一mdct立体声模式和第一立体声编码器与(ii)第二fd立体声模式和第二立体声编码器之间进行切换,以在mdct域或频域中对立体声声音信号进行编解码;其中,当从第一mdct立体声模式和第二fd立体声模式中的一个立体声模式切换第一mdct立体声模式和第二fd立体声模式中的另一个立体声模式时,立体声模式切换控制器在当前帧中重构下处理或下混合信号和与所述另一个立体声模式相关的其他信号。162.如权利要求160所述的立体声声音信号编码设备,其中所述立体声模式切换控制器为了适配在所述另一个立体声模式中使用的数据结构和/或存储器,重置在所述另一个立体声模式中使用的数据结构和/或存储器。163.如权利要求160所述的立体声声音信号编码设备,其中所述立体声模式切换控制器为了适配在所述另一个立体声模式中使用的数据结构和/或存储器,使用在所述一个立体声模式中使用的数据结构和/或存储器更新在所述另一个立体声模式中使用的数据结构和/或存储器。164.如权利要求159至163中任一项所述的立体声声音信号编码设备,其中所述第二fd立体声模式是离散傅里叶变换(dft)立体声模式。165.如权利164所述的立体声声音信号编码设备,其中,当从第一mdct和第二dft立体声模式中的一个立体声模式切换第一mdct和第二dft立体声模式中的另一个立体声模式时,所述立体声模式切换控制器根据当前立体声模式向/从第一mdct和第二dft立体声模式分配/释放数据结构,以通过仅保持在当前帧中采用的那些数据结构来减少存储器影响。166.如权利要求165所述的立体声声音信号编码设备,其中,当从第一mdct立体声模式切换到第二dft立体声模式时,所述立体声模式切换控制器释放mdct立体声相关数据结构。167.如权利要求166所述的立体声声音信号编码设备,其中,所述mdct立体声相关数据结构包括mdct立体声数据结构和/或第一立体声编码器的核心编码器的数据结构。168.如权利要求164至167中任一项所述的立体声声音信号编码设备,其中,当从第一mdct立体声模式切换到第二dft立体声模式时,第二立体声编码器利用左声道和右声道核心编码器之一的存储器在mdct立体声帧之后的dft立体声帧中继续核心编码操作。169.如权利要求164至168中任一项所述的立体声声音信号编码设备,其中所述立体声模式切换控制器在从所述一个立体声模式切换到所述另一个立体声模式时使用来自所述一个立体声模式的立体声相关参数来更新所述另一个立体声模式的立体声相关参数。170.如权利要求169所述的立体声声音信号编码设备,其中所述立体声模式切换控制器在数据结构之间传输立体声相关参数。171.如权利要求164至170中任一项所述的立体声声音信号编码设备,其中所述立体声模式切换控制器通过存储与当前mdct帧的最后时间段相关的样本,在每个mdct帧更新dft分析存储器。172.如权利要求164至170中任一项所述的立体声声音信号编码设备,其中所述立体声模式切换控制器在mdct帧期间保持dft相关存储器。173.如权利要求164至172中任一项所述的立体声声音信号编码设备,其中所述立体声模式切换控制器在从第一mdct立体声模式切换到第二dft立体声模式时,在mdct帧之后的dft帧中使用对应于mdct帧的左声道和右声道中的一个的mdct立体声存储器更新dft合成存储器。
174.如权利要求164至173中任一项所述的立体声声音信号编码设备,其中所述立体声模式切换控制器在立体声声音信号的dft帧期间保持有限脉冲响应(fir)重采样滤波器存储器。175.如权利要求174所述的立体声声音信号编码设备,其中所述立体声模式切换控制器在每个dft帧中使用dft帧中的中间声道m的第一长度的最后段之前的中间声道m的一段更新第一立体声编码器中的立体声声音信号的左声道和右声道中的一个中使用的fir重采样滤波器存储器。176.如权利要求175所述的立体声声音信号编码设备,其中所述立体声模式切换控制器填充第一立体声编码器中立体声声音信号的左声道和右声道中的另一个中使用的fir重采样滤波器存储器,其与第一立体声编码器中的左声道和右声道中的所述一个中使用的fir重采样滤波器存储器的更新不同。177.如权利要求176所述的立体声声音信号编码设备,其中所述立体声模式切换控制器通过使用所述dft帧中的中间声道m的第二长度的最后段之前的中间声道m的一段填充所述fir重采样滤波器存储器,在当前mdct帧中更新在第一立体声编码器中的左声道和右声道中的所述另一个中使用的fir重采样滤波器存储器。178.如权利要求164至177中任一项所述的立体声声音信号编码设备,其中,当从第二dft立体声模式切换到第一mdct立体声模式时,所述立体声模式切换控制器在当前mdct帧中重新计算立体声声音信号的左声道和右声道中的一个相对于左声道和右声道中的另一个中的下处理信号的重新计算长度更长的下处理信号的长度。179.如权利要求164至178中任一项所述的立体声声音信号编码设备,其中,当从第二dft立体声模式切换到第一mdct立体声模式时,所述立体声模式切换控制器交叉衰落立体声声音信号的左声道和右声道中重新计算的一个和dft立体声声道的dft中间声道m,以在dft帧之后的第一mdct帧中重新计算立体声声音信号的左声道和右声道中的所述一个。180.如权利要求164至179中任一项所述的立体声声音信号编码设备,其中,当从第二dft立体声模式切换到第一mdct立体声模式时,所述立体声模式切换控制器重新计算对应于mdct帧之前的dft帧的左l和右r声道的ica存储器。181.如权利要求179或180所述的立体声声音信号编码设备,其中所述立体声模式切换控制器在mdct帧之前的dft帧中重新计算左声道和右声道中的一个的第一长度和左声道和右声道中的另一个的第二长度,并且其中第一长度短于第二长度。182.如权利要求164至181中任一项所述的立体声声音信号编码设备,其中所述立体声模式切换控制器在立体声声音信号的每个dft帧中存储预加重滤波器存储器的两个值。183.如权利要求164至182中任一项所述的立体声声音信号编码设备,包括立体声声音信号的左声道和右声道中的一个的核心编码器数据结构,其中,当从第二dft立体声模式切换到第一mdct立体声模式时,所述立体声模式切换控制器基于左声道和右声道中的所述一个的核心编码器数据结构来重置或估计左声道和右声道中的另一个的核心编码器数据结构。184.一种用于解码立体声声音信号的设备,包括:使用在经修改的离散余弦变换(mdct)中操作的第一立体声模式的立体声声音信号的第一立体声解码器,其中第一立体声解码器在立体声声音信号的mdct帧中:(a)解码下处理
信号,和(b)使用第一数据结构和存储器;使用在频域(fd)中操作的第二立体声模式的立体声声音信号的第二立体声解码器,其中第二立体声解码器在立体声声音信号的fd帧中:(a)解码第二下混合信号,和(b)使用第二数据结构和存储器;控制器,在(i)第一mdct立体声模式和第一立体声解码器与(ii)第二fd立体声模式和第二立体声解码器之间进行切换;其中,当从第一mdct立体声模式和第二fd立体声模式中的一个立体声模式切换第一mdct立体声模式和第二fd立体声模式中的另一个立体声模式时,立体声模式切换控制器重新计算立体声声音信号的当前帧中的下处理或下混合信号的至少一个长度,其中在第一mdct立体声模式中重新计算的下处理信号长度不同于在第二fd立体声模式中重新计算的下混合信号长度。185.一种用于解码立体声声音信号的设备,包括:使用在经修改的离散余弦变换(mdct)中操作的第一立体声模式的立体声声音信号的第一立体声解码器,其中第一立体声解码器在立体声声音信号的mdct帧中:(a)解码下处理信号,和(b)使用第一数据结构和存储器;使用在频域(fd)中操作的第二立体声模式的立体声声音信号的第二立体声解码器,其中第二立体声解码器在立体声声音信号的fd帧中:(a)解码第二下混合信号,和(b)使用第二数据结构和存储器;控制器,在(i)第一mdct立体声模式和第一立体声解码器与(ii)第二fd立体声模式和第二立体声解码器之间进行切换;其中,当从第一mdct立体声模式和第二fd立体声模式中的一个立体声模式切换第一mdct立体声模式和第二fd立体声模式中的另一个立体声模式时,立体声模式切换控制器适配所述另一个立体声模式的数据结构和/或存储器,以对当前帧中的立体声声音信号进行解码。186.一种用于解码立体声声音信号的设备,包括:使用在经修改的离散余弦变换(mdct)中操作的第一立体声模式的立体声声音信号的第一立体声解码器,其中第一立体声解码器在立体声声音信号的mdct帧中:(a)解码下处理信号,和(b)使用第一数据结构和存储器;使用在频域(fd)中操作的第二立体声模式的立体声声音信号的第二立体声解码器,其中第二立体声解码器在立体声声音信号的fd帧中:(a)解码第二下混合信号,和(b)使用第二数据结构和存储器;控制器,在(i)第一mdct立体声模式和第一立体声解码器与(ii)第二fd立体声模式和第二立体声解码器之间进行切换;其中,当从第一mdct立体声模式和第二fd立体声模式中的一个立体声模式切换第一mdct立体声模式和第二fd立体声模式中的另一个立体声模式时,立体声模式切换控制器在当前帧中重构下处理或下混合信号和与所述另一个立体声模式相关的其他信号。187.如权利要求185所述的立体声声音信号解码设备,其中所述立体声模式切换控制器为了适配所述另一个立体声模式的数据结构和/或存储器,重置在所述另一个立体声模式中使用的数据结构和/或存储器。
188.如权利要求185所述的立体声声音信号编码设备,其中所述立体声模式切换控制器为了适配所述另一个立体声模式的数据结构和/或存储器,使用在所述一个立体声模式中使用的数据结构和/或存储器更新在所述另一个立体声模式中使用的数据结构和/或存储器。189.如权利要求184至188中任一项所述的立体声声音信号解码设备,其中所述第二fd立体声模式是离散傅里叶变换(dft)立体声模式。190.如权利要求189所述的立体声声音信号解码设备,其中第一mdct立体声模式使用第一处理延迟,第二dft立体声模式使用第二处理延迟,并且第一和第二处理延迟是不同的并且包括重采样和上混合处理延迟。191.如权利要求189或190中任一项所述的立体声声音信号解码设备,其中所述立体声模式切换控制器根据当前立体声模式向/从第一mdct和第二dft立体声模式分配/释放数据结构,以通过仅保持在当前帧中采用的那些数据结构来减少静态存储器影响。192.如权利要求189至191中任一项所述的立体声声音信号解码设备,其中,当接收到mdct帧之后的第一dft帧时,所述立体声模式切换控制器重置dft立体声数据结构。193.如权利要求189至192中任一项所述的立体声声音信号解码设备,其中,当接收到dft帧之后的第一mdct帧时,所述立体声模式切换控制器重置mdct立体声数据结构。194.如权利要求189至193中任一项所述的立体声声音信号解码设备,其中所述立体声模式切换控制器在每个mdct立体声帧中更新dft立体声ola存储器缓冲器。195.如权利要求189至194中任一项所述的立体声声音信号解码设备,其中所述立体声模式切换控制器更新dft立体声分析存储器。196.如权利要求195所述的立体声声音信号解码设备,其中,在接收到mdct帧之后的第一dft帧时,所述立体声模式切换控制器使用mdct帧的立体声声音信号的左声道和右声道的若干最后样本在dft帧中分别更新dft立体声中间声道m和侧声道s的dft立体声分析存储器。197.如权利要求189至196中任一项所述的立体声声音信号解码设备,其中所述立体声模式切换控制器在每个mdct立体声帧中更新dft立体声合成存储器。198.如权利要求197所述的立体声声音信号解码设备,其中,为了更新dft立体声合成存储器和为了acelp核,所述立体声模式切换控制器在每个mdct帧中通过交叉衰落(a)基于cldfb的重采样的左声道和右声道合成与(b)重构的重采样的左声道和右声道合成来重构dft立体声合成存储器的第一部分。199.如权利要求189至198中任一项所述的立体声声音信号解码设备,其中所述立体声模式切换控制器交叉衰落mdct立体声对准和同步合成与dft立体声对准和同步合成,以在从mdct帧切换到dft帧时平滑转换。200.如权利要求189至199中任一项所述的立体声声音信号解码设备,其中,在下一帧是mdct帧的情况下,编解码模式切换控制器在dft帧期间更新mdct立体声合成存储器。201.如权利要求189至200中任一项所述的立体声声音信号解码设备,其中,当从dft帧切换到mdct帧时,所述立体声模式切换控制器重置第一立体声解码器中的立体声声音信号的左声道和右声道中的一个的核心解码器的存储器。202.如权利要求189至201中任一项所述的立体声声音信号解码设备,其中,当从dft帧
切换到mdct帧时,所述立体声模式切换控制器使用信号能量均衡来抑制dft和mdct立体声声道之间的不连续性和差异。203.一种用于编码立体声声音信号的方法,包括:提供使用在经修改的离散余弦变换(mdct)域中操作的第一立体声模式的立体声声音信号的第一立体声编码器,其中第一mdct立体声模式在立体声声音信号的mdct帧中:(a)产生第一下处理信号,和(b)使用第一数据结构和存储器;提供使用在频域(fd)中操作的第二立体声模式的立体声声音信号的第二立体声编码器,其中第二fd立体声模式在立体声信号的fd帧中:(a)产生第二下混合信号,和(b)使用第二数据结构和存储器;控制在(i)第一mdct立体声模式和第一立体声编码器与(ii)第二fd立体声模式和第二立体声编码器之间进行切换,以在mdct域或频域中对立体声声音信号进行编解码;其中,当从第一mdct立体声模式和第二fd立体声模式中的一个立体声模式切换第一mdct立体声模式和第二fd立体声模式中的另一个立体声模式时,控制立体声模式切换包括重新计算立体声声音信号的当前帧中的下处理或下混合信号的至少一个长度,其中在第一mdct立体声模式中重新计算的下处理信号长度不同于在第二fd立体声模式中重新计算的下混合信号长度。204.一种用于编码立体声声音信号的方法,包括:提供使用在经修改的离散余弦变换(mdct)域中操作的第一立体声模式的立体声声音信号的第一立体声编码器,其中第一mdct立体声模式在立体声声音信号的mdct帧中:(a)产生第一下处理信号,和(b)使用第一数据结构和存储器;提供使用在频域(fd)中操作的第二立体声模式的立体声信号的第二立体声编码器,其中第二fd立体声模式在立体声信号的fd帧中:(a)产生第二下混合信号,和(b)使用第二数据结构和存储器;控制在(i)第一mdct立体声模式和第一立体声编码器与(ii)第二fd立体声模式和第二立体声编码器之间进行切换,以在mdct域或频域中对立体声声音信号进行编解码;其中,当从第一mdct立体声模式和第二fd立体声模式中的一个立体声模式切换第一mdct立体声模式和第二fd立体声模式中的另一个立体声模式时,控制立体声模式切换包括适配在所述另一个立体声模式中使用的数据结构和/或存储器,以对当前帧中的立体声声音信号进行编解码。205.一种用于编码立体声声音信号的方法,包括:提供使用在经修改的离散余弦变换(mdct)域中操作的第一立体声模式的立体声声音信号的第一立体声编码器,其中第一mdct立体声模式在立体声声音信号的mdct帧中:(a)产生第一下处理信号,和(b)使用第一数据结构和存储器;提供使用在频域(fd)中操作的第二立体声模式的立体声信号的第二立体声编码器,其中第二fd立体声模式在立体声信号的fd帧中:(a)产生第二下混合信号,和(b)使用第二数据结构和存储器;控制在(i)第一mdct立体声模式和第一立体声编码器与(ii)第二fd立体声模式和第二立体声编码器之间进行切换,以在mdct域或频域中对立体声声音信号进行编解码;其中,当从第一mdct立体声模式和第二fd立体声模式中的一个立体声模式切换第一
mdct立体声模式和第二fd立体声模式中的另一个立体声模式时,控制立体声模式切换包括在当前帧中重构下处理或下混合信号和与所述另一个立体声模式相关的其他信号。206.如权利要求204所述的立体声声音信号编码方法,其中适配在所述另一个立体声模式中使用的数据结构和/或存储器包括重置在所述另一个立体声模式中使用的数据结构和/或存储器。207.如权利要求204所述的立体声声音信号编码方法,其中适配在数据所述另一个立体声模式中使用的数据结构和/或存储器包括使用在所述一个立体声模式中使用的数据结构和/或存储器更新在所述另一个立体声模式中使用的数据结构和/或存储器。208.如权利要求203至207中任一项所述的立体声声音信号编码方法,其中所述第二fd立体声模式是离散傅里叶变换(dft)立体声模式。209.如权利要求208所述的立体声声音信号编码方法,其中,当从第一mdct和第二dft立体声模式中的一个立体声模式切换第一mdct和第二dft立体声模式中的所述另一个立体声模式时,控制立体声模式切换包括根据当前立体声模式向/从第一mdct和第二dft立体声模式分配/释放数据结构,以通过仅保持在当前帧中采用的那些数据结构来减少存储器影响。210.如权利要求209所述的立体声声音信号编码方法,其中,当从第一mdct立体声模式切换到第二dft立体声模式时,控制立体声模式切换包括释放mdct立体声相关数据结构。211.如权利要求210所述的立体声声音信号编码方法,其中,所述mdct立体声相关数据结构包括mdct立体声数据结构和/或第一立体声编码器的核心编码器的数据结构。212.如权利要求208至211中任一项所述的立体声声音信号编码方法,其中,当从第一mdct立体声模式切换到第二dft立体声模式时,第二立体声编码器利用左声道和右声道核心编码器之一的存储器在mdct立体声帧之后的dft立体声帧中继续核心编码操作。213.如权利要求208至212中任一项所述的立体声声音信号编码方法,其中控制立体声模式切换包括在从所述一个立体声模式切换到所述另一个立体声模式时使用来自所述一个立体声模式的立体声相关参数来更新所述另一个立体声模式的立体声相关参数。214.如权利要求213所述的立体声声音信号编码方法,其中控制立体声模式切换包括在数据结构之间传输立体声相关参数。215.如权利要求208至214中任一项所述的立体声声音信号编码方法,其中控制立体声模式切换包括通过存储与当前mdct帧的最后时间段相关的样本,在每个mdct帧更新dft分析存储器。216.如权利要求208至214中任一项所述的立体声声音信号编码方法,其中控制立体声模式切换包括在mdct帧期间保持dft相关存储器。217.如权利要求208至216中任一项所述的立体声声音信号编码方法,其中控制立体声模式切换包括在从第一mdct立体声模式切换到第二dft立体声模式时,在mdct帧之后的dft帧中使用对应于mdct帧的左声道和右声道中的一个的mdct立体声存储器更新dft合成存储器。218.如权利要求208至217中任一项所述的立体声声音信号编码方法,其中控制立体声模式切换包括在立体声声音信号的dft帧期间保持有限脉冲响应(fir)重采样滤波器存储器。
219.如权利要求218所述的立体声声音信号编码方法,其中控制立体声模式切换包括在每个dft帧中使用dft帧中的中间声道m的第一长度的最后段之前的中间声道m的一段更新第一立体声编码器中的立体声声音信号的左声道和右声道中的一个中使用的fir重采样滤波器存储器。220.如权利要求219所述的立体声声音信号编码方法,其中控制立体声模式切换包括填充第一立体声编码器中立体声声音信号的左声道和右声道中的另一个中使用的fir重采样滤波器存储器,其与第一立体声编码器中的左声道和右声道中的所述一个中使用的fir重采样滤波器存储器的更新不同。221.如权利要求220所述的立体声声音信号编码方法,其中控制立体声模式切换包括通过使用所述dft帧中的中间声道m的第二长度的最后段之前的中间声道m的一段填充所述fir重采样滤波器存储器,在当前mdct帧中更新在第一立体声编码器中的左声道和右声道中的所述另一个中使用的fir重采样滤波器存储器。222.如权利要求208至221中任一项所述的立体声声音信号编码方法,其中,当从第二dft立体声模式切换到第一mdct立体声模式时,控制立体声模式切换包括在当前mdct帧中重新计算立体声声音信号的左声道和右声道中的一个相对于左声道和右声道中的另一个中的下处理信号的重新计算长度更长的下处理信号的长度。223.如权利要求208至222中任一项所述的立体声声音信号编码方法,其中,当从第二dft立体声模式切换到第一mdct立体声模式时,控制立体声模式切换包括交叉衰落立体声声音信号的左声道和右声道中重新计算的一个和dft立体声声道的dft中间声道m,以在dft帧之后的第一mdct帧中重新计算立体声声音信号的左声道和右声道中的所述一个。224.如权利要求208至223中任一项所述的立体声声音信号编码方法,其中,当从第二dft立体声模式切换到第一mdct立体声模式时,控制立体声模式切换包括重新计算对应于mdct帧之前的dft帧的左l和右r声道的ica存储器。225.如权利要求223或224所述的控制立体声声音信号编码方法,其中控制立体声模式切换包括在mdct帧之前的dft帧中重新计算左声道和右声道中的一个的第一长度和左声道和右声道中的另一个的第二长度,并且其中第一长度短于第二长度。226.如权利要求208至225中任一项所述的立体声声音信号编码方法,其中控制立体声模式切换包括在立体声声音信号的每个dft帧中存储预加重滤波器存储器的两个值。227.如权利要求208至226中任一项所述的立体声声音信号编码方法,其中,当从第二dft立体声模式切换到第一mdct立体声模式时,控制立体声模式切换包括基于左声道和右声道中的另一个的核心编码器数据结构来重置或估计左声道和右声道中的一个的核心编码器数据结构。228.一种用于解码立体声声音信号的方法,包括:提供使用在经修改的离散余弦变换(mdct)中操作的第一立体声模式的立体声声音信号的第一立体声解码器,其中第一立体声解码器在立体声声音信号的mdct帧中:(a)解码下处理信号,和(b)使用第一数据结构和存储器;提供使用在频域(fd)中操作的第二立体声模式的立体声声音信号的第二立体声解码器,其中第二立体声解码器在立体声声音信号的fd帧中:(a)解码第二下混合信号,和(b)使用第二数据结构和存储器;
控制在(i)第一mdct立体声模式和第一立体声解码器与(ii)第二fd立体声模式和第二立体声解码器之间进行切换;其中,当从第一mdct立体声模式和第二fd立体声模式中的一个立体声模式切换第一mdct立体声模式和第二fd立体声模式中的另一个立体声模式时,控制立体声模式切换包括重新计算立体声声音信号的当前帧中的下处理或下混合信号的至少一个长度,其中在第一mdct立体声模式中重新计算的下处理信号长度不同于在第二fd立体声模式中重新计算的下混合信号长度。229.一种用于解码立体声声音信号的方法,包括:提供使用在经修改的离散余弦变换(mdct)中操作的第一立体声模式的立体声声音信号的第一立体声解码器,其中第一立体声解码器在立体声声音信号的mdct帧中:(a)解码下处理信号,和(b)使用第一数据结构和存储器;提供使用在频域(fd)中操作的第二立体声模式的立体声声音信号的第二立体声解码器,其中第二立体声解码器在立体声声音信号的fd帧中:(a)解码第二下混合信号,和(b)使用第二数据结构和存储器;控制在(i)第一mdct立体声模式和第一立体声解码器与(ii)第二fd立体声模式和第二立体声解码器之间进行切换;其中,当从第一mdct立体声模式和第二fd立体声模式中的一个立体声模式切换第一mdct立体声模式和第二fd立体声模式中的另一个立体声模式时,控制立体声模式切换包括适配所述另一个立体声模式的数据结构和/或存储器,以对当前帧中的立体声声音信号进行解码。230.一种用于解码立体声声音信号的方法,包括:提供使用在经修改的离散余弦变换(mdct)中操作的第一立体声模式的立体声声音信号的第一立体声解码器,其中第一立体声解码器在立体声声音信号的mdct帧中:(a)解码下处理信号,和(b)使用第一数据结构和存储器;提供使用在频域(fd)中操作的第二立体声模式的立体声声音信号的第二立体声解码器,其中第二立体声解码器在立体声声音信号的fd帧中:(a)解码第二下混合信号,和(b)使用第二数据结构和存储器;控制在(i)第一mdct立体声模式和第一立体声解码器与(ii)第二fd立体声模式和第二立体声解码器之间进行切换;其中,当从第一mdct立体声模式和第二fd立体声模式中的一个立体声模式切换第一mdct立体声模式和第二fd立体声模式中的另一个立体声模式时,控制立体声模式切换包括在当前帧中重构下处理或下混合信号和与所述另一个立体声模式相关的其他信号。231.如权利要求229所述的立体声声音信号解码方法,其中适配所述另一个立体声模式的数据结构和/或存储器包括重置在所述另一个立体声模式中使用的数据结构和/或存储器。232.如权利要求229所述的立体声声音信号编码方法,其中适配所述另一个立体声模式的数据结构和/或存储器包括使用在所述一个立体声模式中使用的数据结构和/或存储器更新在所述另一个立体声模式中使用的数据结构和/或存储器。233.如权利要求228至232中任一项所述的立体声声音信号解码方法,其中所述第二fd
立体声模式是离散傅里叶变换(dft)立体声模式。234.如权利要求233所述的立体声声音信号解码方法,其中第一mdct立体声模式使用第一处理延迟,第二dft立体声模式使用第二处理延迟,并且第一和第二处理延迟是不同的并且包括重采样和上混合处理延迟。235.如权利要求233或234所述的立体声声音信号解码方法,其中控制立体声模式切换包括根据当前立体声模式向/从第一mdct和第二dft立体声模式分配/释放数据结构,以通过仅保持在当前帧中采用的那些数据结构来减少静态存储器影响。236.如权利要求233至235中任一项所述的立体声声音信号解码方法,其中,当接收到mdct帧之后的第一dft帧时,控制立体声模式切换包括重置dft立体声数据结构。237.如权利要求233至236中任一项所述的立体声声音信号解码方法,其中,当接收到dft帧之后的第一mdct帧时,控制立体声模式切换包括重置mdct立体声数据结构。238.如权利要求233至237中任一项所述的立体声声音信号解码方法,其中控制立体声模式切换包括在每个mdct立体声帧中更新dft立体声ola存储器缓冲器。239.如权利要求233至238中任一项所述的立体声声音信号解码方法,其中控制立体声模式切换包括更新dft立体声分析存储器。240.如权利要求239所述的立体声声音信号解码方法,其中,在接收到mdct帧之后的第一dft帧时,控制立体声模式切换包括使用mdct帧的立体声声音信号的左声道和右声道的若干最后样本在dft帧中分别更新dft立体声中间声道m和侧声道s的dft立体声分析存储器。241.如权利要求233至240中任一项所述的立体声声音信号解码方法,其中控制立体声模式切换包括在每个mdct立体声帧中更新dft立体声合成存储器。242.如权利要求241所述的立体声声音信号解码方法,其中更新dft立体声合成存储器包括,对于acelp核,在每个mdct帧中通过交叉衰落(a)基于cldfb的重采样的左声道和右声道合成与(b)重构的重采样的左声道和右声道合成来重构dft立体声合成存储器的第一部分。243.如权利要求233至242中任一项所述的立体声声音信号解码方法,其中控制立体声模式切换包括交叉衰落mdct立体声对准和同步合成与dft立体声对准和同步合成,以在从mdct帧切换到dft帧时平滑转换。244.如权利要求233至243中任一项所述的立体声声音信号解码方法,其中,在下一帧是mdct帧的情况下,控制立体声模式切换包括在dft帧期间更新mdct立体声合成存储器。245.如权利要求233至244中任一项所述的立体声声音信号解码方法,其中,当从dft帧切换到mdct帧时,控制立体声模式切换包括重置第一立体声解码器中的立体声声音信号的左声道和右声道中的一个的核心解码器的存储器。246.如权利要求233至245中任一项所述的立体声声音信号解码方法,其中,当从dft帧切换到mdct帧时,控制立体声模式切换包括使用信号能量均衡来抑制dft和mdct立体声声道之间的不连续性和差异。247.一种用于编码立体声声音信号的设备,包括:使用在时域(td)中操作的第一立体声模式的立体声声音信号的第一立体声编码器,其中第一立体声模式在立体声声音信号的td帧中:(a)产生第一下混合信号,和(b)使用第一
数据结构和存储器;使用在频域(fd)中操作的第二立体声模式的立体声声音信号的第二立体声编码器,其中第二立体声模式在立体声声音信号的fd帧中:(a)产生第二下混合信号,和(b)使用第二数据结构和存储器;控制器,在(i)第一立体声模式和第一立体声编码器与(ii)第二立体声模式和第二立体声编码器之间进行切换,以在时域或频域中对立体声声音信号进行编解码;其中,当从第一立体声模式和第二立体声模式中的一个立体声模式切换到第一立体声模式和第二立体声模式中的另一个立体声模式时,立体声模式切换控制器(i)重新计算立体声声音信号的当前帧中的下混合信号的至少一个长度,其中在第一立体声模式中重新计算的下混合信号长度不同于在第二立体声模式中重新计算的下混合信号长度,(ii)在当前帧中重构下混合信号以及与所述另一个立体声模式有关的其他信号,和/或(iii)使用所述另一个立体声模式适配在当前帧中编解码立体声声音信号的数据结构和/或存储器,其中适配数据结构和/或存储器包括从在所述一个立体声模式中使用的数据结构和/或存储器重置或更新在所述另一个立体声模式中使用的数据结构和/或存储器。248.一种用于解码立体声声音信号的设备,包括:使用在时域(td)中操作的第一立体声模式的立体声声音信号的第一立体声解码器,其中第一立体声解码器在立体声声音信号的td帧中:(a)解码下混合信号,和(b)使用第一数据结构和存储器;使用在频域(fd)中操作的第二立体声模式的立体声声音信号的第二立体声解码器,其中第二立体声解码器在立体声声音信号的fd帧中:(a)解码第二下混合信号,和(b)使用第二数据结构和存储器;控制器,在(i)第一立体声模式和第一立体声解码器与(ii)第二立体声模式和第二立体声解码器之间进行切换;其中,当从第一立体声模式和第二立体声模式中的一个立体声模式切换到第一立体声模式和第二立体声模式中的另一个立体声模式时,立体声模式切换控制器(i)重新计算立体声声音信号的当前帧中的下混合信号的至少一个长度,其中在第一立体声模式中重新计算的下混合信号长度不同于在第二立体声模式中重新计算的下混合信号长度,(ii)在当前帧中重构下混合信号以及与所述另一个立体声模式有关的其他信号,和/或(iii)使用所述另一个立体声模式适配在当前帧中编解码立体声声音信号的数据结构和/或存储器,其中适配数据结构和/或存储器包括从在所述一个立体声模式中使用的数据结构和/或存储器重置或更新在所述另一个立体声模式中使用的数据结构和/或存储器。249.一种用于编码立体声声音信号的方法,包括:提供使用在时域(td)中操作的第一立体声模式的立体声声音信号的第一立体声编码器,其中第一立体声模式在立体声声音信号的td帧中:(a)产生第一下混合信号,和(b)使用第一数据结构和存储器;提供使用在频域(fd)中操作的第二立体声模式的立体声声音信号的第二立体声编码器,其中第二立体声模式在立体声声音信号的fd帧中:(a)产生第二下混合信号,和(b)使用第二数据结构和存储器;控制在(i)第一立体声模式和第一立体声编码器与(ii)第二立体声模式和第二立体声
编码器之间进行切换,以在时域或频域中对立体声声音信号进行编解码;其中,当从第一立体声模式和第二立体声模式中的一个立体声模式切换到第一立体声模式和第二立体声模式中的另一个立体声模式时,控制切换包括(i)重新计算立体声声音信号的当前帧中的下混合信号的至少一个长度,其中在第一立体声模式中重新计算的下混合信号长度不同于在第二立体声模式中重新计算的下混合信号长度,(ii)在当前帧中重构下混合信号以及与所述另一个立体声模式有关的其他信号,和/或(iii)使用所述另一个立体声模式适配在当前帧中编解码立体声声音信号的数据结构和/或存储器,其中适配数据结构和/或存储器包括从在所述一个立体声模式中使用的数据结构和/或存储器重置或更新在所述另一个立体声模式中使用的数据结构和/或存储器。250.一种用于解码立体声声音信号的方法,包括:提供使用在时域(td)中操作的第一立体声模式的立体声声音信号的第一立体声解码器,其中第一立体声解码器在立体声声音信号的td帧中:(a)解码下混合信号,和(b)使用第一数据结构和存储器;提供使用在频域(fd)中操作的第二立体声模式的立体声声音信号的第二立体声解码器,其中第二立体声解码器在立体声声音信号的fd帧中:(a)解码第二下混合信号,和(b)使用第二数据结构和存储器;控制在(i)第一立体声模式和第一立体声解码器与(ii)第二立体声模式和第二立体声解码器之间进行切换;其中,当从第一立体声模式和第二立体声模式中的一个立体声模式切换到第一立体声模式和第二立体声模式中的另一个立体声模式时,控制切换包括(i)重新计算立体声声音信号的当前帧中的下混合信号的至少一个长度,其中在第一立体声模式中重新计算的下混合信号长度不同于在第二立体声模式中重新计算的下混合信号长度,(ii)在当前帧中重构下混合信号以及与所述另一个立体声模式有关的其他信号,和/或(iii)使用所述另一个立体声模式适配在当前帧中编解码立体声声音信号的数据结构和/或存储器,其中适配数据结构和/或存储器包括从在所述一个立体声模式中使用的数据结构和/或存储器重置或更新在所述另一个立体声模式中使用的数据结构和/或存储器。

技术总结


一种用于对立体声声音信号进行编码的方法和设备,包括使用在时域(TD)、频域(FD)或经修改的离散傅里叶变换(MDCT)域中操作的立体声模式的立体声编码器。控制器,控制在TD、FD和MDCT立体声模式之间的切换。当从一个立体声模式切换到另一个立体声模式时,切换控制器可以(a)重新计算立体声声音信号的当前帧中的下处理/混合信号的至少一个长度,(b)重构下处理/混合的信号以及与当前帧中的另一立体声模式相关的其他信号,(c)使用另一立体声模式适配在当前帧中编解码立体声声音信号的数据结构和/或存储器,和/或(d)改变TD立体声声道下混合以保持立体声声音信号的左声道和右声道的正确相位。描述了对应的立体声声音信号解码方法和设备。法和设备。法和设备。


技术研发人员:

V.埃克斯勒

受保护的技术使用者:

沃伊斯亚吉公司

技术研发日:

2021.02.01

技术公布日:

2022/9/9

本文发布于:2024-09-22 04:14:46,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/4/70304.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:立体声   模式   信号   声道
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议