首页 > 专利学习

一种3D音频质量客观评价方法[发明专利]

(10)申请公布号 CN 102664017 A

(43)申请公布日 2012.09.12C N 102664017 A

*CN102664017A*

(21)申请号 201210125344.6

(22)申请日 2012.04.25

G10L 19/00(2006.01)

G10L 15/10(2006.01)

H04S 3/00(2006.01)

(71)申请人武汉大学

地址430072 湖北省武汉市武昌珞珈山武汉

大学

(72)发明人胡瑞敏杨玉红李登实成鸿飞

余洪江赵云翟晴高丽王松

(74)专利代理机构武汉科皓知识产权代理事务

所(特殊普通合伙) 42222

代理人

薛玲

(54)发明名称

一种3D 音频质量客观评价方法

(57)摘要

本发明是一种3D 音频质量客观评价方法，经

过双耳合成后，分别提取多声道信号的音感知

特征参数、水平声场感知特征参数和高度声场感

知特征参数这三种底层声学特征参数，最后通过

3D 声场心理认知模型的处理以达到拟合主观评

价的结果，从而实现客观评价方法与主观评价方

法的最大相关。本方法考虑了双耳对三维空间内

的声源信息的音及声场的感知特征参数，客观

评价结果更接近三维感知声场的主观评价得分。

(51)Int.Cl.

权利要求书2页说明书12页附图2页

(19)中华人民共和国国家知识产权局(12)发明专利申请

权利要求书 2 页说明书 12 页附图 2 页

1.一种3D音频质量客观评价方法，其特征在于，包含以下步骤：

步骤1，将多声道信号的参考序列下混得到参考信号的双耳合成信号，将多声道信号的测试序列下混得到待测信号的双耳合成信号；

步骤2，根据步骤1所得参考信号的双耳合成信号和待测信号的双耳合成信号，计算得到待测信号的音感知特征参数、水平声场感知特征参数、高度感知特征参数；

步骤3，随机选取若干组步骤2所得待测信号的音感知特征参数、水平声场感知特征参数、高度感知特征参数作为3D声场心理认知模型的输入，以预设的相应主观评价分数作为3D声场心理认知模型的输出，经过训练得到3D声场心理认知模型，将步骤2所得其他待测信号的音感知特征参数、水平声场感知特征参数、高度感知特征参数输入训练后的3D 声场心理认知模型，得到音频质量客观评价结果。

2.根据权利要求1所述的一种3D音频质量客观评价方法，其特征在于：在步骤1中，采用头相关传输函数实现下混，得到双耳合成信号。

3.根据权利要求1或2所述的一种3D音频质量客观评价方法，其特征在于：采用ITU-R BS.1387-1标准的感知音频质量客观评价模块实现计算待测信号的音感知特征参数，包括如下步骤，

步骤1-1，通过FFT变换将双耳合成信号变换为频域信号，对频域信号计算平方幅值得到能量信号，模拟人外耳和中耳听觉效应对能量信号进行滤波处理，得到滤波后的能量信号；

步骤1-2，将滤波后的能量信号进行临界带分组，得到临界带分组信号；所述临界带分组处理模拟了人耳基底膜对不同频带信号的响应差异；

步骤1-3，根据心理声学理论对临界带分组信号进行临界带扩展得到激励样本，并计算得到调制样本；

步骤1-4，对激励样本经过时域和频域平滑处理，然后通过电平和模式调整，得到频谱适应样本，并计算掩蔽阈值；

步骤1-5，根据上述四个步骤的计算结果计算每帧音感知特征参数值，最后通过平均计算得到待测信号的音感知特征参数。

4.根据权利要求1或2所述的一种3D音频质量客观评价方法，其特征在于：所述待测信号的水平声场感知特征参数包括双耳声级差异、双耳时间差异和双耳互相关系数，计算水平声场感知特征参数包括如下步骤，

步骤2-1，通过FFT变换将双耳合成信号变换为频域信号，将参考信号和待测信号的频域信号通过一个Gammatone滤波器组划分为24个频段的巴克带，模拟外耳和中耳滤波对划分的巴克带进行加权，得到参考信号的激励模式和待测信号的激励模式；

步骤2-2，计算参考信号的激励模式和待测信号的激励模式的归一化互相关函数，得到参考信号和待测信号之间的双耳时间差异、参考信号和待测信号之间的双耳互相关系数，通过计算参考信号的激励模式和待测信号的激励模式的声强比值的对数值，得到参考信号和待测信号之间的双耳声级差异。

5.根据权利要求1或2所述的一种3D音频质量客观评价方法，其特征在于：所述待测信号的高度感知特征参数包括高度角，计算高度感知特征参数包括如下步骤，

步骤3-1，分离待测信号的双耳合成信号的左右声道，并分别进行快速傅里叶变

换，得到待测信号的频谱信号；

步骤3-2，将待测信号的频谱信号通过一个高斯滤波器滤波，得到滤波后的频谱信号；

步骤3-3，在待测信号的滤波后的频谱信号中检测频谱的波峰和波谷，将出现频谱的波峰波谷的位置和头相关传输函数数据库中的不同高度角的波峰波谷位置进行对比，估计得到待测信号的高度角。

6.根据权利要求1或2所述的一种3D音频质量客观评价方法，其特征在于：所述3D 声场心理认知模型使用BP神经网络，在3D声场心理认知模型中BP神经网络使用最速下降法。

一种3D音频质量客观评价方法

技术领域

[0001] 本发明涉及语音音频质量客观评测领域，尤其涉及3D音频和空间音频质量客观评价方法优化。

背景技术

[0002] 人类的听觉中，除了对声音的响度、音调和音等主观属性的感觉外，还包括对声音的空间听觉，也就是对声音空间属性或特征的主观感觉，3D音频就是一种强调了人耳对声音的空间属性主观感受的音频信号。随着3D音频在多媒体领域和娱乐产业中的广泛应用，如何评价3D音频设备的听音感受和音频质量就成了一个亟待关注的研究点。[0003] 目前已经有许多音频系统性能评价方法，大致可分为主观和客观评价两大类。ITU 组织针对二维环绕声效评价早在1996年和2003年发布了ITU-RBS.1116-1和BS.1534-1两种宽带音频质量主观评价标准。随后，NHK针对其22.2多声道系统在2006年提出了基于语义区分的三维感知声场主观评价方法。

[0004] 由于主观评价是以人作为主体直接参与评价，其评价结果相对更直接、更合理。传统的音频质量主观评价方法比较典型的有平均意见得分(Mean Opinion Score：MOS)评价方法，MOS评价方法是用五个等级来评价音频质量等级：优(5分)、良(4分)、一般(3分)、差(2分)、坏(1分)。但是主观评价的主要问题是耗时费力，代价大。这使得研究者寻一种通过建立预测人感知音频质量的模型和方法进行音频质量的客观评价，其结果应该与主观听觉测试越接近越好。

[0005] 目前国际主流上的音频质量客观评价方法是ITU-R BS.1387-1(PEAQ)，PEAQ客观评价方法是ITU综合已有的六种评价方法：Disturbance Index(DIX)，Noise-to-Mask Ratio(NMR)，Perceptual Audi

o Quality Measure(PAQM)，Perceptual Evaluation(PERCEVAL)，Perceptual Objective Measure(POM)and The Toolbox Approach 后提出的一项针对单声道的音频信号的客观评价方法。根据ITU-RBS.562标准将音频质量等级以5级递减表示：无法感知(5分)、可感知但不恼人(4分)、轻微恼人的(3分)、恼人的(2分)、非常恼人的(1分)。则通过参考信号和待测信号评分相减得到客观评价得分ODG，分值范围为0到-4之间。PEAQ在评价音频质量的音感知声学属性上与主观评价相近，但是PEAQ只能对单声道信号进行客观评价，不能表征3D音频的空间感知特征参数。

发明内容

[0006] 本发明的目的是提供3D音频质量客观评价技术方案，使得客观评价的结果更符合人对3D音频的主观感知效果。

[0007] 基于以上目的，本发明提供一种3D音频质量客观评价方法，包含以下步骤：[0008] 步骤1，将多声道信号的参考序列下混得到参考信号的双耳合成信号，将多声道信号的测试序列下混得到待测信号的双耳合成信号；

[0009] 步骤2，根据步骤1所得参考信号的双耳合成信号和待测信号的双耳合成信号，计

算得到待测信号的音感知特征参数、水平声场感知特征参数、高度感知特征参数；[0010] 步骤3，随

机选取若干组步骤2所得待测信号的音感知特征参数、水平声场感知特征参数、高度感知特征参数作为3D声场心理认知模型的输入，以预设的相应主观评价分数作为3D声场心理认知模型的输出，经过训练得到3D声场心理认知模型，将步骤2所得其他待测信号的音感知特征参数、水平声场感知特征参数、高度感知特征参数输入训练后的3D声场心理认知模型，得到音频质量客观评价结果。

[0011] 而且，在步骤1中，采用头相关传输函数实现下混，得到双耳合成信号。

[0012] 而且，采用ITU-R BS.1387-1标准的感知音频质量客观评价模块实现计算待测信号的音感知特征参数，包括如下步骤，

[0013] 步骤1-1，通过FFT变换将双耳合成信号变换为频域信号，对频域信号计算平方幅值得到能量信号，模拟人外耳和中耳听觉效应对能量信号进行滤波处理，得到滤波后的能量信号；

[0014] 步骤1-2，将滤波后的能量信号进行临界带分组，得到临界带分组信号；所述临界带分组处理模拟了人耳基底膜对不同频带信号的响应差异；

[0015] 步骤1-3，根据心理声学理论对临界带分组信号进行临界带扩展得到激励样本，并计算得到调制样本；

[0016] 步骤1-4，对激励样本经过时域和频域平滑处理，然后通过电平和模式调整，得到频谱适应样本，

并计算掩蔽阈值；

[0017] 步骤1-5，根据上述四个步骤的计算结果计算每帧音感知特征参数值，最后通过平均计算得到待测信号的音感知特征参数。

[0018] 而且，所述待测信号的水平声场感知特征参数包括双耳声级差异、双耳时间差异和双耳互相关系数，计算水平声场感知特征参数包括如下步骤，

[0019] 步骤2-1，通过FFT变换将双耳合成信号变换为频域信号，将参考信号和待测信号的频域信号通过一个Gammatone滤波器组划分为24个频段的巴克带，模拟外耳和中耳滤波对划分的巴克带进行加权，得到参考信号的激励模式和待测信号的激励模式；

[0020] 步骤2-2，计算参考信号的激励模式和待测信号的激励模式的归一化互相关函数，得到参考信号和待测信号之间的双耳时间差异、参考信号和待测信号之间的双耳互相关系数，通过计算参考信号的激励模式和待测信号的激励模式的声强比值的对数值，得到参考信号和待测信号之间的双耳声级差异。

[0021] 而且，所述待测信号的高度感知特征参数包括高度角，计算高度感知特征参数包括如下步骤，

[0022] 步骤3-1，分离待测信号的双耳合成信号的左右声道，并分别进行快速傅里叶变换，得到待测信号的频谱信号；

[0023] 步骤3-2，将待测信号的频谱信号通过一个高斯滤波器滤波，得到滤波后的频谱信号；

[0024] 步骤3-3，在待测信号的滤波后的频谱信号中检测频谱的波峰和波谷，将出现频谱的波峰波谷的位置和头相关传输函数数据库中的不同高度角的波峰波谷位置进行对比，估计得到待测信号的高度角。

[0025] 而且，所述3D声场心理认知模型使用BP神经网络，在3D声场心理认知模型中BP

本文发布于:2024-09-21 02:36:20，感谢您对本站的认可！

本文链接：https://www.17tex.com/tex/1/431116.html

上一篇：一种可重构N-path型滤波器

下一篇：一种基于MEMS的IMU和GPS紧组合导航方法[发明专利]

标签：信号评价感知音频待测客观质量

留言与评论（共有 0 条评论）