杨飞然, 葛延增, 吴镇扬
(东南大学 信息科学与工程学院,南京 210096)
摘 要: 介绍了传统的音频定位理论及存在的缺陷,引出了HRTF的定义,分析了HRTF包含的方位信息,并用我们开发的虚拟听觉空间系统Vasaudio对虚拟声源定位进行了实际测试,最后对测试结果做了分析。 关键词: HRTF; ITD; IID; 虚拟声源定位
Virtual Sound Source Position of HRTF
Yang Fei Ran, Ge Yan Zeng, Wu Zhen Yang
(Department of of Information Science and Engineering, Southeast University, Nanjing 210096)
Abstract: We introduce the traditional theory of audio position and its limitations first , then we give the definition of HRTF,analyse the position information in HRTF,we also do experiment using Vasaudio system, at last we make a analysis of the experiment result.
key words: HRTF; ITD; IID; virtual sound source position海砂混凝土
我们日常听到的立体声录音,虽然有左右声道之分,但就整体效果而言,立体声音乐来自听者面前的某个平面。但希望的是一个在虚拟环境中能辨别声源精确位置的声音系统,而当您听到三维虚拟声音时,音乐声是来自围绕您的一个球形中的任何地方,即声音出现在您头的上方、后方或者在您的鼻子前方。我们把在虚拟场景中的能使用户准确地判断出声源精确位置、符合人们在真实境界中听觉方式的声音系统称为三维虚拟声音。 基金项目:国家973计划资助项目(2002CB312102)
作者简介:杨飞然,1982年,男,硕士研究生, ;葛延增,1982年,男,硕士研究生;吴镇扬(联系人),男,教授,博士生导师,zhenyang@ 。
1 传统音频定位理论
耳间时间差(ITD):从声源发出的声音到达人的左耳和右耳时,有一个先后的过程,这段时间差就是耳间时间差。耳间时间差与声音信号的频率有关,是声源角位置,头部半径和声速的函数,在人类听觉定位中占有重要位置。
耳间强度差(IID):由于声音的传播媒质对声波的衰减作用,声音的强度随距离而变化,再加上耳廓和头部的遮挡,最终到达两耳的声音所经过的路径是不同的,使得距离声源近的耳朵听到的声音要强一些,这就是耳间强度差。
在中、低频(f<1.6 kHz),ITD是定位的主要因素;在中频段(f在1.5-4.0 kHz), ITD和IID共同起作用;而在高频(f>4 kHz), IID起主要作用[1]。
传统的音频定位理论的缺陷:
(1)无法解释单耳条件下的定位机理。
土著菌(2)存在锥面模糊现象。ITD和IID对左右方位的定位效果非常明显,但对前后和上下方位存在模糊现象。如图1中同一垂直面内的X和Y到达两耳的路径是对称的,以及同一水平面内的A和B到达两耳的路径也是对称的,这就无法依赖ITD和IID来进行准确定位。
图1 混淆锥示意图
2 用HRTF进行虚拟声源定位
我们介绍一种更为完备的音频定位模型,这就是HRTF。
与头部关联的传递函数(Head-Related Transfer Function, HRTF)描述了声波从声源到双耳的传输过程。事实上从某一方位的声源发出的声信号在到达听者的耳膜之前经过了复杂的
传输过程,声信号与听者的头部、肩部以及躯干,耳廓发生了反射、折射、衍射和散射等声学作用,人体的这些部位对声信号的调制作用可以统一的用一个函数来表示即与头部关联的传递函数HRTF。与之相对应的时域表示称为与头部相关联的冲激响应(Head-Related Impulse Response,HRIR)。
国外很多科研机构和高等院校都进行了HRIR的测量工作,我们在本文中使用的数据来源于加州大学戴维斯分校图像处理和集成计算中心(CIPIC)[2],HRIR数据长度为200点,采样频率为44.1KHz。 2.1 HRTF数据中包含的方位信息
我们在图2画出方位角-45°,仰角0°时的左右耳HRIR波形及对应的频谱图。
图2 方位角-45°,仰角0°时的左右耳HRIR及对应的HRTF
(1)耳间时间差(ITD):由于声源靠近左耳,从图2可以看出右耳的HRIR比左耳的HRIR有明显的时间延迟,体现了耳间时间差。
(2)耳间强度差(IID):左耳的HRTF比右耳的HRTF幅度要强一些,体现耳间强度差。
(3)HRTF会出现明显的峰值点和谷值点,有研究表明峰点频率、谷点频率对前后定位起关键作用,且谷点频率是进行定位的主要依据。
(4)HRIR在某些时刻变化剧烈,这是由于耳廓对入射声波的反射作用,左耳的HRIR波形
较右耳的HRIR波形起伏变化更为剧烈。在频谱特性上则表现为左耳的HRTF高频分量要充足些。
为了更加突出HRTF中的峰值点和谷值点,人们使用了一些方法对HRTF数据进行处理。文献[3]中对不同频率的HRTF数据加权,来放大原HRTF数据频率间的差异,设为原HRTF数据,为处理后的HRTF数据,则
权函数
HRTF反映了人体结构对声音信号的不同响应,因此HRTF有明显的个体差异,人们总是希望使用个性化的HRTF数据进行3D音效的合成,然而对每个人进行HRTF数据的测量是不现实的,有学者建议使用非个性化(non-individualized)的HRTF数据[4]。
2.2 虚拟听觉空间系统Vasaudio
将输入的音频信号分别与指定的方位和距离的左右耳HRTF数据进行卷积,然后通过耳机重发就可以得到具有方位信息的双通道音频信号,如式(1)。基于这个原理我们用VC++编程开发了虚拟听觉空间系统Vasaudio[5]可以实时播放wav格式的音频文件,图3是我们的实现框图。
(1)
式中表示乘法,表示卷积,表示输入的音频信号,和分别表示左右耳的HRIR数据,和分别表示左右耳的增益,和分别表示馈给耳机的左右声道信号。
图3 虚拟听觉空间系统实现框图
电杆钢模
3 虚拟声源定位测试实验
测试设备为1台计算机、1个高质量声卡、1 幅高质量耳塞式耳机。被测试人员为我们实验室的5名听觉正常的同学。同时我们选择音频测试常用的粉红噪声作为测试音源。测试所用的软件系统为本文前面介绍的VasAudio。
我们实验的目的有两个:一是通过测试比较HRTF的个体化差异,二是我们希望出几套对大多数人都相对比较适合的HRTF数据,已备我们以后的实验使用。
3.1 测试数据
为了比较HRTF数据的个体差异,我们使用了12套数据进行测量,分别为
(1)CIPIC数据库提供的数据:hrir_final_003, hrir_final_162,
hrir_final_163, hrir_final_165;
(2)做回归分析得到的数据:hrir_final_h_003, hrir_final_h_162,
hrir_final_h_163, hrir_final_h_165;
(3)在时域做平均得到的数据:hrir_final_avg;
(4)用PCA分析综合出来的数据:hrir_final_large_6, hrir_final_middle_6,
hrir_final_small_6。
3.2 测试步骤和结果
为减小辨别难度,只对水平面和中垂面上的角度进行定位测试,其中方位角是15°的倍数,角度从-180°到180°,共有24个方位。垂直方位角为90°(正上方)、60°、30°、0°、-45°共有5个方位。钼板坯
(1)水平方位角具体测试步骤:
步骤1:先给测试者听分布在前、后、左、右四个方向的声音信号,并告知实际方向;
步骤2:然后分别在这四个声源的附近位置选择一个方位,要求听者进行判断,并给出四个声源的位置(要求说出具体的方位角度);
步骤3:重新随机选择分布在前、后、左、右四个方向的声音信号,重复步骤1,步骤2。
(2)垂直方位角具体测试步骤:
步骤1:对给定的一组数据先给测试者听垂
方位90°、60°、30°、0°、-45°五个方向声音信号;
步骤2:从上述五个方向随机给出一个方向的声音信号,要求听者指出其具体方向角度。重
复该步骤五次直至测完一组数据;
展示柜制作
步骤3:重复步骤 1,步骤2,直至测完全部数据。
我们给出了数据标号为hrir_final_162和hrir_final_163的测试结果散点图,见图4和图5。
图4 hrir_final_162测试结果散点图
图5 hrir_final_163测试结果散点图
我们给出水平方位最终的测试统计结果,见表1。
同时我们给出垂直方位最终的测试统计结果,见表2。
表1水平方位测试结果统计表
拼接地图表2 垂直方位测试结果统计表
3.3 测试结果分析
(1)HRTF数据包含了大量的方位信息,用HRTF对声源进行定位可以提高定位的准确性,克服传统定位理论的不足。我们在测试中使用的HRTF数据是非个性化的,因此HRTF数据并不一定对每个人都是适合的,这是造成错误率较高的一个原因,另外测试中只有被测试者认定的方位和我们实际使用的方位完全一致时,我们才认为辨别正确,对试验结果的要求有些苛刻(实际上5°到20°的偏差是允许的),这是造成错误率较高的另一个原因。
(2)测试中发现被测试者对标号为hrir_final_middle_6的HRTF数据的辨别正确率较高,原因可能是5位被测试者的头部和外耳尺寸比较中等,与该数据的外耳参数比较吻合。
(3)测试中发现声源定位的前后颠倒和上下颠倒比较严重。前后颠倒从图5和图6可以很明显的看出。垂直方位的测试结果尤为不好,如倾听者1号在使用标号为hrir_final_165和hrir_final_h_003的HRTF数据处理过的音频信号进行垂直方位的辨别时,5个方位完全辨别错误,其他被测试者也有这样的问题。