三维声双耳渲染及其评价

三维声双耳渲染及其评价
【摘  要】本文分析了未来广播电视声音的特点和三维声的应用场景,回顾了三维声耳机渲染的实现原理和关键技术,对两种基于HRTF 双耳渲染算法设计了主观评价方法并进行了评价。考虑到三维声双耳渲染带来的全新的声音特点,应用的主观评价方法不同于音频评价常用的无基准和有基准方法。【关键词】三维声,
双耳渲染, HRTF ,  HRIR  ,主观评价【中图分类号】 TN94        【文献标识码】 A        【DOI 编码】
10.be.20180010003【本文献信息】张建东,汪芮.三维声双耳渲染及其评价[J].广播与电视技术,2018,Vol.45(10).
Binaural Rendering of Three-Dimensional Sound
and its Evaluation
Zhang Jiandong, Wang Rui
(Academy of Broadcasting Planning, SAPPRFT, Beijing 100866, China)
Abstract  This paper analyzes the characteristics of sound in radio and TV and the application scenarios of three-dimensional sounds. It reviews the key technologies of binaural rendering of three-dimensional sound based on HRTF, and evaluates two algorithms of binaural rendering. Considering the new sound characteristics brought by the three-dimensional binaural rendering, the subjective evaluation method is different from the methods commonly used in audio evaluation: the without reference audio evaluation and with reference audio evaluation.Keywords  Three-dimensional sound, Binaural rendering, HRTF, HRIR, Subjective evaluation
张建东,汪芮
(国家新闻出版广电总局广播电视规划院,北京 100866)
1  未来的广播电视声音
随着视频向4K 超高清的迈进和大规模使用,与高清晰度画面伴随的声音也应该带给人们更愉悦的听觉享受,三维声在原来5.1环绕声等二维空间的基础上增加了高度层的扬声器配置,使声音不仅能够定位于耳部高度层扬声器,还能定位于房间的更高层或顶层扬声器和扬声器之间,从而带给人们被声场包围的感觉和更真实的临场感。
在家庭的实际应用环境中,若想在三维空间实现理想的声音覆盖,必须设置一定数量的扬声器,以满足人们在水平方向和垂直方向上听觉分辨力的要求,听起来,声音才可能定位准确,声源沿特定轨迹运动时才不会给人时断时续的感觉。比如,直升机在空中以一定的速度沿十字运动或圆周运
动,在顶部设置4个扬声器与2个扬声器在听感上有多大区
别?设置几个扬声器覆盖刚好,不空场,也不至引起明显的梳状滤波效应?这些问题不是本文讨论的重点,但需明确一点,欲达到理想的三维声效果,即在更宽的听音区内同时满足在所有方向上幻像声源定位准确、有三维空间的声音包围感和在整个的图像区域内(特指大屏)前方声像稳定,需要一定数量的扬声器配置。典型的扬声器配置如日本的22.2声道,AURO  的13.1等。
在家庭的应用环境中,有条件配备多只音箱的家庭占比不高,即使配置了多只音箱,扬声器的摆放位置也会因房间的形状而各异,比如可能由于房间面积的限制,后环绕扬声器或许摆在与沙发持平或稍靠后的位置,而非圆形上110度方位角的标准化的摆放位置,未来的广播电视声音,无论对何种形状的音箱摆位都应提供最佳的声音体验。另一方面,
比如我们看电影时,有人喜欢听原音,有人喜欢听配音,未来的广播电视在一个节目流中对这些个性化的需求都应满足。
除了以上几个广播电视三维声系统的特点外,未来的节目还会适用于多种播出平台,如PAD、移动终端的耳机收听,如何通过耳机收听到完美的三维声,是本文关注的重点。
2  基于HRTF的三维声耳机重放的实现原理
我们在听音时,人耳除了感知响度、音、音调等声音属性外还能判别声音的位置和方向。虽然经过多年的研究积累了很多经验,人耳如何判别声音的位置仍是一个充满神奇的待探索领域。
研究得到的经验之一是认为双耳时间差(ITD,Interaural Time Difference)和双耳声压差(ILD,Interaural Level Difference)对声源定位起了很重要的作用。ITD是指位于人的左侧或右侧的声源产生的声波在到达左耳和右耳的时间存在差异,人脑通过探测左耳和右耳信号间的相位差来对声源位置的水平角做出判断。我们通常认为ITD对1.5kHz以下的信号的声音定位起主要作用,这是因为高于1.5kHz信号的波长短于两耳间的距离,双耳间的信号差超出了一个周期,从而对人脑的相位差判断造成干扰。ILD是指由于人头部的遮挡,声波到达双耳的声压级存在差异,通常认为ILD对1.5kHz以上的信号的声音定位起主要作用。
人脑和人耳对声源定位的判断机理远比上面提及的ITD 和ILD复杂,三维声耳机重放的一个想法是不必总结出ITD 和ILD等特点,而使经过处理的双耳信号声音信号携带上某特定方位上声源所具有的人类识别声源定位的所有信息,从而伪装成是从该方位发出的,欺骗人脑产生三维声的效果,而头相关传输
函数(HRTF,Head-Related Transfer Function)正是实现这一想法的有效的工具。
从信号处理的角度来看,声源发出的直达声波经由头部、躯干和耳廓等散射和反射到达双耳,可以看作对声源信号的滤波过程,其传输函数称为HRTF,HRTF定义为自由场情况下从声源到双耳的频域声学传输函数,表达了人的生理结构对声波的综合滤波效果,可以表示为
公式中,P L、P R分别是简谐点声源在左、右耳产生的频域复数声压;P0是测量对象不存在时点声源在测量对象头部中心位置处的频域复数声压。一般情况下,H L和H R是声源到人头中心距离γ、声源方位角θ、俯仰角、频率ω以及人体参数α的函数。可见HRTF与人体的生理尺寸密切相关,因个体差异而不尽相同,也就是说因人而异。HRTF在时域的表示为头相关脉冲响应(HRIR),HRTF与HRIR互为傅里叶变换对。
将单路音频E0(ω)按以下公式进行滤波处理:
或将时域音频信号e0(t)用HRIR进行卷积处理:
将处理得到的双耳信号聩给耳机重放,在听觉中虚拟出相应位置的空间声像。
由于HRTF与人体的生理尺寸密切相关,使用收听者本人的HRTF测量数据,将会产生更准确的定位效果,但在实际应用中,个性化HRTF数据的获得需要专业的测量环境和测量工具,在家庭端使用不具一般性,通常会使用特定生理参数下的HRTF数据。
3  HRTF关键技术
3.1 HRTF测量
HRTF获取的准确方式是进行测量。测量通常在消声室进行,测量对象为人工头或真人。人工头测量可得到特定(平均)生理参数下的HRTF数据,不具个性化特征。真人测量根据不同人的生理参数HRTF各异,但由于真人在测量过程中容易发生轻微的头部及身体的移动,带来测量误差。
测量时,扬声器产生测量信号,位于双耳处的传声器拾取声音信号。理想的测量信号应具有平直的频谱特性,测量中多采用伪随机信号,伪随机信号中的MLS(最大长度信号)的自相关函数近似为δ函数,因此通过将双耳信号与原始的MLS信号进行互相关计算即可得到头部相关脉冲响应HRIR,再对HRIR进行傅里叶变换得到HRTF。
1994年,MIT对KEMAR人工头的HRTF进行了测量,测量距离为1.4m,形成了包括俯仰角为-40°〜90
°,步进为10°、水平角0°〜360°,步进为5°,共710个空间位置的测量数据。测量数据以44.1kHz采样率下512个采样点的脉冲响应的形式呈现。
声音定位2000年,加州大学公布了43名被测者(27男,16女)的HRIR测量数据库CIPIC,测量数据包括 25个水平角和50个俯仰角,测量距离为1.0m的总计1250个方位,测量数据以44.1kHz采样率下200个采样点的脉冲响应的形式呈现。测量还包括43名被测者的人体参数。人体参数共27项,其中头和躯干相关17项,耳廓相关10项,如,头部的宽度、高
度和深度、耳廓的宽度、耳廓的高度等。这些人体参数的提供对研究者进一步探究人体参数与HRTF特性的关系提供了基础数据。
2006年,华南理工大学开展了基于中国人人体参数的HRTF测量,HRTF数据库包括52名被测者在493个方位的远场HRIR,同时还包括17项人体测量参数。
3.2 HRTF数据库存储格式
通过测量得到HRTF的存储格式各异,各实验室测量的HRTF测量结果均以各自的格式存储,不利于测量结果的交换和使用:前文提到的MIT对KEMAR人工头的HRTF测量结果存放于若干文件夹中,每俯仰角一个文件夹,每个文件夹中每个水平角单独一个数据文件,每数据文件包括512个16比特符号整
数;而CIPIC数据库中,每个被测者单独一个文件,为Matlab数据格式,包含一个维度为水平角、俯仰角和样本时间的三维数组,也就是说,每个数据代表的含义由水平角、俯仰角和样本时间三个索引号唯一确定。MIT只对人工头进行了测量,数据包含水平角和俯仰角两个维度,CIPIC 数据库则增加了被测者这一维度,若要测试不同测量距离下的HRFT,便又增加了测量距离的维度,使数据的表达形式更为复杂。
SOFA(Spatially Oriented Format for Acoustics)是已被AES标准化的HRTF存储格式,标准号为AES69-2015,其目的是以通用的方式表示复杂的空间数据,比如可以在单一文件中灵活承载多条件(测试距离、被测者等)下的HRTF数据。SOFA通过对象和对象间关系的描述来表示测量条件,如以声源和麦克风为对象,以笛卡尔坐标系或球面坐标系中的位置描述两者的关系,存储在一个基于netCDF-4的容器中,提供数据和元数据的结构化的表示。
4  HRTF双耳渲染效果评价
4.1 常用主观评价方法
所谓主观评价就是通过统计分析的方法总结出人们主观感觉活动背后的潜在规律,并且用具体的数字来表述这些主观感觉。其中最难的环节就是根据待评对象和评价目的确定合适的主观评价方法以及使用富有经验的、具有专业知识的评价员。
常用的音频主观评价方法包括无基准(无参考,或称为无源)方法和有基准(有参考,或称为有源)方法。无基准的方法如 GB/T16463-1996《广播节目声音质量主观评价方法和技术指标要求》,对待评对象从清晰度、丰满度、圆润度、明亮度、柔和度、真实度、平衡度、立体效果和总体音质九个方面,按照五级评分标度进行评价;无基准的方法还包括直接比较法,如ITU-R BS.1284General methods for the subjective assessment of sound quality中规定的七级比较标度,将A和B两个被测对象直接对比给出相对分差值;有基准的方法如GY/T298-2016《音频系统小损伤主观评价方法》(ITU-R BS.1116),概括为“带隐藏基准的双盲三刺激”方法和ITU-R BS.1534Method for the subjective assessment of intermediate quality level of audio systems,概括为“带隐藏基准和支撑序列(anchor)的多刺激”方法,将待评对象与基准对比,按五级损伤标度将声音质量的下降程度映射到相应的评分。
4.2 三维声双耳渲染主观评价方法考虑
笔者所在的团队对国际上两种双耳渲染的实现效果进行了主观评价。
面对新兴的技术,国内的评价员缺少对三维声节目的评价经验。如果采用有基准的评价方法,可以直接与基准对比进行评价,从一定程度上可降低评价的复杂度,但不到一种可作为基准的标准的双耳渲染算法,采用有基准的评价方法存在困难。
若采用无基准的方法,三维声双耳渲染带来的全新评价属性会对评价结果的有效性和灵敏性形成不小的挑战。双耳渲染的第一类评价属性与利用耳机做传统音频评价时的评价属性类似,如音、明亮度等物理相关属性,其优劣可以直接靠评价员的日常经验给出判断;第二类评价属性反映双耳渲染的固有特点,如声源位置相关属性中的头中效应和声源渲染位置的准确性,若没有配套的视频或文字做辅助,评价员很难凭经验直接给出脱离了头中效应的声源位于何处才更准确的判断,若提供了辅助用的视频或文字,再加上使用代表真实应用的包含多声音元素的测试序列,容易分散评价员的注意力,使评价员迷失在过多的信息中;第三类评价属性与空间感相关,如增加了反射声而带来的音和空间感的变化,其评价与评价员的音乐素养直接相关;第四类评价属性是考虑到三维声以及多个声道的音频元素浓缩到两声道时带来的挑战,如沉浸感、真实感、多并发声音的可辨识性等。从这四类属性的特点来看,若采用无基准的方法,由于评价员对三维声序列的聆听经验不足,或者说头脑中的日常积累不足,可能产生评价数据的不稳定或离散度大等问题,或者干脆由于最佳声源位置的不确定无法做出优劣的判定。
由此可见,常用的有基准和无基准的方法在对双耳渲染的评价上都存在需要跨越的障碍。
4.3 三维声双耳渲染主观评价设计
4.3.1 测试序列
测试序列由中央电视台团队制作,为12个5.1+4H+4objects序列,48kHz采样率,24bit量化。每个序列的4个objects中的1个具有动态运动轨迹,动态运动轨迹的示例如:声源从测听点正右方与R、Rs音箱连接线交点位置移动到测听点再移动到测听点正左方与L、Ls音箱连接线交点位置,移动为匀速直线运动。
4.3.2 评价方法
以5.1+4H扬声器渲染输出作为评价基准(公平起见,两个双耳渲染厂家各生成6个),在评价中随时可获得,经两种双耳渲染算法对测试序列进行处理后的输出为被测对象A和B,以直接下混(MIXDOWN)为2声道的输出作为ANCHOR(公平起见,两个双耳渲染厂家各生成6个)。评价序列的重放结构如图1。
4.3.3 评分标度
采用5级连续质量标度,评分等级描述如表1。4.3.4  三维声双耳渲染主观评价效果小结
由于三维声双耳渲染不易获得标准的渲染效果作为评价的基准,本次测试以无基准的评价方法为主。考虑到无基准方法中,仅靠刺激(被测序列)提供的信息不足以使评价员做出孰优孰劣的判断(如一声鸟鸣,其声像位于何处时给出更高的分值),因此,采用了以5.1+4H扬声器渲染输出作为基准的方
法,该基准不强制使用,但在评价中随时可获得。在试验设计的初期,笔者担心在音箱生成的真实声场和耳机生成的模拟声场这两种风格迥异的声场之间的切换,会使评价员无所适从,但评价员的评价结果及部分评价员的重复评价结果显示,评价数据稳定。以直接downmix输出作为anchor,加强了评价数据的稳定。
参考文献:
[1] 王刚.基于HRTF的虚拟听觉系统的关键技术研究[D].东南大学硕士论文,2012.
[2] Tilen Potisk.Head-Related Transfer Function[D].University of Ljubljana,2015.
[3] 钟小丽,谢波荪.头相关传输函数的研究进展[J].电声技术,2004(12):44-46.
[4] V.R.Agazi等.THE CIPIC HRTF DATABASE,IEEE workshop,2001.
[5] 张建东,宁金辉,韦安明.环绕声声音质量的主观评价方法[J].广播与电视技术,2012,39(5):52-55.
第一作者简介:
张建东,广播电视规划院教授级高级工程师,负责广播电视台内音频领域的技术研究和系统检测。
图1 评价序列的重放结构
表1 评分等级

本文发布于:2024-09-22 04:10:00,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/3/350737.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:评价   测量   声音   方法   声源
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议