虚拟现实声音实现技术论文

虚拟现实声音实现技术的研究
班级:计科1201      姓名:汪敏倩      学号:************
摘要
听觉信息是人类仅次于视觉信息的第二传感通道,是增强人在虚拟现实中的浸没感和交互性的重要途径。它作为多通道感知虚拟环境中的一个重要组成部分,一方面负责用户与虚拟环境的语音输入,另一方面生成虚拟世界中的三维虚拟声音。本文首先描述了虚拟声音的概念、作用及特征,能够形成对虚拟声音的大概认识。然后着重介绍了各种听觉模型、语音识别合成技术、语音定位等关键技术。最后就虚拟现实声音领域目前所存在的问题以及应用领域、发展前景加以描述。
正文
硅铁合金三维虚拟声音的概念与作用
①概念介绍:
cap3三维虚拟声音与人们熟悉的立体声音不同。就立体声音而言,我们可以调整它的左右声道,但是,整体来说我们能够感受到的立体声音还是来自于听者的某一个平面。而三维虚拟声音的体验,听者可以感知到来自四面八方的声音,相当于整个声音系统像一个球形空间围绕着听者的双耳,所以听者可以感受到整个球形空间的任何地方的声音。
举个例子来说,如果你在体验一个虚拟现实的射击游戏,你作为游戏中的战斗者,当听到了敌人的射击声时,你可以像在现实世界中一样,能够及时准确得分辨出声的来源方位,如果敌人在你背后你也可以分辨出来,而这在平时的立体声音中是完全体会不到的。所以,三维虚拟声音更加符合我们在真实境界中听觉方式。
图1三维虚拟声音示意图
②三维虚拟声音的作用
在虚拟现实系统中加入与视觉并行的三维虚拟声音,一方面可以在很大程度上增强用户在虚拟世界中的沉浸感和交互性,另一方面也可以减弱大脑对于视觉的依赖性,降低沉浸感对视觉信息的要求,使用户体验视觉感受、听觉感受带来的双重信息享受。总得来说,声音的作用有如下几点:
声音可以作为用户和虚拟环境的一种交互方法,我们可以通过语音交流与虚拟世界取得联系;
数据驱动的声音能传递对象的基本属性信息;
增强空间信息,特别是当空间超出了视觉范围,这个时候,就完全要靠声音来识别。
三维虚拟声音的特征
三维虚拟声音主要的特征有全向三维定位特征、三维实时跟踪特性以及沉浸感与交互性。
下面对它们分别做介绍:
全向三维定位特性是指在三维虚拟空间中把实际声音信号定位到特定虚拟专用源的能力。它能使用户准确得判断出声源的位置,非常符合我们在现实生活中的听觉感受。举个例子来说,在现实生活中,我们一般都是先听到声响,然后再用眼睛去看这个地方,三维声音系统允许用户根据眼睛注视的方向以及根据所有可能的位置来监视和识别各种信息源,由此可以看出,三维声音系统可以利用粗调的机制用以引导较为细调的视觉能力的注意。在有视觉干扰的虚拟环境中,这一点尤其重要,这个时候,我们一般会通过听觉感受来引导肉眼对于目标位置的搜索,这种方法肯定要优于没有任何辅助而直接用肉眼搜索目标。即使是对处于视野中心的物体也是如此,这就是声学信号的全向特性。
三维实时跟踪特性是指在三维虚拟空间中实时跟踪虚拟声源位置变化或景象变化的能力。比如说,当用户的头部转动时,虽然虚拟声源在虚拟场景中的绝对位置没有发生改变,但是它相对于用户头部的位置发生了变化,所以用户的听觉感受也应该发生变化,从而使用户感受到声源位置的固定性。而当虚拟发声物体移动位置时,用户的听觉感受也应随之改变。只有声音效果与实时变化的视觉相一致,才能产生视觉与听觉的叠加与同步效
应。如果三维虚拟声音系统不具备这样的实时变化能力,看到的景象与听到的声音就会相互矛盾,听觉就会削弱视觉的沉浸感。
三维虚拟声音的沉浸感就是指在三维场景中加入三维虚拟声音后,能够使用户在听觉与视觉交互的同时能够有身临其境的感觉,使人沉浸在虚拟世界中,有助于增强临场效果。三维声音的交互特性是指随用户的运动而产生的临场反应和实时响应的能力。
三维虚拟声音的建模方法
为了建立具有真实感的三维虚拟声音,一般从最简单的单耳声源开始,然后通过专门的三维虚拟声音系统的处理,生成分离的左右信号,分别传入听者的左右耳朵。以此来使听者准确定位声音的位置。目前常用的听觉模型包括头部相关传递函数、房间声学模型、增强现实中的声音显示。
有很多致力于研究从声源发出的声波是如何传输到人耳中的,声波从声源处到鼓膜处的变化其实可以看做是人的双耳对声波的滤波作用,它主要表现为人的头、躯干和外耳构成的复杂外形对声波产生的散射、折射和吸收作用,人们将声波从自由场传到鼓膜处的变换
函数称之为与头部相关的传递函数HRTF(Head-Related Transfer Function)。由于每个人的头、耳的大小和形状各不相同,所以HRTF也因人而异。但是这些函数通常是从一人获得的,因而它是一组平均特征值。获取HRTF的一般方法是:通过测量外界声音及人耳鼓膜上的声音频谱差异,即可获得声音在耳附近发生的频谱波形;随后利用这些数据对声波与人耳的交互方式进行编码,即可得出HRTF,并确定双耳的信号传播延迟特点。
然而HRTF受到很多因素的影响,除了耳廓是最主要的因素,还有头部、耳道、肩膀、躯体等等。这些影响因素里面可以分为两类,一种是与方向有关的因素,包括躯体影响、肩膀反射等,还有一种是与方向无关的因素,包括耳控共振以及耳道与鼓膜的阻抗,示例图如下:
遥控器学习
房间声学模型的目标就是计算第二声源的空间图,也就是为初始声源计算一组离散的第二声源(回声)。因为在声音的传输过程中如果能够模拟声音与虚拟场景的反射效果,那么即使只有少量的一阶和二阶反射,也可以增加声音效果的真实性。对于第二声源可以由三个主要特性描述:距离上有延迟;相对第一声源的频谱有改变(空气吸收、表面发射等);与听者的入射方向有变化。通常到第二声源有两种方法:镜面图像法和射线跟踪法。镜面图像法能够保证到所有几何正确的声音路径,不过由于该算法是递归的所以不容易改变尺度。射线跟踪法使用一系列射线的反射和折射寻第二声源,它的缺点在于很难确定所需射线数目。主要优点是即使处理时间很短,也能产生不错的合理的听觉效果,而且通过调节可用射线的数目,很容易以给定的帧频工作。
增强现实中的声音显示是指我们可以将计算机合成的声音信号与真实的声音信号叠加在一起,真实的声音信号可以由定位麦克风采样得到,可以是当地环境的,也可以是借助遥操作系统来自远地环境的。
这个声音增强系统应该是能够接受任何环境中麦克风接受的信号,用来适应给定情况的方式变化这些信号,然后把它们叠加到虚拟现实系统提供的声音信号上。
联轴器弹簧
语音识别技术
语音识别是指将人说话的语音信号转换为可被计算机识别的文字信息。语音识别的过程分为:参数提取、参数模式建立、模式识别等过程。举一个例子来说明,当我们对着话筒讲话,这句话传入到系统中,系统先把他转换成数据文件,然后相应的软件便开始识别,主要是把用户输入的样本与事先存储好的样本进行对比,系统选出它认为最像的声音序列号,通过这些序列号的拼接,可以知道用户刚才念的是什么意思,然后执行相应的操作。
其实在语音识别方面还有很大的困难,因为要真正建立识别率高的语音识别系统是非常困难的,因为在实际应用中每个使用者的语音长度、音调、频率都不一致,甚至同一个人在不同的时间念出来相同的声音,波形却也不尽相同,如果所在环境有杂音的话就更加识别不出来了。就像我们平时手机上使用的小欧助手之类的语音软件,很多时候它都是不能识别出来我们讲的是什么意思。不过现在也有很多科研人员在尽力解决这个问题,以后应该会识别度越来越高。
语音的合成
语音合成技术是指用人工的方法生成语音的技术,相当于是语音识别的逆过程。一般来说,用户对于语音的要求是可懂、清晰、自然、具有表现力。
目前来讲,实现语音输出有两种方法,一种是录音/重放,另一种是文-语转换。对第一种方法,我们首先要把模拟语音信号转换成数字序列,编码,然后暂存于存储设别,就是把真实声音保存起来。需要时,再经过解码操作,重建声音信号(重放),就是把这个声音再放出来。运用此种方法,可以获得高音质声音,并能保留特定人的音。但所需的存储容量随发音时间线性增长。第二种方法是基于声音合成技术的一种声音产生技术。主要是把计算机内的文本转换成连续自然的语声流。使用这种方法,应该事先建立语音参数数据库、发音规则库等。需要输出语音时,系统先合成语音单元,再按照语音学规则连接成自然的语流。
   
三维虚拟声音应用领域
平移天窗不管是在任何虚拟场景中,增加了虚拟声音,都会使用户体验感更加真实。所以虚拟现实技术的应用领域即存在虚拟声音。主要应用领域罗列如下:
①工程领域的应用
在工程应用领域中,我们可以把它用于航空航天、潜水等方面,通过通过模拟虚拟环境,使工作人员可以更早更好得适应环境。还可以用于建筑设计方面,设计建筑的声音反射次数、衰减情况,使真实入住以后更加舒适。
②艺术与娱乐领域的应用
主要是游戏方面,可以创造更加真实的游戏体验环境,使游戏者有身临其境的感觉,还有就是电影电视产业方面的应用,也可以使观众有不一样的独特体验。
④虚拟训练
可以进行一些虚拟消防学院、飞行仿真、以及虚拟军事训练方面。在虚拟环境中,也可以有真实训练的感觉,比如听到子弹击的声音等等。
虚拟声音技术存在的问题
就目前虚拟声音技术的发展情况来看,在有些地方确实还存在着很多问题。例举如下:
①听觉定位的混淆问题。无论应用哪一种听觉定位方法,通过耳机定位,常常导致定位声音的前后颠倒和上下颠倒,所以会大大得降低立体定位的性能和声源形象化。这主要是因为耳机掩蔽了听觉辅助器官的作用而形成的一个听觉定位锥。
②虚拟声音环境的可视化问题。虚拟声音通常与视频技术结合创造一个虚拟视听环境。把视觉背景作为听觉补偿,可以提高声音环境的逼真度和降低听觉定位混淆。但是,如果听觉通道信息与视觉通道信息互相冲突,反而会降低虚拟视听环境的逼真度,所以,视听保持同步、头部运动补偿等问题都会影响虚拟声音。视听同步不仅包括声音事件与运动事件在时间上的同步,而且与声音控制系统参数保持同步映射关系。
③听觉心理学和听觉生理学的限制。相对而言,对外围听觉系统的研究比较充分,而对于听觉通路及中枢听觉的研究则很不充分。由于听觉系统的复杂性,目前对于它的机理还有很多不清楚。从生理学来看,听觉系统对于声音的频率、强度以及各种不同声音之间的关系表现出外围听觉系统处理的非线性,从而要用响度、音调以及临界带宽等加以描述。至于更高层次,要涉及到听者的认知系统以及各种知识源的相互作用。因此,对于听觉系统还需进行广泛而深入的研究。

本文发布于:2024-09-25 00:33:18,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/4/119025.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:声音   虚拟   听觉   语音   系统   视觉   用户
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议