查看了不少VR相关文章,感觉很多文章都是点到为止,或者描述不详或者在关键点上不置可否,很多都是国外的东西翻译过来然后增加一些自己的观点,这就难免有一些译者的误读。我针对我的制作经验写一些VR音频相关的东西希望可以帮助到别人。
首先说说人头录音和VR音频的关系。
我听过很多人在描述VR体验的时候都会有“VR应该使用人头录音而不是传统音频”这样的观点,其实这是不准确的,人头录音完全不能使用在VR音频中,但人头录音的思路确实是目前VR音频的理论基础。
人头录音就是用人头模型(包括人耳耳廓模型)当成物理滤波器,模拟人耳接收空间中声音的实际情况来录音的技术——我承认这听起来有点难理解,我们从下面这个问题开始。
人是怎样判断一个发声点所在的方向的?
对于一个有一定工作经验的音频工作者来说这个问题很好回答,就是两耳听觉差。简单的说你左边的声音会先传入你的左耳,后传入你的右耳,然后你的大脑会根据这个时间的差值来告知你发生源的方向——这是绝大多数音频工作者都能给出的答案。那下一个问题:
人是怎么分辨一个发声点是在自己正前方还是正后方的?
这个问题是不是比较难一些了?没有了两耳听觉的时间差,但我们却可以清晰的分辨我们前方和后方的声音,这又是为什么呢?这是因为人在听声音的时候,整个头部,耳廓,甚至于一部分身体都充当了一个复杂的物理滤波器,这些滤波器对本来可以直达耳洞的声音进行了阻挡、吸收、衍射等影响,这些影响对声音的改造可以让人产生非常主观的经验——“后边的声音会变成这样”“上面的声音会变成这样”。和人耳对左右的分辨不同,这种影响非常难用数学模型表达清楚。
如果我还想在用回放设备听声音的时候能尽量还原这种复杂的定位系统怎么办?最直接的方法就是还原这个物理滤波器就行了,于是就有了人头录音,我们直接做一个人头模型出来,然后在耳洞的位置插两支话筒,这样录出来的声音用耳机回放的时候就可以比较准确的还原人类听觉的空间定位,这就是人头录音了。
那为什么说VR里面不能直接使用人头录音呢?
类比来说,这就像拍电影用的摄影机一样,你只能看到拍摄空间中摄影机对准的那个方向的东西,绝对看不到摄影机背面都有什么,导演让你看哪你就只能看哪。人头录音也一样,录出来的声音只能按照录制时候的轨迹来还原,并不受听者的控制。比如说录音的时候,有人在人头模型的右边说话,那你用耳机听的时候也会听到有人在右耳边说话,你把头往右转90度,他仍然在你右耳边,他跟着你的耳机一起向右转了过去,因为录音的时候只记录了这个方位的信息。
显然这样的声音用在VR里是不能使用的。
VR之所以叫“虚拟现实”,首先需要强调的就是感官信息的全面性,在这个虚拟的世界里,体验者有可能会感知到的信息必须全部存在。如果在这个虚拟世界中你背后有一把椅子,那这把椅子就必须一开始就存在于这个世界中,就算你不回头看,这把椅子的模型和材质也必须在那里,这样才能骗过体验者的感官使其对虚拟世界有强烈的沉浸感。声音也一样,虽然我们不一定会听遍所有角度的声音信息,但所有有可能会触及的信息必须一开始就放在那。你可以在游戏引擎里模拟这一步骤,也可以用特有的录音的方式来录制这样的声音信息。
那么VR音频的逻辑就很明确了,把所有的声音信息全都放在虚拟的空间中,然后根据体验者的动作来选择他应该听到哪些信息,并模拟现实中因为角度方向的不同对声音的改造。
这个时候人头录音的概念就可以用的上了。
于是,我们又把那个做人头录音的人头模型放到了录音室里,这次我们开始在人头的周围每隔一个角度就播放一次预制好的声音样本(比如一个脉冲),然后用人头模型里的话筒录到声音和原始声音样本做比对,这样就得到了一个变化模型,就和采样混响的原理差不多我们用同样的方法,从各个角度采集足够多的模型,我们就得到了一个函数集,这就是所谓的头相关变化函数(HRTF)。VR中正是通过这个函数,用相应的decoder来实时计算出两耳音频的信息的。
所以说,虽然VR中不能直接使用人头录音,但是人头录音却给VR中使用的双耳音频提供了理论基础。实际上,人头录音这个翻译有点不够严谨,本来是叫binaural recording,而VR中用的双耳音频叫binaural audio, 如果只看英文的话,可能就可以比较直接的理解这两个概念的区别和关联了。