如何用AKG K361BT获得完胜苹果AirPods Max的音频体验？这也许是目前最好的虚拟音频。

首先回答为什么采用AKG K361BT而不是其他耳机，因为我有参与过这款耳机的声学设计，所以对其声学结构比较了解。这不论对于改造耳机还是声学标定和音频算法设计都可以事半功倍。例如加装麦克风而尽可能不影响耳机本身的声学性能，合理位置外置陀螺仪不挡泄露孔（时间有限否则可以3D打印重新做一个外壳，外置陀螺仪实属简单粗暴）。

还记得苹果AirPods Max的佩戴泄露自适应功能嘛？似乎只在中低频部分起作用，总体效果一般。其实所谓的自适应泄漏控制，原理并不复杂，大致就是测量耳机内的声音，如果偏离预设目标曲线就做一定的补偿，设定一些High Q值的阈值防止一些极端情况。总体上比房间校准算法要简单一些。

先来小试牛刀。(由于是测试自适应佩戴补偿的一致性，所以耳机本身我只是微调了EQ）

K361BT进行了更多测试 QNjAVf3.jpg!mobile

K361BT进行了更多测试 JJjm6nr.jpg!mobile

K361BT进行了更多测试 Rv63eyR.jpg!mobile

知乎视频 www.zhihu.com

然而事情远非如此。让我非常遗憾与费解的是，苹果AirPods Max的空间音频居然不支持音乐。而默认的模式在很多音乐中都有比较明显的头中效应。这让我不得不怀疑， 之所以只支持电影是利用了杜比全景声预先做好的音轨，而非真正的基于任意音源进行计算的虚拟空间音频。

鬼斧神工119：苹果AirPods Max头戴式蓝牙降噪耳机深度测评 zhuanlan.zhihu.com

要实现音乐的耳机虚拟空间音频，首先是测量，我采用高精度麦克风测试了实际房间内已经调试好的带有房间反射与混响的高品质音箱系统在外耳道处的响应，这与头戴式耳机相呼应。这样其实理论上直接再与音源做卷积加载在耳机上并且稍微做一些简单的处理就可以实现静态下的虚拟空间音频。

然而，为了更广泛的适用性而不是单一的一套音箱系统，我也采集了单独的HRTF。但是，传统的HRTF需要在消声室内并且使用数十个音箱组成的全方位多声道。国内拥有这样条件的实验室很少，我也没有那么多时间去采集。于是我找了一个做结构光测量的哥们，用三步相移和数字微镜DMD扫描了我的躯干和外耳廓三维全息。利用有限元仿真的技术逆向计算了HRTF预测值并与之前在我的房间内的实测结果进行比对与修正。

仅示意

仅示意

我在两年多以前所介绍的耳机与音箱的区别中就曾详细提及相关内容。所以，用耳机虚拟音箱或者真实声源的虚拟空间音频要做的就是模拟真实声源在各个方向的反射声音并且经过对应入射方向的HRTF滤波最终再合成。

鬼斧神工119：耳机和音箱有什么区别？哪一种更好？ zhuanlan.zhihu.com

所以有了HRTF之后，这里自然就需要对各个方向声音的模拟以及左右耳crosstalk的计算。而这里的关键点有两点：

一是声源在空间中各个方向的声辐射特性数据；

二是可以计算房间对于声源的反射。

对于第一点，我使用Klippel NFS近场扫描系统测试了几款音箱的CEA2034A。

鬼斧神工119：市面上一些音箱表现究竟如何？如何通过数据解读音箱的音质和声场表现？CEA2034A标准详解 zhuanlan.zhihu.com

对于第二点，我使用了 声线追踪技术 。

这里有必要单独详细介绍一下声线追踪技术。

声线追踪顾名思义，即计算与追踪从声源向各个方向发射并经过反射最终到达听音者的处于几何声学区的声音。追踪方法大致可以分为：

粒子追踪法

声线追踪的一个特例是粒子追踪，大致意思可以理解为声音被虚拟为一个个带有能量的粒子，沿着射线以音速在房间中传播，每次反射后，能量根据表面的吸收特性而减少。所有粒子的总能量可以表示为时间的函数，这就是房间的整体衰减函数，从中可以计算出相当精确的预测混响时间。该方法可以计算房间的混响。

2. 声像声源追踪

反射声可以使用声像声源追踪方法进行几何解析。利用image声源进行建模，对于 表面散射扩散较少 的房间内的早期反射声计算具有优势。但是对于高阶反射声，这种方法在几何上过于精确，即当考虑声波的波长时，虽然有些反射没有任何意义，但仍然可以计算出来。此外，对于高阶反射声，这种方法非常耗时。

然而，现实世界中，尤其是比较理想的听音往往需要一定的扩散。这里为了避免一些误解，我简易通俗介绍一下反射和扩散。如果是理想的表面反射，声音经过表面后应该完全按照几何方向出射，并且在出射方向的能量与入射方向一致，整个过程不损失能量，可以理解为完全没有扩散，或者更通俗的理解为光学中的镜面反射。

而理想的扩散，则是没有任何主要出射方向，声音在入射表面后均匀的向空间中各个方向出射，可以通俗理解为光学中的漫反射。

当然，这一切还与声音的波长等因素有关。实际听音环境不但需要一定的扩散，更应该尽量避免例如整面落地玻璃等强反射。但这就意味着反射声会更复杂，计算量也更大。

了解扩散的机制，是进行房间声学处理调音的基础。

再举个不恰当的，这就好比即便不是正对着你的方向扔石头，而是像稍微偏离你的方向往水里扔石头，石头溅起的水花依然能够淋湿你。

另一方面在于声像声源本身的空间辐射特性的精确数据就非常占用计算量。例如前端Klippel NFS如果导出高精度EASE SpeakerLab ASCII数据就要大约2-4小时，数据量高达10～30G左右。如果是带有陀螺仪的人头追踪方案，高精度需要的计算量极大，但如果拥有强大的计算能力，至少能比性能羸弱的手机或耳机自带芯片有很大提升。

3. 混合追踪

混合追踪技术即结合上述两种追踪技术，并按照各自的优缺点分配。通常，通过粒子追踪技术计算后期反射声，通过声像声源追踪计算早期反射声。并最终合成完整的声音。

4. 次级声源追踪

次级声源追踪是一种混合追踪模型。这是一种基于声线追踪的更有效的计算晚期反射式的算法。声线被认为是声能的载体，在每次声线反射后，根据表面的吸收系数，声能减少；在声线追踪的过程中，次级声源位于每个反射点。然后，房间中的每个观测点从房间中所有可见的次级声源处计算有关能量的信息。与基于矢量散射计算相结合，这种方法被证明是非常有效的，特别是在复杂的房间几何结构中。

值得注意的是，声线追踪完全不是什么时髦的技术，也不是黑科技，而是几十年前就被发明的成熟技术。用过EASE的应该都清楚。在一些游戏，亦或是更多其他的房间声学仿真软件中均有所应用。

鬼斧神工119：什么是影院之声（What is Cinema Sound)——写在复仇者联盟4终局之战之前 zhuanlan.zhihu.com

对于声线追踪的计算，由于上文已经提到高精度的计算可能需要很大的计算量。 那么到底需要怎样的设备才能进行如此复杂的实时计算呢？

NVIDIA RTX 3090拥有约36T浮点运算性能，数十倍于高端手机的计算能力，成千上万倍耳机芯片的计算能力。24G GDDR6X显存。超频后更是能达到约40T浮点计算性能。

目前使用GPU对音频处理大概有几种方式：

NVIDIA VRWork Audio SDK/OptiX
基于CUDA的GPU并行运算/AI加速计算

其中，第一项NVIDIA VRWork是，或者直接利用RTX显卡的光线追踪模块计算音频声线追踪。这在架构上相比于苹果芯片等具有天然优势。

NVIDIA VRWorks Audio是唯一一个完全采用硬件加速的声线追踪音频解决方案，它可以实时创建完整声像，而不需要任何预设滤波器。当应用程序加载场景时，动态地建立和更新声学模型；实时地生成音频效果滤波器并应用于声源波形。

即便是完全相同的算法与技术而不采用硬件RT Core加速，GPU可能实际效果比CPU或者手机等移动端设备好数十倍至上百倍。

RTX3090

音频理解起来比较抽象，我们可以看一下画面的例子。尤其是开启光线追踪后4K/8K 60FPS画面与手机的区别。

而如果相同的效果/计算量，如果用RTX3090可以做到30~60Hz刷新，那么用苹果手机估计就是1帧卡成PPT了，就别提AirPods里的H1芯片了。

因为我们要做的并不是简单的混响模拟和语音清晰度模拟。所以需要对可行的image进行mix logic处理。所以这里又有几种选择。

直接利用Klippel NFS所导出的数据虚拟两只音箱在房间内的虚拟立体声回放系统。
预先采用自适应滤波器进行多声道mix logic，例如将本来是中央虚拟声像的一些人声预先混音道中置声道，在虚拟仿真模型中加载到通过comsol多元物理场仿真设计的号角+JBL 2430双音圈环形振膜压缩高音单元的虚拟中置中，从而模拟人声image，以此类推。
预先采用自适应滤波器进行多声道mix logic，在真实的多声道系统回放再进行一定的测试与处理并最终建立虚拟声源模型。

其中一种方案的up mix算法简单示意图 YRjIBb.jpg!mobile

这里的步骤与VR中的image是不完全相同的。也就是可能需要对立体声音乐文件重新进行自适应image mix，并且需要模拟音箱的DI，这是因为我们平时所常见的立体声音源是在监听音箱系统下已经混音之后对应的音频文件。更通俗的理解，录音师所采用的监听音箱并非理想音源，所以应该虚拟一个音箱而不是理想音源，虚拟一个理想音源也许会产生偏差。

鬼斧神工119：什么是音频怪圈（Cycle of Confusion） zhuanlan.zhihu.com

为了进一步释放性能，我采用多种方式混合的融合方案。综合以上多种方案并采用机器学习同时结合主观评价与主观调音，最终确定各个方案的权重以及作用范围。

由于回放需要陀螺仪等硬件设备以及个人的HRTF数据，所以即便我播放最终处理的声音意义也不大。所以这里仅放出模拟房间的DEMO，相当于用麦克风在房间内录音。

知乎视频 www.zhihu.com

Demo详见视频中14分~18分。如果有感兴趣的人，欢迎私信我私下交流讨论。这并不是最终的实际效果，原因在这段开头说过了，想要听到最终实际效果需要硬件支持和个人人耳人头躯干的详细数据。

也许有人会问，你一个搞声学的，咋还能搞GPU呢？俺之前在做声学行业之前，做过一段时间的DSP图像处理和GPU实时图像处理。

说句实话，音频算法确实比图像算法简单一些。因为两者的维度和复杂度不尽相同。

说回真正的实际效果。首先这是有和没有的差别。苹果AirPods Max播放音乐的空间印象表现确实拉跨。甚至还不如我两年前在Audiomulch里随便搭的几个控件的效果好。

似乎我一个人轻轻松松就打爆了整个苹果公司和索尼公司。真的是这样吗？显然不是。正如我在上文所说，这件事的原理并不是什么时髦的黑科技，以上提到的不少东西也早都有人研究。事实上，上面的一处关键技术的业内专家目前就在苹果担任空间音频研发相关职务。确实某些内容苹果和索尼的人应该是没有我了解甚至从来没做过。就好比有关陀螺仪的内容我也是咨询了一位做无人机的哥们，有关GPU，我也是咨询了好几位位在做AI和算法的哥们。

并且考虑到今年是猴年。3090的价格。。。