3

关于“计算音频”你需要知道的

 3 years ago
source link: https://zhuanlan.zhihu.com/p/338071300
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

关于“计算音频”你需要知道的

耳机话题下的优秀回答者

近期,“计算音频”似乎因为苹果AirPods Max的发布又成为了热点话题,很多科技xx和果丝亦或只是路人,不管到底懂不懂都要插一句,以至于我看到了许多魔幻言论,所以认为这个问题有必要单独拿出来讲一讲。

我们还是从喜闻乐见的EQ聊起,EQ即均衡器,本来就是通过数字信号处理实现的。例如通常的多段EQ属于二阶Bi-Quad滤波器,算是IIR滤波器的一种。数字信号处理即DSP,本来就是通过相应的芯片计算处理的。所以所有带有EQ的设备和软件都可以说是“计算音频”。

且不说其他更高级的DSP处理,就单说EQ,广泛存在于蓝牙耳机、蓝牙音箱、有源音箱、家庭影院、电影院、车载音响、线阵、音柱、低音炮、手机、笔记本电脑、平板电脑、电视等产品。

而即便是耳机,除了像AKG K371BT/361BT等少数个例以外,几乎绝大多数蓝牙耳机都有EQ处理。蓝牙耳机最终的声音、频响曲线本来就有多段EQ修正与调节,而且通常是PEQ(Parameter EQ)。只要上淘宝上随便花几十块买个高通CSR的蓝牙模块就可以大致了解目前的蓝牙芯片包含哪些功能。(现在的蓝牙芯片通常还包含例如limiter、ASW扩展等更多DSP功能)

也就是说,基本上所有蓝牙产品都是”计算音频“。

当然,如果是一些其他产品,甚至可能远比苹果索尼复杂得多。例如天龙一些家庭影院功放的DSP,就有足足4块ADI的芯片。当然,这些DSP也处理视频部分。

我们再来看看苹果到底计算了个啥。

无非就是主动降噪、通透模式、佩戴自适应和空间音频。

哦对了,主动降噪也属于DSP。因为,通俗的讲,主动降噪就是拾取噪声AD采样,通过DSP计算一个反相的声音再通过DA播放。DSP处理噪声的过程就可以看作是计算音频。这样说来所有ANC耳机都应该算“计算音频”。

至于自适应泄露补偿,从目前的结果来看似乎只是在低频起作用,高频的效果依旧值得商榷。而自适应EQ更是一个至少我认为噱头大于实用的功能,是画蛇添足的,或者说是一个Marketing功能。应为但凡对整个音频的制作与回放链路有所了解,或者说“音频怪圈”,就会明白任何针对音乐类型的EQ都是业余的、没有实际意义的。

如果你仔细思考一下“音频怪圈“。就会明白这种“调音”对提高用户购买到优质产品的机会毫无帮助。——Floyd Toole博士

我最讨厌的一个音频行业的说法是包括音乐类型EQ设置或为特定音乐类型设计/销售的音频公司。正如本文所建议的,这里的基本逻辑是,不同的音乐流派需要不同的扬声器/耳机回放。更荒谬的是,一个单一的EQ会以某种方式神奇地修复或增强该类型所有录音的声音。这是彻头彻尾的胡扯(在了解科学之前)!!
当我看到这样的产品时,它立即发出一个信息:设计它的人不懂音频,很可能市场营销人员在音频工程师/科学家的争夺中获胜。
如果有任何特定的EQ适合一种类型的音乐,那么已经在音乐制作混音时就已经加入。只要在录制/制作音乐的过程中使用相对准确/中性的扬声器(这已成为一种常态),那么通过准确的耳机或扬声器播放录音将保留下来。

增加更多的EQ,会适得其反,而且只会给音频怪圈增加更多的混乱。
所以让我们停止这种错误的做法!
——Sean Olive博士

即便是一些更高级的算法,可以根据音乐包含的乐器内容进行识别而不止是音乐风格,算法又如何识别创作者在混音时的意图、亦或是创作者所使用的监听设备。而如果音乐制作者所使用的音箱是相对自然均衡的,那么只要回放环节的耳机也是自然均衡的即可,还需要再多此一举的进行自适应均衡吗?类似的更高级的功能,之前我也见过有人用AI和机器学习实现的,但是厂家认为实在没什么意义就放弃了。

反观连基础的EQ和频响曲线都没有做到尽善尽美。DSP只是一个平台,可以优化声音也可以劣化声音,具体好坏取决于DSP所搭载的算法和具体调试的参数,效果评估应该以实际结果为准。而不是只要有一个芯片,声音就会像魔法一样变好,那这样几乎所有蓝牙耳机声音都应该很好,但实际上远非如此。

而对于音箱系统而言,DSP也并不是什么新鲜事情,不论是前段时间提到的Dirac Live校准还是miniDSP,不论是Soundbar还是DSP前级,都属于数字信号处理。

再例如苹果HomePod的这个不明觉厉的功能,其实早就在Soundbar上有应用,算是雅马哈“800年前”玩剩下的。

并且,DSP对于音箱系统往往没有耳机作用范围那么广。例如,DSP无法解决低音由于单元或箱体设计固有的一些问题;DSP无法改变直达声与反射声的关系,无法改变指向性。除非是类似于Lexicon SL1或者苹果Homepod这样的多单元阵列。但有硬件和芯片不代表结果是正确的,计算本身也是把双刃剑,如果进行错误的计算,那么就会得到错误的结果。尤其考虑到不同人群对反射声的敏感程度以及房间的实际声学处理等因素。

DSP也无法或者不能彻底改变音箱角度对声音的影响,例如车载音响系统,高音位于车门、A柱、IP等位置对声场的影响等。要想从根源了解这一些,可以看一下Floyd Toole博士关于心理声学的演讲:

如果对房间声学和心理声学有较为深入的了解,就会发现苹果和真力在校准算法中可能存在的错误。


本人之前做过不少算法与音效的调试,不论是复杂程度还是实际效果都远比苹果和索尼的消费类产品要高。例如QLS 3D,QLS 3D除了有搭载于车载平台的,例如法拉利以外。也有可定制的多声道系统版本。

我不太清楚QLS 3D是否搭载于量产的更高端的家用DSP前级/合并功放中,因为我家里的Lexicon MC10只有Logic7算法。至少QLS 3D可以提取不同的source,例如把人声单独分离出来(不过这个功能也有其他算法可以实现),而且效果可以达到一定的水平,而不是劣化到不能听。

上面提到的想要计算音乐内容,再“针对性”均衡,无非也就是自适应滤波器(自适应低通滤波器、自适应shelf滤波器),类似的算法早就在各种虚拟环绕声中用烂了,也可以在一些带有“听歌拾曲”功能的手机app里找到。有些K歌软件的“修音”功能往往还含有修正频率的功能。还有一些更复杂更高级的,例如自适应混音矩阵、自适应混响、自适应动态范围控制、动态EQ之类的,其实早也已经在很多产品中大量应用。

再比如说一些音质修复算法。比特扩展、频带扩展、从残余混响中预测并补偿被掩蔽的混响、从残余音色谐波中预测并补偿被截止的谐波、提高冲激响应等瞬态信号的激励和衰减以修复鼓声,自适应识别人声并补偿人声高频延伸、感知声源宽度扩展、自适应识别高频尖锐声音并自动柔化处理等等。

还有一些车载音响主动降噪的黑科技,检测播放音频然后调节音乐播放与主动降噪的关系以防止音乐本身被音箱主动降噪。车载主动降噪远比耳机主动降噪复杂的多。

我并不知道AirPods Max内是否有类似的算法。不管有没有,我的内心并不波澜。因为消费类产品所采用的技术,放眼整个行业领域,通常是比较成熟、比较低端和cost down的。而且我并不理解为啥空间音频还不支持音乐,默认听音乐有时还有头中效应,到底计算了个啥。至少我过去调过的音效都是支持音乐的。


最后,可以说现在几乎整个音乐制作行业都离不开DSP,不论是音乐制作还是现场演出。如果混音师在混音时用的是数字调音台,那么EQ就必然是DSP的。更别提一些数字音效,例如混响、干湿声调节等等。

而录音室里所使用的监听音箱基本上都是带DSP的,做EQ和主动分频。监听音箱就算不外加EQ,本身的声音也是带EQ的。监听音箱的频响本身通常不是平的,多多少少都有EQ修正,不论是ADI还是意法半导体。更别说一些房间校准算法和套件。

Audition不是计算嘛?难道计算机处理之后的声音是从石头里蹦出来的嘛?

也就是说,你听到的很多歌曲,已经被计算无数次了。

其实这个问题完全不能怪苹果,因为人家说的一点问题都没有。DSP换个名字叫“计算音频”确实也没什么毛病。而且不论是PS5还是AirPods Max,作为一款消费类产品,搭载了一些之前在稍微高端一点平台才有的技术,并且做一定的简化让更多的人能买得起,这本身是一件值得肯定的事情。只不过这次的耳机,像我在上期测评中所讲,有些功能和实际表现还是存在提升空间。

这个现象的真正问题点类似于,“我们每天都吃米饭,突然有一天,某公司官网上架了一款米饭,然后一群科技xx和粉丝兴奋的高喊道,哇哦!Awesome!居然有米饭!这就是食品行业的未来!”其实本质上还是只知道几个名词,对其背后的原理和深层次的技术并不了解,这样单纯高喊口号和名词其实和高喊“线材调音”、“一耳朵提升”、“素质密度解析力”又有多少本质区别呢,和“神功护体,刀枪不入”这样的口号又有多少本质区别呢。

计算音频本身并不是未来,而是过去,关键的问题在于正确的方向。


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK