计算机声音模拟：连接大脑和真实世界

2021-05-16知识

文 | Haonan Cheng

编辑 | 贰沐子鱼

引言

计算机自诞生之日起，就肩负着「仿真模拟」这项任务，早期由于视觉仿真的真实感还有待提升，因此大量的研究都是面向图形、图像仿真。

近二十年，游戏、动画电影的画面愈发真实，用户转而对声音的真实感有所要求，因此面向声音仿真模拟（注：本文中声音均指的是非语音、非音乐的环境声音）的研究逐渐被关注，发展出声音合成（sound synthesis），声音传播（sound propagation），以及声音空间化（sound spatialization）等研究方向。这几个方向汇成的更大的方向为可听化（Auralization)，可以参考公众号之前的两篇文章：

https:// zhuanlan.zhihu.com/p/37 2759889

https:// zhuanlan.zhihu.com/p/73 752304

这篇文章对上述三个主要方向进行简单的介绍，展示一些计算机领域目前最新的研究成果，后续将分别对计算机科学与声学的交叉碰撞详细展开。

一、声音合成（Sound Synthesis）

声音合成又称为声音建模（sound modelling），主要研究内容是对声源的发声过程进行数字化建模，实现尽可能接近真实的声源信号。主要目的是为了在游戏和虚拟现实应用中实现声音的高真实感呈现以及与视觉场景的自动同步。

prosoundnetwork.com

目前声音合成方法可以分为下图中的四大类，其中物理模型主要基于物理声学原理对声源信号进行建模，信号模型则基于心理声学原理来建立具有感知相似性的声源模型。结合物理声学原理与心理声学原理的混合模型以及深度学习模型是近几年的热门方法。

图1 声音合成方法主要分类

早期声音合成研究集中于固体的撞击声、滚动声。例如下面展示的声音结果是完全基于物理运动仿真参数自动合成的声音结果[4]。

对于固体的撞击、滚动等多种运动状态产生的声音也进行了探索[5]。

随着声音合成领域研究的不断深入，声音合成方法可以仿真的声音场景也逐渐丰富，从振动状态相对简单的固体到软体、液体、气体（火焰燃烧）声音的仿真[6]。

近几年开始对耦合场景展开探索，下面展示了面向固液耦合场景的合成声音（作者博士期间的工作）[7]。

二、声音传播（Sound Propagation）

声音传播仿真指的是通过计算声场模型（包括声源、侦听源、声传播环境）而获得声音从声源位置传播到听者处的声音信号。现有的声音传播模拟方法主要方法有以下三大类。

图2 声音传播方法主要分类[1]

目前国际上声音传播研究领先的团队是微软雷蒙德研究院的Interactive Media Group，他们目前在开展一项project acoustics的项目，目标是实现用于三维交互体验的声学引擎[9]。下面是该团队在2020年发表的研究成果视频[3]。

三、声音空间化（Sound Spatialization）

声音的空间化主要研究人耳如何感知、理解声音信号所包含的三维空间信息，以及如何有效在计算机中实现声音信息空间感的有效表达。主要包括双耳渲染（binaural rendering）和空间声（ambisonics）等研究方向。

个人认为，由于耳机、音响等产业的需求，驱动了这一方向的蓬勃发展。这一方向的研究相比于上述两个方向开展的更早，国内的相关研究团队也更多一些。

cbinsights.com

总的来说，计算机声音仿真作为一个结合数学、声学、计算机科学以及认知科学的新兴交叉学科，主要研究内容是探索如何在计算机中有效地处理和表达声音信息，以及利用计算机进行声音的仿真、处理和显示的相关理论、模型与算法。这里的声音信息既包括物理真实世界中的声音信息，也包含人类大脑感知得到的虚拟声音信息，计算机声音仿真作为媒介，提供了在计算机中连接这两个世界的渠道。

作者：Haonan Cheng，天津大学计算机专业博士生，主要研究方向包括声音合成、计算机图形学

参考文献

[1] DingR, Liu J, Liu S. An overview of techniques on sound propagation simulation.Journal of Computer-Aided Design & Computer Graphics, 2019, 31(8):1267-1277

[2] HuR, Wang X, Zhang M, et al. Review on three-dimension audio technology.Journal of data acquisition and processing. 2014, 29(5):661-676

[3] Chaitanya C R A, Raghuvanshi N,Godin K W, et al. Directional sources and listeners in interactive soundpropagation using reciprocal wave field coding. ACM Transactions on Graphics,2020, 39(4): 44:1-44:14

[4] O'Brien J F, Cook P R, Essl G. Synthesizing soundsfrom physically based motion. //Proceedings of the ACM SIGGRAPH, Los Angeles,USA, 2001: 529-536

[5] Doel K V D, Kry P G, Pai D K. FoleyAutomatic:physically-based sound effects for interactive simulation and animation.//Proceedings of the ACM SIGGRAPH, Los Angeles, USA, 2001: 537-544

[6] An S S, James D L, Marschner S. Motion-drivenconcatenative synthesis of cloth sounds. ACM Transactions on Graphics, 2012, 31(4): 102:1-102:10

[7] Cheng H, Liu S. Liquid-solid interaction soundsynthesis. Graphical Models, 2019, 103(101028): 1-11

[8] Liu S, Cheng H, Tong Y. Physically-based statisticalsimulation of rain sound. ACM Transactions on Graphics, 2019, 38 (4):123:1-123:14

[9]https:// docs.microsoft.com/en-u s/gaming/acoustics/what-is-acoustics

知乎专栏：视频+文章+回答

同名公众号：
子鱼说声学