電腦聲音模擬：連線大腦和真實世界

2021-05-16知識

文 | Haonan Cheng

編輯 | 貳沐子魚

引言

電腦自誕生之日起，就肩負著「仿真模擬」這項任務，早期由於視覺仿真的真實感還有待提升，因此大量的研究都是面向圖形、影像仿真。

近二十年，遊戲、動畫電影的畫面愈發真實，使用者轉而對聲音的真實感有所要求，因此面向聲音仿真模擬（註：本文中聲音均指的是非語音、非音樂的環境聲音）的研究逐漸被關註，發展出聲音合成（sound synthesis），聲音傳播（sound propagation），以及聲音空間化（sound spatialization）等研究方向。這幾個方向匯成的更大的方向為可聽化（Auralization)，可以參考公眾號之前的兩篇文章：

https:// zhuanlan.zhihu.com/p/37 2759889

https:// zhuanlan.zhihu.com/p/73 752304

這篇文章對上述三個主要方向進行簡單的介紹，展示一些電腦領域目前最新的研究成果，後續將分別對電腦科學與聲學的交叉碰撞詳細展開。

一、聲音合成（Sound Synthesis）

聲音合成又稱為聲音建模（sound modelling），主要研究內容是對聲源的發聲過程進行數碼化建模，實作盡可能接近真實的聲源訊號。主要目的是為了在遊戲和虛擬現實套用中實作聲音的高真實感呈現以及與視覺場景的自動同步。

prosoundnetwork.com

目前聲音合成方法可以分為下圖中的四大類，其中物理模型主要基於物理聲學原理對聲源訊號進行建模，訊號模型則基於心理聲學原理來建立具有感知相似性的聲源模型。結合物理聲學原理與心理聲學原理的混合模型以及深度學習模型是近幾年的熱門方法。

圖1 聲音合成方法主要分類

早期聲音合成研究集中於固體的撞擊聲、捲動聲。例如下面展示的聲音結果是完全基於物理運動仿真參數自動合成的聲音結果[4]。

對於固體的撞擊、捲動等多種運動狀態產生的聲音也進行了探索[5]。

隨著聲音合成領域研究的不斷深入，聲音合成方法可以仿真的聲音場景也逐漸豐富，從振動狀態相對簡單的固體到軟體、液體、氣體（火焰燃燒）聲音的仿真[6]。

近幾年開始對耦合場景展開探索，下面展示了面向固液耦合場景的合成聲音（作者博士期間的工作）[7]。

二、聲音傳播（Sound Propagation）

聲音傳播仿真指的是透過計算聲場模型（包括聲源、偵聽源、聲傳播環境）而獲得聲音從聲源位置傳播到聽者處的聲音訊號。現有的聲音傳播模擬方法主要方法有以下三大類。

圖2 聲音傳播方法主要分類[1]

目前國際上聲音傳播研究領先的團隊是微軟雷蒙德研究院的Interactive Media Group，他們目前在開展一項project acoustics的專案，目標是實作用於三維互動體驗的聲學引擎[9]。下面是該團隊在2020年發表的研究成果影片[3]。

三、聲音空間化（Sound Spatialization）

聲音的空間化主要研究人耳如何感知、理解聲音訊號所包含的三維空間資訊，以及如何有效在電腦中實作聲音資訊空間感的有效表達。主要包括雙耳渲染（binaural rendering）和空間聲（ambisonics）等研究方向。

個人認為，由於耳機、音響等產業的需求，驅動了這一方向的蓬勃發展。這一方向的研究相比於上述兩個方向開展的更早，國內的相關研究團隊也更多一些。

cbinsights.com

總的來說，電腦聲音仿真作為一個結合數學、聲學、電腦科學以及認知科學的新興交叉學科，主要研究內容是探索如何在電腦中有效地處理和表達聲音資訊，以及利用電腦進行聲音的仿真、處理和顯示的相關理論、模型與演算法。這裏的聲音資訊既包括物理真實世界中的聲音資訊，也包含人類大腦感知得到的虛擬聲音資訊，電腦聲音仿真作為媒介，提供了在電腦中連線這兩個世界的渠道。

作者：Haonan Cheng，天津大學電腦專業博士生，主要研究方向包括聲音合成、電腦圖形學

參考文獻

[1] DingR, Liu J, Liu S. An overview of techniques on sound propagation simulation.Journal of Computer-Aided Design & Computer Graphics, 2019, 31(8):1267-1277

[2] HuR, Wang X, Zhang M, et al. Review on three-dimension audio technology.Journal of data acquisition and processing. 2014, 29(5):661-676

[3] Chaitanya C R A, Raghuvanshi N,Godin K W, et al. Directional sources and listeners in interactive soundpropagation using reciprocal wave field coding. ACM Transactions on Graphics,2020, 39(4): 44:1-44:14

[4] O'Brien J F, Cook P R, Essl G. Synthesizing soundsfrom physically based motion. //Proceedings of the ACM SIGGRAPH, Los Angeles,USA, 2001: 529-536

[5] Doel K V D, Kry P G, Pai D K. FoleyAutomatic:physically-based sound effects for interactive simulation and animation.//Proceedings of the ACM SIGGRAPH, Los Angeles, USA, 2001: 537-544

[6] An S S, James D L, Marschner S. Motion-drivenconcatenative synthesis of cloth sounds. ACM Transactions on Graphics, 2012, 31(4): 102:1-102:10

[7] Cheng H, Liu S. Liquid-solid interaction soundsynthesis. Graphical Models, 2019, 103(101028): 1-11

[8] Liu S, Cheng H, Tong Y. Physically-based statisticalsimulation of rain sound. ACM Transactions on Graphics, 2019, 38 (4):123:1-123:14

[9]https:// docs.microsoft.com/en-u s/gaming/acoustics/what-is-acoustics

知乎專欄：影片+文章+回答

同名公眾號：
子魚說聲學