心理聲學概述，客觀與主觀，兩個世界的橋梁

2020-09-17心靈

時至2020年，已經有了很多非常尖端的聲學和音訊測試裝置，例如Klippel NFS、Audio Precision、SoundCheck、G.R.A.S、B&K等。並且這些測試裝置和軟體的測試精度越來越高，種類也越來越多。如今，已經可以很輕易的測量出遠超人類聽覺極限的微小區別。

但是，問題的關鍵不在於被測參數如何詳細，而在於這些參數到底哪些與我們的主觀感受相關。

客觀與主觀，兩個世界的橋梁——心理聲學模型

心理聲學是一個研究人類聽覺的交叉學科。心理聲學模型是對人聽感的統計性質的數學表述模型，它解釋人各種聽感的生理原理。揭示和解釋了客觀聲音與主觀聽感之間的關系。連線了客觀測量與主觀感知。

如何探究客觀數據與主觀聽感之間的關系？

科學研究的過程通常是這樣的：

進行受控的聽音測試，這代表了人們對於一款電聲產品的主觀評價結果（或者說主觀測試結果）

使用測試裝置對電聲產品進行測量已獲得各種關於這款電聲產品的測試數據，這代表了這款產品的客觀測試結果

使用ANOVA、皮爾遜相關系數、聚類等統計學和數學方法，分析主觀評價結果和客觀測試數據的對應關系，找出哪些測試指標與人的主觀聽感關系較強並具體呈何種關系

心理聲學實驗中，聽音測試的基本原則

聽音測試必須是受控的雙盲聽測試

如果你所做的是一個非盲聽測試，你已經知道了你正要聽的是什麽，你的目光無法忽視你正在聽的產品。你會產生一個先入為主的觀點，即便還沒有播放音樂。
我做了40年心理聲學的相關實驗，我還是不禁感慨，人類的聽覺真的很敏銳，人類本身就是非常好的「聲學測試裝置」。但前提是，盲聽測試，如果你已經知道你在聽的是什麽，你的主觀評價結果並不重要，你的想法我不在乎。
——Floyd Toole博士

由於是嚴格的科學研究，聽音者不應該受到試聽產品的品牌、外觀、價格等因素幹擾。盲聽測試可以避免非盲聽測試中可能存在的不誠實因素。

活力？別逗了。音訊作為一種愛好正在消亡，這很大程度上是因為音訊本身。就現實世界而言，Hi-End音箱已經失去了上個世紀80年代的聲譽， 因為它斷然拒絕使用基本的公正的控制措施（例如雙盲聽測試）。 而這種拒絕成為了理性的人無休無止的譏諷和嘲笑的源頭，這也是我感到無限尷尬的源頭，因為是我的擁躉者造成了這樣混亂的局面，而我本人難辭其咎。鄭重聲明：我從來沒有說過測量結果不重要。我說的是(而且經常是這樣說)，他們並不總是講述整個故事。不完全一樣。
——Stereophile雜誌創始人兼CEO J.Gordon Holt

這裏唯獨有幾個例外，是沒有辦法或很難進行盲聽測試的。例如電影院系統（不是影院音箱單體）、汽車音響系統等。因為例如，如果你想對比IMAX和杜比影院的差異，你已經知道你坐在IMAX電影院裏了，這種先驗在現實中是很難排除的。汽車音響系統亦是如此，你已經知道你坐在奧迪裏或者凱迪拉凱瑞了，所以對於汽車調音和評價而言，必須有能力克服這種先驗。

2. 必須是多人測試而非一人測試

任何人都存在特定的偏好，即便有足夠的統計學數據支撐這種偏好之間的差異沒有少數發燒友聲稱的那麽巨大，但這種偏好依舊存在，並且，喜歡自然均衡的聲音本身就是一種偏好。而人類本身的感官又存在著一定的不穩定因素，即便是受過專業訓練的人，也無法完全消除。個體的主觀評價只能代表個體自身的觀點。不能代表產品本身的表現或者其他人的觀點。如果想只透過主觀評價判定一款產品的表現，需要多人進行盲聽評價，並取盲聽打分的平均值。

一個人的主觀評價本身，既無法反映一個產品的真實效果，也無法代表他人的意見，只能代表這個人自己的意見。
這也就是為什麽我過去的測評中，沒有數據純粹主觀評價的產品基本上都有橙色特殊標註的原因。並且嚴謹起見，即便我采用的並非是純粹的主觀評價而是主客觀評價，我也在開頭就強調僅代表我個人觀點。

3. 在對比不同產品時，必須保持相同的音量

保持相同的是為了控制變量，排除不同產品因不同音量而帶來的影響。不過，一些測試允許聽音者把所有產品的音量都調至自己覺得合適的音量，有的測試則指有給定的音量，不允許聽音者調節。

4. 需要多個產品組成一組進行對比聽音，聽音者可以自由切換正在試聽的產品

這主要是為了防止情境效應對主觀評分造成的誤差。

5. 沒有時間限制，想聽多久就可以聽多久，直到你給出你的主觀評分

6. 切換不同的產品時，一定要做到快速即時切換，防止因為聽覺記憶喪失而導致的不確定因素

70款不同品牌、不同尺寸、不同價格的音箱，在一個普通的房間內進行音質主觀評分！

對人的主觀評分分析屬於主觀評價結果的範疇；而不是客觀測試數據，即很多人口中的數據。並且值得註意的是，如果是MUSHRA測試或者類似的多個喇叭測試，主觀評分不能在沒有相同或相似的參考錨因子的其他聽音實驗中隨意轉換。

心理聲學實驗中，客觀測試的基本原則

必須使用能夠反映產品效能的測試裝置。

必須全面綜合的對產品進行測試。

對於沒有經過心理聲學驗證的測試指標或沒有相應的心理聲學模型研究，則不能使用測試數據或數學模型直接反應人的主觀評價。

心理聲學實驗中，常用的數據分析方法

常見方法一：ANOVA

影響一件事物的因素往往有很多，例如，對於音箱而言

變方分析(Analysis of Variance，簡稱ANOVA)，又稱「變異數分析」，是R.A.Fisher發明的，用於兩個及兩個以上樣本均數差別的顯著性檢驗。由於各種因素的影響，研究所得的數據呈現波動狀。ANOVA的基本思想是：透過分析研究不同來源的變異對總變異的貢獻大小，從而確定可控因素對研究結果影響力的大小。

在試驗中，我們將要考察的指標成為試驗指標，影響試驗指標的條件成為因素。因素可以分為兩類，一類是可控因素，一類是不可控因素。通常所說的因素都是可控因素，因素所處的狀態稱為該因素的水平。如果在一項試驗的過程中只改變一個因素，則稱為單因素試驗。如果多於一個因素在改變則稱為多因素試驗。

測試結果（透過零假設進行計算）如果不僅僅是因為運氣，則在統計學上稱為顯著。統計顯著的結果（當可能性的p值小於臨界的「顯著值」）則可以推翻零假設。

對主觀偏好評分的變異數分析

不過這裏我很想問大家一個問題，你們覺得對人的主觀評價結果進行統計學分析，到底算是主觀評價的範疇，還是一些人口中的「數據」的範疇？

常見方法二：皮爾遜相關系數

在統計學中， 皮爾遜相關系數 ( Pearson correlation coefficient），又稱 皮爾遜積矩相關系數 （Pearson product-moment correlation coefficient，簡稱 PPMCC 或 PCCs ），是用於度量兩個變量X和Y之間的相關（線性相依），其值介於-1與1之間。
相關表和相關圖可反映兩個變量之間的相互關系及其相關方向，但無法確切地表明兩個變量之間相關的程度。相關系數是用以反映變量之間相關關系密切程度的統計指標。相關系數是按積差方法計算，同樣以兩變量與各自平均值的離差為基礎，透過兩個離差相乘來反映兩變量之間相關程度；著重研究線性的單相關系數。
——百度百科

常見的相關系數為簡單相關系數，簡單相關系數又稱皮爾遜相關系數或者線性相依系數，其定義式為：

r值的絕對值介於0～1之間。通常來說，r越接近1，表示x與y兩個量之間的相關程度就越強，反之，r越接近於0，x與y兩個量之間的相關程度就越弱。一般認為：

當然，這個分類方法也有不同的閾值。

常用方法三：主成分分析

主成分分析又稱PCA（Principal Component Analysis）分析，是由Pearson提出的並由Hotelling發展提出的一種統計學方法，其最主要的用途在於 「降維」 。透過正交變換將一組可能存在相關性的變量轉換為一組線性不相關的變量，轉換後的這組變量叫主成分。

通常，在研究多變量的課題時，變量個數太多就會增加課題的復雜性。在很多情形，變量之間是有一定相關關系的，當兩個變量之間有一定相關關系時，可以解釋為這兩個變量反映此課題的資訊有一定的重疊。主成分分析是對於原先提出的所有變量，將重復的變量（關系緊密的變量）刪去多余，建立盡可能少的新變量，使得這些新變量是兩兩不相關的，而且這些新變量在反映課題的資訊方面盡可能保持原有的資訊。

而在研究人們對於聲音的主觀感受時，比如說對音箱聲音的主觀評價描述，由於人們對於聲音的描述有很多「形容詞」和「意見」，可以使用主成分分析對主觀評價的形容詞進行降維處理。

關於主成分分析，知乎上就有一篇非常不錯的回答，如果想更詳細的了解，不妨去看一下。

常用方法四：聚類

聚類是將數據分類到不同的類或者簇這樣的一個過程，所以同一個簇中的物件有很大的相似性，而不同簇間的物件有很大的相異性。

從統計學的觀點看，聚類分析是透過數據模型簡化數據的一種方法。傳統的統計聚類分析方法包括系統聚類法、分解法、加入法、動態聚類法、有序樣品聚類、有重疊聚類和模糊聚類等。

例如可以透過共享特征的相似性將多個喇叭聚類在一起。

也可以對不同的聽音者進行聚類分析，將聽音者們以統計學的特征劃分為不同類別。

常用方法五：多元回歸分析

多元回歸分析(Multiple Regression Analysis)是指在相關變量中將一個變量視為因變量，其他一個或多個變量視為自變量，建立多個變量之間線性或非線性數學模型數量關系式並利用樣本數據進行分析的統計分析方法。另外也有討論多個自變量與多個因變量的線性依賴關系的多元回歸分析，稱為多元多重回歸分析模型(或簡稱多對多回歸)。

常用方法六：對數機率回歸

對數機率回歸，簡稱對率回歸，又稱邏輯回歸，是使用Sigmoid函式作為聯系函式時的廣義線性模型，是廣義線性模型的一個特例。

常見方法七：機器學習與深度學習

這個就不需要解釋了。機器學習應該算是近幾年最流行的技術，也是人工智慧技術的核心之一。有太多人研究是使用，也有太多相關的資料和教程。

回到多因素或者說多重變量的問題，這其實已經不是一個聲學問題，也不是一個數學問題，而是一個邏輯問題和哲學問題，並且是馬克思主義哲學問題。

在復雜事物自身包含的多種矛盾中，每種矛盾所處的地位、對事物發展所起的作用是不同的，總有主次、重要非重要之分，其中必有一種矛盾與其它諸種矛盾相比較而言，處於支配地位，對事物發展起決定作用，這種矛盾就叫做主要矛盾。正是由於，矛盾有主次之分，我們在想問題辦事情的方法論上也應當相應地有重點與非重點之分，要善於抓重點、集中力量解決主要矛盾。

主要矛盾與次要矛盾

次要矛盾就是指其他處於從屬地位、對事物發展不起決定作用的矛盾。主要矛盾和次要矛盾相互依存。首先，主要矛盾和次要矛盾互為存在條件，主要矛盾之所以是主要矛盾，是相對於次要矛盾而言它才是主要矛盾，沒有次要矛盾，也就無所謂主要矛盾。同樣，次要矛盾之所以是次要矛盾，它也是相對於主要矛盾而言，沒有主要矛盾，也就無所謂次要矛盾。其次，主要矛盾和次要矛盾相互影響。主要矛盾的解決規定著次要矛盾的解決，主要矛盾解決的好，次要矛盾就容易解決。反之，次要矛盾的解決又影響著主要矛盾的解決，次要矛盾解決得好，又有利於主要矛盾的解決。

一定條件下相互轉化

主要矛盾和次要矛盾的地位不是一成不變的，在一定條件下它們可以相互轉化，即主要矛盾在一定條件下轉化為次要矛盾，次要矛盾在一定條件下上升為主要矛盾。

方法論意義

主要矛盾和次要矛盾辯證關系的原理要求我們在實踐中，要學會區分主要矛盾和次要矛盾，學會區分矛盾的主要方面和次要方面。在分析和解決、處理問題時，既要看到主要矛盾、矛盾的主要方面，堅持重點論，善於抓住重點。又要看到次要矛盾和矛盾的次要方面，堅持兩點論，學會全面地看問題，做到兩點論和重點論的統一。只看到主要矛盾和矛盾的主要方面，看不到次要矛盾和矛盾的次要方面，就會犯一點論錯誤。相反，只看到次要矛盾和矛盾的次要方面，看不到主要矛盾和矛盾的主要方面，就會犯均衡論的錯誤。

例如，雖然我在一年多以前的文章中就反復多次強調，對於耳機和音箱單體如今的評價體系已經不需要太多的主觀評價體系。而我始終堅持使用客觀評價和主觀評價。然而無數人看到文章中有頻響曲線就指責唯數據論，這是在指責別人時犯了一點論錯誤。

這裏回答一下長久以來最常見的兩種詭辯邏輯，也是很多人經常掛在嘴邊的邏輯。

「如果將兩個耳機的頻響調成一樣，聲音還是有差別，所以頻響曲線沒意義「

這個神邏輯是我最常見到的駁斥頻響曲線的所謂論據，很多大V和kol經常引以為據。不知道有沒有人發現這句話的問題所在？

從控制變量的角度，把兩個耳機的頻響曲線調成一樣，就意味著排除了頻響曲線這一因素的影響。既然你都把這個因素的影響排除了，你又是如何證明這個因素是否起作用以及是否重要？

而對於實際的耳機產品，不同產品間的頻響曲線差異通常遠大於非線性失真的差異，多個相關的主觀聽音測試中也驗證了這一點。

過分強調非線性失真而無視不同耳機之間的頻響曲線的差異，從馬克思主義哲學的角度而言，只看到次要矛盾和矛盾的次要方面，看不到主要矛盾和矛盾的主要方面，犯了均衡論的錯誤。

當然，正如方法論所述，主要矛盾和次要矛盾在一定條件下可以轉化，例如當兩款耳機之間的頻響曲線差別較小但非線性失真差異很大且高於人耳聽覺極限，則此時非線性失真可能是主要矛盾。只不過這種情況在現有的耳機市場中很少發生。

另外一個典型的謬論，即經常有人聲稱正弦掃頻訊號不足以反映實際結果。

且不談聲學歐姆定律與傅立葉變換。

僅從統計學的角度就足以說明問題。因為主觀測試時人聽得是音樂，而主觀評價結果已經與僅使用正弦測試訊號的客觀測試數據統計學相關。所以，僅使用簡單的正弦測試訊號足以透過統計學的對應關系反應人在聽音樂時的主觀感受。

對於音箱與耳機的心理聲學實驗的重要結論

Distortion is not important（失真並不重要）

註意，這裏所指的失真是非線性失真，而不是線性失真（頻響曲線）。失真並不重要，不代表失真對聲音沒有影響，只不過不重要。

造成這種現象有很多原因，照例分開解釋音箱和耳機。鑒於以前已經詳細講解過耳機的非線性失真可聽性與音質主觀評分關系的實驗，這次著重講一下音箱。

不過在此之前，我要給一些聲稱非線性失真很重要的人一個靈魂拷問。你們知道非線性失真聽起來是什麽樣子嗎？或者說，給你們幾個產品，你們能聽出來哪些是IMD，哪些是THD以及哪些的失真值更高？

MUSHRA和ITU BS.1116測試[2]都需要訓練有素的專業聽眾，他們知道典型的異常聲音聽起來像什麽，以及它們可能發生在哪裏。與未經訓練的聽眾相比，專業聽眾對評分量表有更好的內部化，從而產生更多可重復的結果。因此，有了訓練有素的傾聽者，需要更少的傾聽者就能獲得統計上有意義的結果。

人類對於THD的聽覺域限是有限的，即便是一些受過專業訓練的人也只能辨識到大約0.25%，並且還與失真的發生型別有關。

The effects of nonlinear distortion on preference are not factored into our model. Listeners did not report nonlinear distortion as factoring into their preference ratings, except in the one or two cases reported in Part One. In other large loudspeaker studies conducted by Toole [12]-[13] and Klippel [14] both authors concluded that nearly all of the variance in listener sound quality ratings can be explained by frequency response. Still, nonlinear distortion can be a factor and should not be ignored.
我們的模型沒有考慮非線性失真對偏好的影響。 除了第一部份中提到的一兩個個例外，聽音者們並沒有將非線性失真因素納入他們的偏好評分。 在Toole[12]-[13]和Klippel[14]進行的其他大規模音箱研究中，兩位作者都得出結論，聽音者音質評分的幾乎所有差異都可以用頻率響應來解釋。然而，非線性失真仍然是一個不應該被忽視的因素。

專業訓練的聽音者對失真的描述並不多，尤其是能夠克服光環效應的聽音者。

如何從聲學的角度解釋？簡而言之，當失真高於人類的聽覺極限或掩蔽域時，才有可能被人所察覺。如果低於人類的聽覺極限則不能被察覺。並且，對於電聲器件而言，很多時候非線性失真並不是孤立的。例如，喇叭第一單元的f0/頻響低頻截止頻率越低，通常低頻的失真也越小。當然，這指的是一些無源音箱或耳機。對於一些有源系統或復雜的帶有演算法的系統，這個結論可能並不適用。

頻響曲線是音質的主導因素（Dominate factor）

前文在解釋非線性失真中已經提到：

我們的模型沒有考慮非線性失真對偏好的影響。除了第一部份中提到的一兩個個例外，聽音者們並沒有將非線性失真因素納入他們的偏好評分。 在Toole[12]-[13]和Klippel[14]進行的其他大規模音箱研究中，兩位作者都得出結論，聽音者音質評分的幾乎所有差異都可以用頻率響應來解釋。 然而，非線性失真仍然是一個不應該被忽視的因素。

當然，這裏所指的音箱頻響曲線並不只是很多人常見到的軸向頻響曲線。而是很多條頻響曲線。這是因為音箱在發生時，實際上對空間中各個方向都有放射線，而各個方向的頻響曲線不盡相同，僅靠軸向頻響曲線不足以說明問題。實際上僅僅把軸向頻響曲線做好並不困難，但是將離軸方向的頻響曲線同時也做好卻並不簡單。

Listening Window. The listening window curve is a spatial average of the nine magnitude responses in the ±10º vertical and ±30º horizontal angular range.
Early Reflections. The early reflections curve is an estimate of all single-bounce, first-reflections, in a typical listening room.
Sound Power. The sound power is the weighted rms average of all 70 measurements, with individual measurements weighted according to the portion of the spherical surface that they represent. Calculation of the sound power curve begins with a conversion from SPL to pressure, a scalar magnitude. The individual measures of sound pressure are then weighted according to the values shown in Appendix C and an energy average (rms) is calculated using the weighted values. The final average is converted to SPL.
Sound Power Directivity Index (SPDI). For the purposes of this standard the Sound Power Directivity Index is defined as the difference between the listening window curve and the sound power curve. An SPDI of 0 dB indicates omnidirectional radiation. The larger the SPDI, the more directional the loudspeaker is in the direction of the reference axis.
喇叭的指向性或者說指向性因數本身也是可以透過頻響曲線計算的。
Early Reflections Directivity Index (ERDI). The Early Reflections Directivity Index is defined as the difference between the listening window curve and the early reflections curve.

又例如音箱的動態範圍和最大聲壓級表現等。有源音箱的limiter也可以用SPL曲線測試，只不過還要對attack time和release time等其他因素的評價。

在復雜事物自身包含的多種矛盾中，每種矛盾所處的地位、對事物發展所起的作用是不同的，總有主次、重要非重要之分，其中必有一種矛盾與其它諸種矛盾相比較而言，處於支配地位，對事物發展起決定作用，這種矛盾就叫做主要矛盾。 正是由於，矛盾有主次之分，我們在想問題辦事情的方法論上也應當相應地有重點與非重點之分，要善於抓重點、集中力量解決主要矛盾。

頻響曲線不論對於音箱還是耳機都是最重要的參數，也是目前為止唯一一個和人耳主觀音質感知強相關的參數。不過，即便如此，頻響曲線並不是影響音質的全部因素，這從頻響曲線與音質主觀評分的相關系數不是1中可以看出。

耳機的相關實驗：

對於音箱而言，低音表現大約占聽音者音質主觀評價權重的30%

造成這種現象有很多原因，例如如果低頻能量不對，那麽同樣也會影響中頻和高頻的感知。

人們有能力感受到更好的細節

1/20 OCT的數據比1/3 OCT的數據更能反映人的主觀感知。結論是，好的細節表現是可以聽到的。

音質與聲場（空間印象）的關系

前文提到，對於音箱而言，頻響曲線是音質的主導因素。而對於音箱的聲場（空間印象）的表現，目前則有幾種不同的解釋：

It is our experience that timbre is the dominant factor related to loudspeaker preference, and speakers that accurately reproduce timbre generally have favorable spatial properties. Toole reported high correlation between fidelity ratings (conducted in mono) and spatial ratings (in stereo) and found that most of the spatial effects are strongly related to the recording techniques used in the recording [12]-[13]. Klippel reported that the perceived spaciousness of the loudspeaker is an important dimension that is related to its directivity [14].
根據我們的經驗，音色是與喇叭偏好相關的主導因素，準確再現音色的喇叭通常具有良好的空間特性。Toole報告了高保真度評分(mono)和空間評分(立體聲)之間的高度相關性。並行現大多數空間印象與[12]-[13]錄音技術密切相關。Klippel報告說，喇叭的空間感知是一個重要的維度，這與它的指向性[14]有關。

一種是Floyd Toole和Sean Olive的論點，認為好的音質音色表現通常具有或者好的聲場（空間印象）表現。

另一種則是 Wolfgang Klippel的論點，認為聲場表現與指向性相關。

我以我個人的經驗更傾向於後者。事實上Wolfgang Klippel的實驗證明：

音質是基礎，如果音質表現不好，那麽聲場表現對綜合評價而言並不重要
HiFi系統的聲音聽起來是否自然——也就是「自然感」有一般的權重都與空間印象有關。而聲音聽起來是否舒服——也就是「愉悅感」一多半都與空間印象有關。
喇叭的空間感知與它的指向性有關

我之所以更偏向於Klipple的研究是因為，在感知聲源寬度的相關研究中，早期側向聲能比甚至是雙耳互相關傳遞函式均與喇叭的指向性存在一定的關系，當然，與擺位和房間聲學裝修也存在聯系。Sean Olive博士的實驗中對音箱指向性的要求僅限於連續，盡量不要發生突變，但對指向性的數值本身並沒有過多要求，不過這一結論本身是針對音質。不過Floyd Toole所指出的聲場表現與錄音技術本身密切相關，說明音樂/音源本身對聲場表現非常重要。

喇叭效應與耳機效應（施工中）

個體間的差異（施工中）

地域、文化等因素差異

常見的人類聽覺心理聲學特性

掩蔽效應

聽覺中的掩蔽效應指人的耳朵只對最明顯的聲音反應敏感，而對於不明顯的聲音，反應則較不為敏感。一個聲音的聞閾值由於另一個聲音的出現而提高的效應。前者稱為掩蔽音(masking tone)，後者稱為被掩蔽聲(masked tone)。對於兩個純音來說，最明顯的掩蔽效應出現在掩蔽聲頻率附近，低頻純音能有效地掩蔽高頻純音，而高頻純音對低頻純音的掩蔽效應小。

其實從掩蔽效應即可解釋為什麽人們通常對較小的諧波失真並不是特別敏感，尤其是低次諧波失真，因為當諧波失真沒有達到一定的值時，會被基頻掩蔽。

哈斯效應

哈斯效應是指 反射聲相對於直達聲 的延遲時間對語言可懂度的效應。短的延遲時間,反射聲會增加直達聲的響度,長的延遲時間導致可懂度降低，其間有個「臨界延遲差」，它與反射聲的強度、聲源的頻譜以及所在空間的混響時間有關。

註意，哈斯效應指的是反射聲與直達聲的延遲。而不是任意兩個聲音之間的延遲，實際上即便沒有任何延遲，同時在兩個方向的人聲和槍聲，也能夠分清楚不是同一方位的聲源。

生物諧波

如果一個25kHz的聲音與一個26kHz的聲音同時播放，則有可能聽到一個1kHz的聲音，即便這兩個聲音均超出了人耳聽覺極限。這屬於聽覺非線性的範疇。

角度優先、距離優先與頻譜補償

人類有能力把不斷變化的聲音（音箱發出的聲音）與固定不變的聲音（房間的反射等）在一定程度上區分開來，對於頻率高於房間傳輸頻率的聲音的音色，人類可以專註於音箱本身，而「過濾」掉大部份房間的影響。

Sean Olive博士的大量實驗同樣也表明，人類對於中高頻音色的主觀評價受到房間的幹擾很小，大部份取決於音箱本身。

人類的聽覺極限

關於人類的聽覺極限有太多相關的研究。

我們不難發現，以上參照的數值都很高。因此，你可能想要知道，為什麽這麽多年過去了，對於HiFi產品的低失真的追求沒有被停止。一方面是，以上這些數位如此之高，對於很多人來說是難以置信的。另一方面則是，會有商業利益推動這些技術指標繼續進步，不論這些技術指標是否可以被人感知。
Douglas Self, Audio Power Amplifier Design

所以我只針對幾個重點問題進行解釋：

如何證明你能夠聽出兩款產品之間存在差異？

ABX測試是一種比較兩種感官刺激的方法，以確定它們之間是否有可檢測到的差異。先分別播放兩段樣品A和B，緊隨其後的是一個未知的樣本X，X是從A或者B之間隨機選的，參與測試者需要對X是A還是B給出明確判斷，如果X不能可靠地透過低假設值（p-value）判斷，則不能證明A和B之間存在可以察覺的區別。

零假設驗證。 前文在ANOVA中已經提到關於零假設的相關內容，更通俗的講，即假設你無法分辨兩個器材之間的差別，你需要透過在盲聽測試中獲得足夠高的正確率來突破零假設。

如果只進行一次ABX試驗，隨機猜測有50%的機會選擇正確答案，與拋硬幣一樣。為了使陳述具有一定程度的可信度，必須進行多次試驗。透過增加試驗次數，在給定的置信水平下，從統計學上確定一個人區分A和B的能力的可能性會增加。95%的置信水平通常被認為具有統計學意義。QSC公司建議，每一輪測試中至少進行10次聽力測試。

95%置信水平所需的結果

95%置信水平所需的結果，即如果進行10次測試，那麽應該至少答對9次，以此類推。

通常認為進行16次測試的結果更有說服力。不過，也有人認為可以進行更多次，透過分組進行再對測試結果進行分析，並允許參與測試的人在期間進行充分的休息。

除了ABX測試以外，還有另一種另辟蹊徑的零差別測試。

2. 如何證明你能夠聽出瀑布圖所描繪的「時域缺陷」？

通常是采用Pink Noise和音樂激勵進行測試。

最終的結論則是， 至少在200Hz以上的頻率，諧振的察覺過程依靠的是頻譜資訊而不是瞬態特征。

而200~300Hz以上的頻響曲線與CSD的關系也可以透過最小相位系統去解釋：

人的聽音能力

早在一年多以前，我最開始的幾篇文章中我就曾多次強調，對於耳機和音箱單體而言，並不需要過多的主觀評價。如果想要判斷一款產品好壞，最主要途徑為客觀數據和親自試聽（非雲試聽），亦或是兩者相結合。即客觀評價、主觀評價或主客觀評價。

但是有時當一個人無法獲得測試數據或不知道如何解讀測試數據，又沒有機會親自試聽或即便試聽也無法做出抉擇，例如我之前就做過一份調查，有大約8成的人會選擇網購耳機音箱類產品。即無法客觀評價也無法主觀評價時，我們該相信誰？

FL統計量是基於喇叭效果（音箱主觀評分的平方和）除以誤差變異數（殘留誤差平方和）的比率。這個指標可以反映聽音者對於不同音箱之間的區分能力，以及他們重復評價的能力。作者使用這一指標選擇在各種聽音訓練任務和日常對音訊產品評價表現最好的聽音者。

FL is the ratio of the loudspeaker effect (mean sum of squares for loudspeaker ratings) divided by the error variance (mean sum of squares of the residual). This metric accounts for the listeners' ability to discriminate between loudspeakers as well as their ability to repeat their ratings, expressed in the denominator. In the current study, listener performance is based on the magnitude of the loudspeaker F statistic FL. The author uses this metric for selecting the best listeners based on their performance in various training tasks [5] and day-to-day performance in preference testing of audio products. Only 16 of the 268 listeners (6%) achieved a 0 error variance, all occurring in the three-way loudspeaker test.

在本文中的268個聽音者中，只有16人能夠達到零誤差變異數。當誤差變異數為0時，FL取固定常數。

基於每個獨立的聽音者對不同音箱主觀評分的ANOVA變異數分析。並按照群體劃分總結。不難發現，絕大多數人主觀評價的可信度都很低。普通人表現出較大的不確定性，並且不像訓練有素的試聽者那樣能夠明確地對不同聲音打出不同的分數。這是可以透過F統計量測算的，高數值代表聽音者可以在重復的同樣的聲音打出相同的分數，而對於不同水平的產品能夠非常清楚地分辨，果斷打出不同的分數。Bech等人的研究也證實了這一點。

我曾經自己想發起一個協會，講全球範圍內精通主觀評價和主觀調音的人聚集起來。目的有兩點：

向世人展示誰才是真正從事和精通主觀評價和主觀調音的人；
主觀調音到底是如何進行的，以及需要哪些能力。

雖然我邀請了我所熟知的很多人參與，其中大部份均同意了我這個想法。但是我最終我自己放棄了。因為這樣做會得罪很多人，這些人不是老燒或者kol（他們無所謂），而是得罪很多聲譽很高的人。

幾個技術問題

EQ對音箱其作用嗎？

EQ不能改變指向性，所以一款音箱如果指向性設計存在問題，透過EQ是無法修復的。除此之外，EQ也很難同時改善不同方向的頻響曲線。所以EQ對於音箱的作用十分有限，最主要的作用還是體現在音箱與房間的低頻管理方面。

單元材質與頻響曲線（施工中）

幾個哲學問題

什麽是區別？

國際音訊工程協會，關於HiFi玄學的座談會，2009年

如果你根據不同的特征聽到不同的東西，你就會記住這些差別，這並不是幻覺。

如果你有理由假設也許存在區別，你很可能聽出區別，因此你會記住這些差別。

關於第一點，例如不同的耳機，不同的音箱等，它們之間的聲音差異是客觀存在且能夠被人感知的，所以這些差別並不是幻覺。

國際音訊工程協會，關於HiFi玄學的座談會，2009年

這意味著，事實上，對於任何只透過聽覺激勵去區分的可聽性激勵必須：

可以證偽

必須對除了聲音以外的其他因素進行隔離

時間上必須是相近的

必須是受控的

必須有訓練有素的、值得信賴的聽音者

科學是可以證偽的，但需要的是反面的證據，而不是反面的意見。

在科學中，反面證據使人質疑一種理論；在宗教中，人們會質疑這個反面證據。
——Floyd Toole

而日常的非盲聽測試則很難證偽，或者更直接的說，很難驗證聽音者到底有沒有撒謊。因為視覺會給人先驗。

當進行非盲聽時，則可能有以下情形：

聽音者完全如實描述聲音，且沒有收到任何品牌、外觀、價格等非聽覺因素幹擾，這是很難實作的。
聽音者受到了品牌、外觀、價格等非聽覺因素的幹擾，或受到了他人的心理暗示等影響。
聽音者在說謊。

Floyd Toole博士的實驗發現，一組試聽者的打分有時會趨同。這是由於聽音測試過程中，試聽者之間可能透過肢體語言、微妙的表情等方式相互交流，大家的意見可能會因此與人群中被認為是最「懂行」的人靠攏。
這個人群中被認為最「懂行」的人就是現在的意見領袖，而即便在加拿大國家研究委員會這樣非常專業的試聽場合依然有可能會出現這類情況，就更別說更加復雜的現實世界和互聯網高度發達的今天。一個人對於HiFi器材主觀評價結果很可能受到各種言論和意見領袖的影響，從而向那個最「懂行」的人靠攏。

至於為什麽需要訓練有素和值得信賴的聽音者。例如前文提到的，非線性失真聽起來是什麽樣子，因為訓練有素的聽音者知道典型的異常聲音聽起來像什麽。而值得信賴的聽音者可以產生更多可重復的結果。

什麽是幻覺？

幻覺是指沒有相應的客觀刺激時所出現的知覺體驗。換言之，幻覺是一種主觀體驗，主體的感受與知覺相似。這是一種比較嚴重的知覺障礙。幻覺與錯覺不同之處在於前者沒有客觀刺激存在。由於其感受常常逼真生動，可引起憤怒、憂傷、驚恐、逃避乃至產生攻擊別人的情緒或行為反應。企圖說服出現幻覺體驗的人不相信幻覺有時是徒勞的。幻覺偶然也能見於正常人。例如在似睡非睡的時候，出現幻聽或幻視，稱為入睡前幻覺；將醒而又倦睡時出現的幻覺，稱為睡醒前幻覺。幻覺也能透過暗示方式產生。如過去文獻中所的有些沈溺於宗教狂熱的人，聲稱見到了「觀音菩薩」或「耶穌基督」等，並不一定有病理意義。但是，應當說，幻覺大多是病理性。如果一個人多次出現幻覺，應當及時進行檢查，以便對其心理障礙進行診治，防止幻覺影響下發生傷人、出走或自殺等意外。

幻覺具有兩個主要特點：

第一、幻覺是一種感受，由於缺乏相應的現實刺激，所以客觀檢驗結果證明這種感受是虛幻的，但就患者自身體驗而言，卻並不感到虛幻。

第二，雖然幻覺源於主觀體驗，沒有客觀現實根源，但某些患者堅信其感受來自客觀現實。

由幻覺的描述，我們可以發現以下幾點：

幻覺指的是沒有相應的客觀刺激所出現的知覺體驗。例如，某些器材實際上並沒有改變低頻的聲學效能，但聽音者認為低頻改變了。
幻覺不一定是病理性的，幻覺也能透過暗示的方式產生。如過去文獻中有些沈溺於宗教狂熱的人。
企圖說服出現幻覺體驗的人不相信幻覺有時是徒勞的。

而在音訊領域中， 有許多類似的例子，聽音者在聲音中聽到了和聲音特性不相符的聲音，或者完全不存在的聲音。 如果一個人相信聲音有差異，那麽就有可能聽出聲音的差異。即便沖擊耳膜的聲波沒有差異，但大腦的感知過程判斷存在差異。雙盲聽測試表明沒有差異，但一些人會認為是測試數據錯誤了，而不是聲音真的沒有變化，這就是信仰的力量。一些音訊測評人提出了這些想法，以及擁有這些神秘力量的產品，從而前進演化出了一群人所描述的「基於信仰的聲音」。
——【聲音的重現】第三版

客觀與主觀

聲音中的客觀與主觀是相輔相成的，並不是割裂的，更不是對立的。無數的心理聲學相關實驗已經證明客觀數據與主觀聽感之間是存在聯系的。

就我自己而言，當兩個設計的客觀數據均達到了一定的水平，那麽我會優先偏向使用主觀音質評價更好的設計。但很多專業主觀調音的專家均向我表示，一款真正完美的產品，必須是客觀和主觀都打到完美。

科學實驗與個人崇拜

科學是正確反映世界本質與規律的理論，包括正確的概念、命題、原理與理論體系；其物件是客觀本質與客觀規律，內容是科學本質與科學規律，形式是語言，包括自然語言與數學等人工語言。

我先舉一個簡單的例子，在科學中，不會因為牛頓晚年相信神學而去否定萬有重力，也不會因為相對論去全盤否定經典力學，更不會因為微積分去肯定神學論。

但是我們從另一中經常能看到的「邏輯」就會得到， 牛頓相信神學→所以牛頓是錯的→所以萬有重力是錯誤的 ，這樣的結論。

回到今天的話題，不論是心理聲學的原理也好，亦或是更具體的哪些因素影響耳機的音質表現。這樣的問題，到底該相信與之對應的能夠證明這些結論的科學實驗還是某個人或者某個品牌的言論？

經常看到有人說不能只談理論，也要實踐。且不說本文提到的理論絕大多數都是由實驗得來的。

如果想證明對與錯，其實很簡單，只要將上述提及的心理聲學實驗重復進行一次，再使用相關的統計學方法分析即可。

而證明某些具有神秘力量的產品是否起作用亦或是能否帶來可聞差別則更加簡單，只需要做ABX測試和客觀測試即可。

終章：頻響曲線的原罪

在主觀主義出現後的大約二十年間，還沒有出現任何一個沒有被質疑過的音訊參數。
——Douglas Self

頻響曲線太容易測量了。 幾萬塊買個IEC標準的人工耳就能測耳機的頻響曲線，Klippel NFS和SoundCheck轉台也可以輕易地測出音箱的CEA2034A頻響曲線，即便沒有這些裝置，也可以輕易地測出音箱的軸線頻響曲線，雖然軸線頻響曲線對於音箱只能部份描繪，但至少也能反映音箱效能的一部份。而這些曲線很容易獲得與共享，即便網路上存在很多非專業裝置和不準確的測試結果。這極大的削弱了HiFi產品的神秘性和「不確定性」。

頻響曲線可以證偽。 頻響曲線造假的難度比文學難，因為頻響曲線這種客觀測試指標可以很容易的在相同的測試儀器和環境下重復測試。可以很容易的判斷到底有沒有造假嫌疑。例如測試結果有沒有造假嫌疑，例如雲試聽所使用的人工耳有沒有把3dio之類的玩具麥克風冒充IEC人工耳，例如線材對耳機的影響和煲機相關測試到底有沒有造假等等。

頻響曲線極大的壓縮了音訊評論家的話語權。 音訊產品的話語權長久以來把持在一些知名的音訊評論家手裏。音訊評論家亦或是更普通的發燒友，在評價一款產品時，可以隨意的自由發揮。但如果一款音箱或耳機的頻響曲線存在比較明顯的問題，如果此時還要把這款產品描繪為一個非常完美或者表現很好的產品，就會與測試結果和相關的心理聲學結論產生沖突。

有悖常理的是：音訊評論家的意見受到格外的尊重。為什麽這些人被放在如此被信任的位置上？他們所進行的聽音測試違反了最基本的消除偏見的原則。他們沒有資格認證，沒有業績證明，甚至不能提供一張聽力圖表來告訴大家他們的聽力是否受損。他們擁有強大的文字能力，能夠把他們認為自己所聽到的，繪聲繪色地描述出來。而更加糟糕的是，正如我們後面將要討論的，大多數音訊評論家不能提供有效的測量方法，因此讀者可能會形成錯誤的印象。
——Floyd Toole博士

頻響曲線確實暴露了很多產品的問題，而這些問題不但是一些廠家不想看到的，也是一些消費者不願意看到的。 例如被很多人追捧的靜電音箱，售價3800美元的Martin Logan Vista。

Sean Olive在AES的演講提及，序號的順序就是第一張圖的順序。

再比如說曾經非常昂貴的B&W 802N

亦或是森海塞爾HD820

以及售價一萬多元的靜電入耳式耳機。

這些產品的實際表現往往與廠商的宣傳大相徑庭，而這一點很容易從頻響曲線中反映出來，大規模的盲聽實驗也從主觀評價的角度證實了這些曲線所反映出來的問題（Martin Logan Vista）。這會影響廠商的銷量和聲譽，所以這是廠商不願意看到的。

而對於一部份花了很多錢的消費者，看著自己花了大價錢並在某種程度上引以為傲的產品的實際表現，一時是難以接受的。也許是真的認為數據反映的事實與自身的主觀感受不符合。但很多時候就像2017年的諾貝爾經濟學獎所指出的。完全理性的經濟人不可能存在，人們在現實生活中的各種經濟行為必然會受到各種「非理性」的影響。 塞勒提出稟賦效應（Endowment Effect，也稱原賦效應）：指的是當一個人一旦擁有某項物品，那麽他對該物品價值的評價要比未擁有之前大大增加。

關乎人性命且證據確鑿的汽車碰撞測試尚且如此，何況耳機？

頻響曲線不論對於一部份消費者、廠家、經銷商和音訊評論家都可謂是弊大於利。只不過它對於聲音是有利的。所以在這樣一個很多人「聲稱」自己是在追求更好的聲音的市場被抨擊也就不足為奇了。可以說頻響曲線是對人的聽覺有利但對人性不利的，所以註定遭到唾棄。因為從某種角度來說，頻響曲線是反人類的。

最後我想參照Head-Fi裏的一句評論：這與「熱愛聲音」和「相信自己的耳朵」無關，而是與擁有最昂貴的音響系統、對它了解最少、對自己長期以來的愛好以及知道什麽聲音最好聽的無恥宣稱有關。

我想每個人都需要感覺自己很重要。