當前位置：華文星空 > 知識

全球頂級語音技術比賽中獲雙料冠軍，這家中國公司靠什麽？

2021-06-20知識

蕭簫發自凹非寺量子位報道 | 公眾號 QbitAI

一場關鍵比賽，剛剛在全球頂級語音會議 INTERSPEECH 2021 上決出勝負。

騰訊、西工大、CMU等國內外機構是這場對決的主辦方，兩項比賽內容是語音行業的前沿研究，針對真實影片會議場景。

△ 單麥克風陣列多通道語音增強任務（dMOS越高越好）

△ 多分布式麥克風陣列多通道語音增強任務（dMOS越高越好）

來自中國、美國、新加坡等16個國家和地區的實力隊伍參賽，其中有像浙大、北航這樣的頂尖高校，也有像中科院聲學所這樣的專業研究機構。

最終kuaishou_deep_ns團隊包攬榜首，這支團隊來自快手。

兩項任務的第二名，分別是來自浙江大學和海康威視研究院聯合團隊，以及中國科學院大學、中科院聲學所、北京航空航天大學、北京語言大學、西北工業大學聯合團隊。

快手團隊在這場比賽中所使用的技術，已經以2篇論文的形式被INTERSPEECH 2021收錄。

快手究竟在「遠場多通道語音增強技術」上做出了什麽突破？

經典分割模型U-Net，跨界語音增強領域

先來看看，這兩項任務的考查目標「 遠場多通道語音增強技術 」是什麽。

語音增強技術 ，指在含噪語音中，對雜訊訊號進行抑制、降低，盡可能提取純凈的原始語音訊號。

如果場景中只有一個麥克風（單鍊結），將難以解決在會議室、智能家居、智能座艙等場景下出現的遠場問題。

遠場，指說話人距離麥克風較遠的場景。
主要存在三個難點：訊噪比低、房間混響（在封閉、室內場景下，聲波在傳播時不斷被墻壁反射、吸收和衰減）、多人說話場景

因此，通常采用 多通道 （多個麥克風組成的陣列）技術，來獲取更多不同方向訊號的振幅和相位資訊，進一步解決遠場問題，就是這場挑戰賽的目標。

△ 圓陣和線陣的采集方案

多通道包括單個、多個分布式麥克風陣列兩種類別，因此這場挑戰賽也由兩項任務組成，分別考查這兩種多通道類別的遠場語音增強技術。

傳統基於訊號的多通道演算法，往往雜訊抑制能力有限。這次的比賽中，快手團隊決定從一個 新角度 出發解決遠場問題：將深度學習技術和多通道演算法進行融合。

經過篩選後，團隊最終敲定了U-Net模型架構，這是一個 影像分割 領域的經典模型，在醫療影像和遙感領域的套用效果非常好。

U-Net 模型以其結構左右完全對稱、非常像「U」而得名，與FCN相似，同樣為encoder-decoder架構，最初被用於影像壓縮和影像去噪中。

由於下采樣和上采樣均進行了4次，同時相比於FCN多了skip-connection（跳層連線）結構，因此U-Net能很好地提取高級語意資訊和低階特征。

但團隊卻將U-Net用在了語音增強領域中，基於因果U-Net提出了一種多輸入多輸出演算法模型。

因果U-Net 的摺積結構采用了因果摺積（causal convolutions），目的是考慮即時問題（語音數據處理需要考慮即時性）。

事實上，將深度學習技術用於多通道模型，仍屬於前沿研究，相關論文非常少。這也成為了團隊設計模型時的一大難題。

經過反復測試驗證後，團隊發現，如果將模型的輸出和經典的波束形成相結合，就能獲得 1+1>2 的效果。

同時，在整體設計的基礎上，串聯一個 後處理濾波器 ，對基於深度學習模型生成的語音訊號進行二次降噪，讓語音音質更加清晰。

事實證明，這一「跨界」模型的效果確實不錯，原本廣泛用於影像分割領域的經典模型，現在在 語音增強 領域也能取得不錯的效果。

最終，快手團隊研發的多輸入多輸出模型支持8通道語音增強技術，同時具有可延伸性（能擴充套件不同的通道數量）。

不過，模型創新設計還只是比賽中的一環。

用數據還原真實場景，讓聽覺「無障礙」成為可能

事實上，在語音增強比賽中，數據合成又成為了另一挑戰。

舉辦方只會給出純凈的單人語音和雜訊數據，但在最終的場景考核中，所有語音訊號卻都來自真實場景。

也就是說，在最終比賽時，模型會遇到各種遠場情況、不同房間尺寸、不同麥克風放置地點和各種雜訊強度等不同類別的數據，但訓練數據卻完全要靠團隊自行設計。

這就需要參賽者合理考慮各類數據的占比，盡可能使模擬出來的數據更貼近真實情況。

不僅如此，由於此前深度學習在語音增強方向的研究大多基於單鍊結模型，因此團隊自行設計的數據，還得進一步考慮多通道的情況。

也就是說，需要對同一場景下、不同麥克風（通道）收到的訊號數據進行模擬，用於多通道模型的訓練。

盡可能還原真實場景的合成數據，加上自己研發的基於深度學習的多通道模型，讓快手團隊最終在這場語音增強比賽上獲得兩項任務的第一。

但這場語音增強比賽，背後的意義不僅在於角逐出模型的第一。

雖然「遠場多通道語音增強技術」確實尚處於前沿研究階段，但它未來的套用場景也已經得以預見。

其一， 多人會議 ，而且是異地兩部門之間的那種多人影片會議。

常見的線上影片會議中，基本上每個人都需要佩戴一副耳機，才能實作多人影片會議，這也是目前大多數影片會議APP所能實作的功能。

但未來可能只需要一塊螢幕，加上多通道語音技術就能在兩個異地部門、或是兩群人之間實作即時影片溝通。

即使坐在螢幕最遠端的人，也能聽見影片對面每個人的聲音，就像在一個辦公室溝通那樣順利。

其二，讓 XR技術 的實作，在語音處理領域成為可能。

5G+AI的組合，讓XR中的影像即時傳輸技術成為現實，但語音即時互動卻仍然存在不少困難，其中遠場是不可避開的一個技術難點。

如果遠場多通道語音增強技術進一步得到發展，或許將來XR也能真正實作語音上「聲臨其境」的互動效果。

想象一下，如果將來XR能套用到直播中（例如戶外直播），或許我們也能即時進入到直播環境中，足不出戶感受世界的美景。

作為音影片行業的引領者，快手已經在探索這樣的多通道語音增強技術落地場景。

將來，像多人會議、XR、直播場景互動這些設想中的「無障礙」聽覺技術，說不定哪天就會成為產品，落入尋常百姓家。

奪冠背後，快手的技術基因

在這次的語音增強比賽上獲得第一，背後是一整個快手的 音訊處理演算法團隊 在做技術支撐。

參賽團隊中，也有不少成員來自清北、西工大等985高校。

據團隊成員表示，實作這個模型，團隊用了將近一個月的時間，期間在模型設計和數據處理上遇到了不少難關，但最終團隊都將它們逐一攻破。

但相比於一味追求降噪效果，團隊成員的模型設計也考慮了 即時通訊 的需求。

畢竟遠場通訊的一大特點就是即時性，如果模型設計得太大，忽略了可實作性的話，也會失去落地套用的價值。

這也是快手「技術無差別」的基因之一，讓技術更貼近實際生活，盡可能造福每一圈層的人群。

事實上，除了語音增強技術以外，快手在 回聲消除 技術上也深耕已久。

同樣是在INTERSPEECH 2021的AEC Challenge（Acoustic Echo Cancellation Challenge）回聲消除比賽上，快手就以 4.77 的分數取得了雙講回聲消除的單項世界冠軍，領先於中科院、字節跳動、阿裏巴巴等諸多參賽團隊。

而在技術落地方面，同樣是在今年5月，快手還上線了基於深度學習的即時變聲直播，成為行業中首個上線相關技術的公司。

未來，快手還將繼續在音影片行業中，憑借技術實力，帶給我們更多的驚喜。

—完—

@量子位 · 追蹤AI技術和產品新動態

深有感觸的朋友，歡迎贊同、關註、分享三連վ'ᴗ' ի ❤

Copyright © 2024 www.atoomu.net NO.1 華文星空

商務合作：xingwa#jasve.com（傳送郵件請將#換成@）