聆聽天籟的背後，為你解讀天籟AI語音輔聽增強演算法

3月3日愛耳日，中國聯通聯合騰訊會議旗下天籟實驗室釋出“暢聽王卡升級版”，在語音通話和實時字幕雙場景下，讓聽障使用者不僅“聽得清”，同時也能“看得清”。

在這背後，依託於天籟實驗室專為聽障人群打造的天籟AI語音輔聽/增強演算法，創造性地採用了“用增強語音的方式來做語音增強”，從騰訊會議實踐出發，一路向善，不斷地將技術價值向外延伸。

聽得清=零噪聲？

你可能也曾遇到過這樣的場景：

在一個嘈雜的餐廳中，同桌的兩人在專注地交談，儘管周圍噪聲很大，但兩人耳中只聽到對方的說話聲，似乎完全聽不到談話內容以外的各種噪音。

這是聲學領域裡常見的“雞尾酒效應”。

事實上，不同頻率聲音的言語能量和可懂度有所不同，那怎麼樣的聲音才能被“聽得清”，繼而能被“聽得懂”呢？

不妨來聽聽這樣一組聲音。

語音A（原始帶噪語音）

在波形上，能直觀感受到有很強的風噪干擾。

在聽感上，由於噪聲干擾，語音可懂度非常低。

語音B（簡單降噪邏輯處理後語音）

將語音A進行降噪處理後，波形變得非常乾淨。然而，聲音的可懂度並沒有提高。

簡單的降噪邏輯雖然能夠對噪聲進行抑制，但這種做法破壞了語音結構，導致聲音忽高忽低，語音的可懂度卻沒有獲得提升。因此，

語音增強和降噪，並不能劃等號。

而對於聽障人群來說，這個問題尤為關鍵。

相對來說，聽障使用者可感知的語音成分非常少，只能透過有限頻段的感知，來獲得語音的感知。若只採用簡單的“降噪”思維來處理，往往會造成一種

“噪聲處理地太乾淨，但我反而聽不清你在說什麼”

的窘境。

用增強語音的方式來做語音增強

這彷彿是個魚與熊掌不可兼得的問題。但迴歸人類聽覺本質，問題似乎就能迎刃而解。

儘管人們對聲音訊號的感知和處理過程仍待探索，但有一件事情是清楚的：

越能從接收的訊號中準確提取語音成份，可懂度就越好

。“於是我們想到了

從“語音”，而非“噪聲”的角度來切入處理

。”天籟實驗室研究人員說。

針對於聽障使用者的體驗痛點，天籟實驗室的研究人員創造性提出了用“增強語音”的方式來做“語音增強”的思路，並研發出

天籟AI語音輔聽/增強演算法——cSENN (一種基於語音上下文關係深度學習的語音增強方法)

。

天籟AI語音輔聽/增強演算法

透過天籟自主研發的AI演算法識別出帶噪語音裡面的語音的成分，先用一種合理的方式將其保護起來，再對聲學的噪聲進行有效的抑制。

這個做法，在對背景干擾聲做了有效的抑制的同時，也能保持較高的語音可懂度，讓使用者聽得更清。

不妨來聽聽語音A經過天籟演算法增強後的效果。

語音C（天籟技術增強後語音）

從波形上看，似乎跟簡單“降噪”處理的效果差不多，但是明顯地，增強後的語音保留得更好、輸出語音平穩，同時把噪聲抑制到理想水平。

這項技術，也在騰訊天籟行動，被應用於中國聯通暢聽王卡中。

在“暢聽王卡升級版”中，在天籟AI語音輔聽/增強演算法的加持下，使用者將在

語音溝通、實時字幕

雙場景下均獲得更好的體驗，實現

典型噪音場景下單一位元組言語識別率提升66%，和實時字幕別準確率提高5.5-9.9個百分點

。

以下是一段實錄影片：在上行傳送端非常嘈雜的情況下，下行接收端的通話質量和字幕效果均表現優異。

注：下行端採取手機外放方式錄屏，音訊質量有影響

源自騰訊會議，一路向善

聽得清、聽得真，是騰訊會議致力於給使用者提供的音訊體驗。

作為騰訊會議旗下的頂尖音訊實時通訊和處理研發團隊，天籟實驗室

從騰訊會議的大量實踐場景出發

，此前基於上千小時的語音噪聲資料，透過深度學習和AI演算法，已經

成功消除300多種環境噪聲

，並已成功應用在騰訊會議上。

此前，騰訊會議推出的

個性化語音增強

功能，也是天籟實驗室在“用增強語音的方式來做語音增強”思路下的一個成功實踐，能夠

在環境噪聲消除的基礎上，進一步消除周圍人聲的干擾，凸顯主講人的聲音訊號

，彷彿一個“會找主人的麥克風”，打造更加乾淨、純粹的溝通體驗。

該技術的準確率在微軟組織的ICASSP 2022 DNS個性化語音增強比賽評測中排名第一，MOS分相對微軟提供的基準線高出0。57，相對處理前的語音MOS分高出1。41。

“騰訊天籟行動”正是天籟AI技術在聽障領域應用的

“技術價值外溢”

，為兩億騰訊會議使用者提供會議降噪，在億級產品上進行了成熟驗證後，保障良好的影片會議體驗的同時，踐行騰訊科技向善理念，在技術公益領域探索，將技術用於人工耳蝸降噪、AI輔聽和字幕識別最佳化等場景，解決社會問題，將社會責任真正融入產品及服務之中。

未來，天籟實驗室也將持續保持開放，也期望有更多的夥伴加入我們，共同為廣大使用者打造更加純淨、高質的音訊體驗。

愛伊米

聆聽天籟的背後，為你解讀天籟AI語音輔聽增強演算法

相關文章

推薦文章