愛伊米

聆聽天籟的背後,為你解讀天籟AI語音輔聽增強演算法

3月3日愛耳日,中國聯通聯合騰訊會議旗下天籟實驗室釋出“暢聽王卡升級版”,在語音通話和實時字幕雙場景下,讓聽障使用者不僅“聽得清”,同時也能“看得清”。

在這背後,依託於天籟實驗室專為聽障人群打造的天籟AI語音輔聽/增強演算法,創造性地採用了“用增強語音的方式來做語音增強”,從騰訊會議實踐出發,一路向善,不斷地將技術價值向外延伸。

聽得清=零噪聲?

你可能也曾遇到過這樣的場景:

在一個嘈雜的餐廳中,同桌的兩人在專注地交談,儘管周圍噪聲很大,但兩人耳中只聽到對方的說話聲,似乎完全聽不到談話內容以外的各種噪音。

這是聲學領域裡常見的“雞尾酒效應”。

事實上,不同頻率聲音的言語能量和可懂度有所不同,那怎麼樣的聲音才能被“聽得清”,繼而能被“聽得懂”呢?

不妨來聽聽這樣一組聲音。

語音A(原始帶噪語音)

在波形上,能直觀感受到有很強的風噪干擾。

在聽感上,由於噪聲干擾,語音可懂度非常低。

語音B(簡單降噪邏輯處理後語音)

將語音A進行降噪處理後,波形變得非常乾淨。然而,聲音的可懂度並沒有提高。

聆聽天籟的背後,為你解讀天籟AI語音輔聽增強演算法

簡單的降噪邏輯雖然能夠對噪聲進行抑制,但這種做法破壞了語音結構,導致聲音忽高忽低,語音的可懂度卻沒有獲得提升。因此,

語音增強和降噪,並不能劃等號。

而對於聽障人群來說,這個問題尤為關鍵。

相對來說,聽障使用者可感知的語音成分非常少,只能透過有限頻段的感知,來獲得語音的感知。若只採用簡單的“降噪”思維來處理,往往會造成一種

“噪聲處理地太乾淨,但我反而聽不清你在說什麼”

的窘境。

用增強語音的方式來做語音增強

這彷彿是個魚與熊掌不可兼得的問題。但迴歸人類聽覺本質,問題似乎就能迎刃而解。

儘管人們對聲音訊號的感知和處理過程仍待探索,但有一件事情是清楚的:

越能從接收的訊號中準確提取語音成份,可懂度就越好

。“於是我們想到了

從“語音”,而非“噪聲”的角度來切入處理

。”天籟實驗室研究人員說。

針對於聽障使用者的體驗痛點,天籟實驗室的研究人員創造性提出了用“增強語音”的方式來做“語音增強”的思路,並研發出

天籟AI語音輔聽/增強演算法——cSENN (一種基於語音上下文關係深度學習的語音增強方法)

天籟AI語音輔聽/增強演算法

透過天籟自主研發的AI演算法識別出帶噪語音裡面的語音的成分,先用一種合理的方式將其保護起來,再對聲學的噪聲進行有效的抑制。

這個做法,在對背景干擾聲做了有效的抑制的同時,也能保持較高的語音可懂度,讓使用者聽得更清。

不妨來聽聽語音A經過天籟演算法增強後的效果。

語音C(天籟技術增強後語音)

從波形上看,似乎跟簡單“降噪”處理的效果差不多,但是明顯地,增強後的語音保留得更好、輸出語音平穩,同時把噪聲抑制到理想水平。

聆聽天籟的背後,為你解讀天籟AI語音輔聽增強演算法

這項技術,也在騰訊天籟行動,被應用於中國聯通暢聽王卡中。

在“暢聽王卡升級版”中,在天籟AI語音輔聽/增強演算法的加持下,使用者將在

語音溝通、實時字幕

雙場景下均獲得更好的體驗,實現

典型噪音場景下單一位元組言語識別率提升66%,和實時字幕別準確率提高5.5-9.9個百分點

以下是一段實錄影片:在上行傳送端非常嘈雜的情況下,下行接收端的通話質量和字幕效果均表現優異。

注:下行端採取手機外放方式錄屏,音訊質量有影響

源自騰訊會議,一路向善

聽得清、聽得真,是騰訊會議致力於給使用者提供的音訊體驗。

作為騰訊會議旗下的頂尖音訊實時通訊和處理研發團隊,天籟實驗室

從騰訊會議的大量實踐場景出發

,此前基於上千小時的語音噪聲資料,透過深度學習和AI演算法,已經

成功消除300多種環境噪聲

,並已成功應用在騰訊會議上。

此前,騰訊會議推出的

個性化語音增強

功能,也是天籟實驗室在“用增強語音的方式來做語音增強”思路下的一個成功實踐,能夠

在環境噪聲消除的基礎上,進一步消除周圍人聲的干擾,凸顯主講人的聲音訊號

,彷彿一個“會找主人的麥克風”,打造更加乾淨、純粹的溝通體驗。

該技術的準確率在微軟組織的ICASSP 2022 DNS個性化語音增強比賽評測中排名第一,MOS分相對微軟提供的基準線高出0。57,相對處理前的語音MOS分高出1。41。

“騰訊天籟行動”正是天籟AI技術在聽障領域應用的

“技術價值外溢”

, 為兩億騰訊會議使用者提供會議降噪,在億級產品上進行了成熟驗證後,保障良好的影片會議體驗的同時,踐行騰訊科技向善理念,在技術公益領域探索,將技術用於人工耳蝸降噪、AI輔聽和字幕識別最佳化等場景,解決社會問題,將社會責任真正融入產品及服務之中。

未來,天籟實驗室也將持續保持開放,也期望有更多的夥伴加入我們,共同為廣大使用者打造更加純淨、高質的音訊體驗。