Google的WaveNetEQ填補了二重奏通話(huà)中的語(yǔ)音空白

2020-04-08 12:13:30    來(lái)源:新經(jīng)網(wǎng)    作者:馮思韻

谷歌今天詳細介紹了一個(gè)名為WaveNetEQ的AI系統,該系統最近已部署到該公司的跨平臺語(yǔ)音和視頻聊天應用Duo中。

Google的WaveNetEQ填補了二重奏通話(huà)中的語(yǔ)音空白

二重奏組可以現實(shí)地合成簡(jiǎn)短的語(yǔ)音片段,以替代因互聯(lián)網(wǎng)連接不穩定而導致的亂碼。它的速度足夠快,可以在智能手機上運行,??同時(shí)提供最先進(jìn)的,聽(tīng)起來(lái)自然的音頻質(zhì)量,為將來(lái)針對帶寬受限的環(huán)境進(jìn)行了優(yōu)化的聊天應用程序奠定了基礎。

正如Google解釋的那樣,為了確??煽康膶?shí)時(shí)通信,有必要處理接收方需要時(shí)丟失的數據包(即,格式化的數據單元)。(該公司表示,由于網(wǎng)絡(luò )問(wèn)題,有99%的Duo呼叫需要處理網(wǎng)絡(luò )問(wèn)題,而有10%的呼叫損失的音頻持續時(shí)間超過(guò)總音頻持續時(shí)間的8%。)

Google的WaveNetEQ填補了二重奏通話(huà)中的語(yǔ)音空白

如果不連續傳送新音頻,則會(huì )出現可聽(tīng)到的小故障和縫隙。會(huì )發(fā)生,但是重復相同的音頻并不理想,因為它會(huì )產(chǎn)生偽像并降低總體通話(huà)質(zhì)量。

Google的解決方案WaveNetEQ是所謂的丟包遏制模塊,該模塊負責創(chuàng )建數據以填補由丟包,過(guò)度抖動(dòng)和其他事故造成的空白。

在結構上,WaveNetEQ是DeepMind的WaveRNN的修改版本,WaveRNN是一種用于語(yǔ)音合成的機器學(xué)習模型,由自回歸和條件調節網(wǎng)絡(luò )組成。

Google的WaveNetEQ填補了二重奏通話(huà)中的語(yǔ)音空白

自回歸網(wǎng)絡(luò )通過(guò)使每個(gè)生成的樣本取決于網(wǎng)絡(luò )的先前輸出來(lái)提供短期和中期語(yǔ)音結構,而調節網(wǎng)絡(luò )會(huì )影響自回歸網(wǎng)絡(luò )以產(chǎn)生與移動(dòng)速度較慢的輸入特征一致的音頻。

鄭重聲明:本文版權歸原作者所有,轉載文章僅為傳播更多信息之目的,如作者信息標記有誤,請第一時(shí)間聯(lián)系我們修改或刪除,多謝。