Alexa研究人員開(kāi)發(fā)了2-mic語(yǔ)音識別系統 該系統擊敗了7-mic陣列

2019-06-15 11:21:47    來(lái)源:    作者:

這是一個(gè)眾所周知的事實(shí),在語(yǔ)音識別方面,兩個(gè)麥克風(fēng)比一個(gè)更好。直觀(guān)地說(shuō),它是有道理的:聲波到達具有不同時(shí)間延遲的多個(gè)麥克風(fēng),這可以用于增強來(lái)自特定方向的信號的強度,同時(shí)減少來(lái)自其他方向的信號。然而,從歷史上看,語(yǔ)音增強的問(wèn)題 - 將語(yǔ)音與噪聲分離 - 已經(jīng)獨立于語(yǔ)音識別而得到解決,文獻表明這種方法產(chǎn)生了不合標準的結果。

但亞馬遜Alexa部門(mén)的研究人員相信他們已經(jīng)開(kāi)發(fā)出一種新穎的聲學(xué)建??蚣?,通過(guò)統一語(yǔ)音增強和語(yǔ)音識別來(lái)提升性能。在實(shí)驗中 - 當應用于雙麥克風(fēng)系統時(shí) - 他們聲稱(chēng)他們的模型相對于使用舊方法的七麥克風(fēng)系統將語(yǔ)音識別錯誤率降低了9.5%。

他們用一對論文(“用于遠程語(yǔ)音識別的頻域多聲道聲學(xué)建模”,“用于遠程語(yǔ)音識別的多維幾何空間聲學(xué)建模”)描述他們的工作,計劃在國際聲學(xué)會(huì )議,演講,和下個(gè)月在布萊頓的信號處理。

第一篇論文描述了一種多麥克風(fēng)方法,它取代了獨立的手工編碼算法,這些算法確定了波束形成器(在傳感器輸出上工作的空間濾波器,以增強波的幅度)方向,并通過(guò)單個(gè)神經(jīng)網(wǎng)絡(luò )識別語(yǔ)音信號。亞馬遜目前的Echo揚聲器陣容可以動(dòng)態(tài)調整波束形成器,以適應新的聲學(xué)環(huán)境。但是通過(guò)在不同環(huán)境的大型語(yǔ)料庫中訓練單一模型,研究人員能夠取消適應步驟。

“古典......技術(shù)的目的是在任意方向上引導單個(gè)[聲束],但這是一種計算密集型方法,”Alexa Speech組的演講科學(xué)家Kenichi Kumatani在博客文章中解釋道。“使用Echo智能揚聲器,我們將多個(gè)波束形成器指向不同的方向,并確定產(chǎn)生最清晰語(yǔ)音信號的波束形成器......這就是為什么Alexa能夠理解您的天氣預報請求,即使電視在幾碼遠的地方肆虐。”

單個(gè)神經(jīng)網(wǎng)絡(luò )和傳統模型都將波束形成器的輸出傳遞給特征提取器,其形式為對數濾波器組能量,或者是多個(gè)不規則頻帶中信號能量的快照。在傳統模型的情況下,它們針對背景噪聲的估計進(jìn)行歸一化,并且提取器的輸出被傳遞到AI系統,該AI系統計算與不同“電話(huà)”或短語(yǔ)音信息單元相對應的特征的概率。

根據論文的作者,如果模型的每個(gè)組件(例如,特征提取器和波束形成器優(yōu)化器)分別初始化,性能會(huì )提高。他們補充說(shuō),不同的訓練數據使模型能夠跨設備類(lèi)型處理各種麥克風(fēng)配置。

“除了其他優(yōu)勢之外,這意味著(zhù)新設備的ASR系統或不太廣泛使用的設備可以受益于更廣泛采用的設備產(chǎn)生的交互數據,”Kumatani說(shuō)。

鄭重聲明:本文版權歸原作者所有,轉載文章僅為傳播更多信息之目的,如作者信息標記有誤,請第一時(shí)間聯(lián)系我們修改或刪除,多謝。