<kbd id="ljlr3"><sub id="ljlr3"></sub></kbd>

<delect id="ljlr3"><noscript id="ljlr3"><cite id="ljlr3"></cite></noscript></delect>

<thead id="9wmrp"></thead>

<sup id="9wmrp"><tfoot id="9wmrp"></tfoot></sup>

Alexa研究人員開(kāi)發(fā)了2-mic語(yǔ)音識別系統該系統擊敗了7-mic陣列

2019-06-15 11:21:47 來(lái)源：作者：

這是一個(gè)眾所周知的事實(shí)，在語(yǔ)音識別方面，兩個(gè)麥克風(fēng)比一個(gè)更好。直觀(guān)地說(shuō)，它是有道理的：聲波到達具有不同時(shí)間延遲的多個(gè)麥克風(fēng)，這可以用于增強來(lái)自特定方向的信號的強度，同時(shí)減少來(lái)自其他方向的信號。然而，從歷史上看，語(yǔ)音增強的問(wèn)題 - 將語(yǔ)音與噪聲分離 - 已經(jīng)獨立于語(yǔ)音識別而得到解決，文獻表明這種方法產(chǎn)生了不合標準的結果。

但亞馬遜Alexa部門(mén)的研究人員相信他們已經(jīng)開(kāi)發(fā)出一種新穎的聲學(xué)建?？蚣?，通過(guò)統一語(yǔ)音增強和語(yǔ)音識別來(lái)提升性能。在實(shí)驗中 - 當應用于雙麥克風(fēng)系統時(shí) - 他們聲稱(chēng)他們的模型相對于使用舊方法的七麥克風(fēng)系統將語(yǔ)音識別錯誤率降低了9.5%。

他們用一對論文(“用于遠程語(yǔ)音識別的頻域多聲道聲學(xué)建模”，“用于遠程語(yǔ)音識別的多維幾何空間聲學(xué)建模”)描述他們的工作，計劃在國際聲學(xué)會(huì )議，演講，和下個(gè)月在布萊頓的信號處理。

第一篇論文描述了一種多麥克風(fēng)方法，它取代了獨立的手工編碼算法，這些算法確定了波束形成器(在傳感器輸出上工作的空間濾波器，以增強波的幅度)方向，并通過(guò)單個(gè)神經(jīng)網(wǎng)絡(luò )識別語(yǔ)音信號。亞馬遜目前的Echo揚聲器陣容可以動(dòng)態(tài)調整波束形成器，以適應新的聲學(xué)環(huán)境。但是通過(guò)在不同環(huán)境的大型語(yǔ)料庫中訓練單一模型，研究人員能夠取消適應步驟。

“古典......技術(shù)的目的是在任意方向上引導單個(gè)[聲束]，但這是一種計算密集型方法，”Alexa Speech組的演講科學(xué)家Kenichi Kumatani在博客文章中解釋道。“使用Echo智能揚聲器，我們將多個(gè)波束形成器指向不同的方向，并確定產(chǎn)生最清晰語(yǔ)音信號的波束形成器......這就是為什么Alexa能夠理解您的天氣預報請求，即使電視在幾碼遠的地方肆虐。”

單個(gè)神經(jīng)網(wǎng)絡(luò )和傳統模型都將波束形成器的輸出傳遞給特征提取器，其形式為對數濾波器組能量，或者是多個(gè)不規則頻帶中信號能量的快照。在傳統模型的情況下，它們針對背景噪聲的估計進(jìn)行歸一化，并且提取器的輸出被傳遞到AI系統，該AI系統計算與不同“電話(huà)”或短語(yǔ)音信息單元相對應的特征的概率。

根據論文的作者，如果模型的每個(gè)組件(例如，特征提取器和波束形成器優(yōu)化器)分別初始化，性能會(huì )提高。他們補充說(shuō)，不同的訓練數據使模型能夠跨設備類(lèi)型處理各種麥克風(fēng)配置。

“除了其他優(yōu)勢之外，這意味著(zhù)新設備的ASR系統或不太廣泛使用的設備可以受益于更廣泛采用的設備產(chǎn)生的交互數據，”Kumatani說(shuō)。

鄭重聲明：本文版權歸原作者所有，轉載文章僅為傳播更多信息之目的，如作者信息標記有誤，請第一時(shí)間聯(lián)系我們修改或刪除，多謝。

RM新时代投资官网

<kbd id="ljlr3"><sub id="ljlr3"></sub></kbd>

<delect id="ljlr3"><noscript id="ljlr3"><cite id="ljlr3"></cite></noscript></delect>

<kbd id="ljlr3"><sub id="ljlr3"></sub></kbd>

<delect id="ljlr3"><noscript id="ljlr3"><cite id="ljlr3"></cite></noscript></delect>

<u id="lpqir"><noscript id="lpqir"></noscript></u>

<style id="lpqir"><tbody id="lpqir"><del id="lpqir"></del></tbody></style>