<kbd id="ljlr3"><sub id="ljlr3"></sub></kbd>

<delect id="ljlr3"><noscript id="ljlr3"><cite id="ljlr3"></cite></noscript></delect>

<table id="cozef"></table>

Google AI技術(shù)可將語(yǔ)音識別錯誤降低29％

2019-06-22 14:13:57 來(lái)源：作者：

這些天語(yǔ)音識別非常好。EdgeSpeechNet等最先進(jìn)的模型在去年年底的研究論文中有詳細介紹，能夠達到97%的準確率。但即便是最好的系統也會(huì )偶然發(fā)現不常見(jiàn)的罕見(jiàn)詞匯。

為了縮小差距，谷歌和加利福尼亞大學(xué)的科學(xué)家提出了一種方法，可以利用純文本數據訓練的拼寫(xiě)校正模型。在預印本服務(wù)器Arxiv.org上發(fā)表的一篇論文(“ 用于端到端語(yǔ)音識別的拼寫(xiě)校正模型 ”)中，他們報告說(shuō)，在使用800字，960小時(shí)語(yǔ)言建模LibriSpeech數據集的實(shí)驗中，他們的技術(shù)顯示相對于基線(xiàn)，單詞錯誤率(WER)相對改善18.6%。在某些情況下，它甚至可以減少29%的錯誤。

他們寫(xiě)道：“目標是將一個(gè)受[文本]數據培訓的模塊納入端到端框架，目的是糾正系統所犯的錯誤。” “具體來(lái)說(shuō)，我們使用文本到語(yǔ)音(TTS)系統調查使用不成對的......數據[生成]音頻信號，這個(gè)過(guò)程類(lèi)似于機器翻譯中的反向翻譯。”

正如本文作者所解釋的那樣，大多數自動(dòng)語(yǔ)音識別(ASR)系統共同訓練三個(gè)組成部分：一個(gè)學(xué)習音頻信號與構成語(yǔ)音的語(yǔ)言單位之間關(guān)系的聲學(xué)模型，一個(gè)為單詞序列分配概率的語(yǔ)言模型，以及一種機制，用于對聲學(xué)幀和識別的符號進(jìn)行對齊。所有這三者都使用單個(gè)神經(jīng)網(wǎng)絡(luò )(以生物神經(jīng)元為模型的分層數學(xué)函數)和轉錄的音頻 - 文本對，因此，當語(yǔ)言模型遇到語(yǔ)料庫中不經(jīng)常出現的單詞時(shí)，通常會(huì )遭受性能下降。

然后，研究人員著(zhù)手將上述拼寫(xiě)校正模型納入ASR框架 - 一種將輸入和輸出句子解碼為稱(chēng)為“詞組”的子詞單元的模型，它采用嵌入詞(即映射到向量的特征)實(shí)數)并將它們映射到更高級別的表示。他們使用純文本數據和使用文本到語(yǔ)音(TTS)系統(并行WaveNet)生成的相應合成音頻信號來(lái)訓練LAS 語(yǔ)音識別器，這是2017年Google Brain研究人員首次描述的端到端模型，然后創(chuàng )建一組TTS對。然后，他們“教導”拼寫(xiě)糾正器糾正識別器通過(guò)給它們提供的潛在錯誤。

為了驗證模型，研究人員訓練了一個(gè)語(yǔ)言模型，生成了一個(gè)TTS數據集來(lái)訓練LAS模型，并產(chǎn)生了錯誤假設來(lái)訓練拼寫(xiě)校正模型，其中包含了來(lái)自L(fǎng)ibriSpeech數據集的4000萬(wàn)個(gè)文本序列，過(guò)濾掉了500,000個(gè)序列僅包含單字母單詞和短于90字的單詞。他們發(fā)現，通過(guò)糾正來(lái)自L(fǎng)AS的條目，語(yǔ)音校正模型可以生成具有“顯著(zhù)”較低的字錯誤率的擴展輸出。

鄭重聲明：本文版權歸原作者所有，轉載文章僅為傳播更多信息之目的，如作者信息標記有誤，請第一時(shí)間聯(lián)系我們修改或刪除，多謝。

RM新时代投资官网

<kbd id="ljlr3"><sub id="ljlr3"></sub></kbd>

<delect id="ljlr3"><noscript id="ljlr3"><cite id="ljlr3"></cite></noscript></delect>

<kbd id="ljlr3"><sub id="ljlr3"></sub></kbd>

<delect id="ljlr3"><noscript id="ljlr3"><cite id="ljlr3"></cite></noscript></delect>