這些天語(yǔ)音識別非常好。EdgeSpeechNet等最先進(jìn)的模型在去年年底的研究論文中有詳細介紹,能夠達到97%的準確率。但即便是最好的系統也會(huì )偶然發(fā)現不常見(jiàn)的罕見(jiàn)詞匯。

為了縮小差距,谷歌和加利福尼亞大學(xué)的科學(xué)家提出了一種方法,可以利用純文本數據訓練的拼寫(xiě)校正模型。在預印本服務(wù)器Arxiv.org上發(fā)表的一篇論文(“ 用于端到端語(yǔ)音識別的拼寫(xiě)校正模型 ”)中,他們報告說(shuō),在使用800字,960小時(shí)語(yǔ)言建模LibriSpeech數據集的實(shí)驗中,他們的技術(shù)顯示相對于基線(xiàn),單詞錯誤率(WER)相對改善18.6%。在某些情況下,它甚至可以減少29%的錯誤。
他們寫(xiě)道:“目標是將一個(gè)受[文本]數據培訓的模塊納入端到端框架,目的是糾正系統所犯的錯誤。” “具體來(lái)說(shuō),我們使用文本到語(yǔ)音(TTS)系統調查使用不成對的......數據[生成]音頻信號,這個(gè)過(guò)程類(lèi)似于機器翻譯中的反向翻譯。”
正如本文作者所解釋的那樣,大多數自動(dòng)語(yǔ)音識別(ASR)系統共同訓練三個(gè)組成部分:一個(gè)學(xué)習音頻信號與構成語(yǔ)音的語(yǔ)言單位之間關(guān)系的聲學(xué)模型,一個(gè)為單詞序列分配概率的語(yǔ)言模型,以及一種機制,用于對聲學(xué)幀和識別的符號進(jìn)行對齊。所有這三者都使用單個(gè)神經(jīng)網(wǎng)絡(luò )(以生物神經(jīng)元為模型的分層數學(xué)函數)和轉錄的音頻 - 文本對,因此,當語(yǔ)言模型遇到語(yǔ)料庫中不經(jīng)常出現的單詞時(shí),通常會(huì )遭受性能下降。
然后,研究人員著(zhù)手將上述拼寫(xiě)校正模型納入ASR框架 - 一種將輸入和輸出句子解碼為稱(chēng)為“詞組”的子詞單元的模型,它采用嵌入詞(即映射到向量的特征)實(shí)數)并將它們映射到更高級別的表示。他們使用純文本數據和使用文本到語(yǔ)音(TTS)系統(并行WaveNet)生成的相應合成音頻信號來(lái)訓練LAS 語(yǔ)音識別器,這是2017年Google Brain研究人員首次描述的端到端模型,然后創(chuàng )建一組TTS對。然后,他們“教導”拼寫(xiě)糾正器糾正識別器通過(guò)給它們提供的潛在錯誤。
為了驗證模型,研究人員訓練了一個(gè)語(yǔ)言模型,生成了一個(gè)TTS數據集來(lái)訓練LAS模型,并產(chǎn)生了錯誤假設來(lái)訓練拼寫(xiě)校正模型,其中包含了來(lái)自L(fǎng)ibriSpeech數據集的4000萬(wàn)個(gè)文本序列,過(guò)濾掉了500,000個(gè)序列僅包含單字母單詞和短于90字的單詞。他們發(fā)現,通過(guò)糾正來(lái)自L(fǎng)AS的條目,語(yǔ)音校正模型可以生成具有“顯著(zhù)”較低的字錯誤率的擴展輸出。
