亞馬遜的Alexa Speech團隊科學(xué)家今天宣布,他們已經(jīng)使用了他們認為有史以來(lái)最大的無(wú)標簽數據集之一,用于訓練聲學(xué)模型并提高智能助理理解人聲的能力。

使用半監督學(xué)習,一種結合人和機器標記用于訓練AI模型的數據的方法,亞馬遜科學(xué)家能夠訓練模型并將語(yǔ)音識別錯誤率降低10-22%,而單純依靠監督的方法學(xué)習。在噪聲較大的音頻中可以看到語(yǔ)音識別錯誤減少的更大收益。
聲學(xué)模型用7,000小時(shí)的標記數據訓練,然后用100萬(wàn)小時(shí)的未注釋或未標記的數據訓練。聲學(xué)模型是一系列AI系統之一,它為自動(dòng)語(yǔ)音識別提供動(dòng)力,將語(yǔ)音命令轉換為計算機的動(dòng)作。
“我們目前正在努力將新模型整合到Alexa中,預計發(fā)布日期為今年晚些時(shí)候,”Alexa高級應用科學(xué)家Hari Parthasarathi在一篇博文中表示。
這項工作將于下個(gè)月在英國布萊頓舉行的IEEE國際聲學(xué),語(yǔ)音和信號處理會(huì )議上發(fā)表。
Alexa理解人聲的能力的這些進(jìn)步是通過(guò)使用稱(chēng)為師生培訓的長(cháng)短期記憶(LSTM)網(wǎng)絡(luò )的方法實(shí)現的。“老師”經(jīng)過(guò)培訓,可以理解30毫秒的音頻塊,然后將一些理解傳遞給使用未標記數據的“學(xué)生”網(wǎng)絡(luò )。
應用了許多其他技術(shù)來(lái)優(yōu)化或加速模型訓練,例如分析學(xué)生模型音頻一次而不是兩次,交錯或混合兩種模型,并在訓練期間僅存儲20種概率最高的教師模型輸出,而不是結果分為3,000個(gè)不同的集群。然后,學(xué)生模型必須嘗試準確匹配盡可能多的20個(gè)概率。
“7,000小時(shí)的注釋數據比機器標記的數據更準確,因此在訓練學(xué)生時(shí),我們將兩者交錯。我們的直覺(jué)是,如果機器標記的數據開(kāi)始以錯誤的方向引導模型,注釋的數據可以提供路線(xiàn)校正,“帖子讀取。
今天的新聞是在2月份宣布將語(yǔ)音識別錯誤率降低20%與其他半監督學(xué)習方法,以及使雙麥克風(fēng)陣列比七麥克風(fēng)陣列更有效的進(jìn)展,本周早些時(shí)候宣布。
