亞馬遜網(wǎng)絡(luò )服務(wù)公司(Amazon Web Services Inc.)正在接管Google LLC的人聲復制功能,今天為亞馬遜波利(Amazon Polly)添加了兩項新功能,這是一項基于云的服務(wù),可將文本轉換為逼真的語(yǔ)音,并用于創(chuàng )建可以通話(huà)的應用程序。

新功能的第一個(gè)功能稱(chēng)為“神經(jīng)文本語(yǔ)音轉換”,亞馬遜表示,通過(guò)增強合成語(yǔ)音的“自然度”和“表達力”,可以在語(yǔ)音質(zhì)量上“顯著(zhù)改善”。
關(guān)于神經(jīng)文本語(yǔ)音轉換的一大優(yōu)點(diǎn)是,由于亞馬遜去年在研究論文中提到的一種新的人工智能模型,它只需訓練幾個(gè)小時(shí)就可以學(xué)習新的口語(yǔ)風(fēng)格。該模型通過(guò)將大量標準的中性語(yǔ)音與僅幾個(gè)小時(shí)的目標語(yǔ)音風(fēng)格的其他語(yǔ)音數據相結合而起作用??梢愿鶕枰砑有碌难a充數據,以創(chuàng )建各種其他語(yǔ)音樣式。

AWS傳福音者朱利安·西蒙(Julien Simon)在博客中寫(xiě)道,使用Neural-Text-To-Speech的基本算法,亞馬遜創(chuàng )建了第二個(gè)新功能,這是新聞播音員式的聲音,使敘事聲音在閱讀新聞和類(lèi)似內容時(shí)“更加逼真”。發(fā)布。
西蒙說(shuō):“語(yǔ)音質(zhì)量當然很重要,但是要使合成語(yǔ)音更加逼真和引人入勝,還可以做更多的工作。” “風(fēng)格呢?可以肯定的是,人耳可以分辨出新聞廣播,體育廣播,大學(xué)課程等之間的區別;實(shí)際上,大多數人在正確的環(huán)境中采用正確的言語(yǔ)風(fēng)格,這無(wú)疑有助于傳達他們的信息。”

西蒙說(shuō),包括《環(huán)球郵報》,《大不列顛百科全書(shū)》和TIM Media在內的組織已經(jīng)在使用Polly的新聞廣播員風(fēng)格。該功能也已引入到支持Amazon Alexa的設備中,該設備用于敘述每日新聞簡(jiǎn)報和類(lèi)似內容。
