Facebook開(kāi)發(fā)了第一個(gè)多語(yǔ)言機器翻譯模型,無(wú)需使用英語(yǔ)作為中介即可翻譯多達100種語(yǔ)言。該系統稱(chēng)為M2M-100,使用人工智能。

根據Facebook研究助理Angela Fan的說(shuō)法,這是朝著(zhù)理解不同任務(wù)中所有語(yǔ)言的通用模型邁出的重要一步。該公司尚未發(fā)布有關(guān)何時(shí)實(shí)施該模型的信息。到目前為止,技術(shù)只是一個(gè)研究項目。
最初,研究團隊從互聯(lián)網(wǎng)上收集了100種不同語(yǔ)言的75億對短語(yǔ)的信息,優(yōu)先考慮互聯(lián)網(wǎng)用戶(hù)最需要的翻譯內容。

然后,根據語(yǔ)言,地理和文化的相似性將語(yǔ)言分為14組。例如,其中一個(gè)這樣的群體包括印度通用語(yǔ)言,例如印地語(yǔ),孟加拉語(yǔ)和馬拉地語(yǔ)。為了促進(jìn)人們的理解,團隊決定建立翻譯橋梁。
在印度語(yǔ)言方面,印地語(yǔ),孟加拉語(yǔ)和泰米爾語(yǔ)是印度-雅利安人的中介。該公司表示,通過(guò)這種技術(shù),它在BLEU度量標準上已經(jīng)超過(guò)了以英語(yǔ)為中心的系統10分,該標準可以評估自動(dòng)翻譯,達到20.1分。

“從英語(yǔ)到法語(yǔ)翻譯時(shí),大多數以英語(yǔ)為中心的多語(yǔ)言模型都從中文到英語(yǔ),從英語(yǔ)到法語(yǔ)進(jìn)行訓練,因為英語(yǔ)訓練數據非常廣泛,” Angela Fan解釋說(shuō)。“我們的模型直接訓練中文到法語(yǔ)的數據,以更好地保留含義。”
盡管尚未將它集成到Facebook中,用戶(hù)可以用160多種語(yǔ)言發(fā)布內容,但是該團隊進(jìn)行的測試表明該模型可以支持多種翻譯。
