<kbd id="ljlr3"><sub id="ljlr3"></sub></kbd>

<delect id="ljlr3"><noscript id="ljlr3"><cite id="ljlr3"></cite></noscript></delect>

微軟的Tay聊天機器人從在線(xiàn)對話(huà)中學(xué)到了太多太快

2019-09-19 16:36:41 來(lái)源：人工智能網(wǎng) 作者：

早在2015年，聊天機器人就備受關(guān)注。其中一個(gè)被大肆宣傳的是Facebook的M，它的目標是成為一個(gè)靈活的、適用廣泛的機器人，它可以做很多不同的事情，比如購買(mǎi)物品、安排送禮、預定餐廳和計劃旅行。但這些聲音遠遠超過(guò)了機器人本身。當Facebook在灣區對2500人測試M時(shí)，該軟件并未能完成要求它完成的大部分任務(wù)。

在對M和其他聊天機器人的熱情爆發(fā)之后，隨之而來(lái)的是一波失望(微軟首席執行官納德拉曾說(shuō)“機器人是新的應用”)。聊天機器人不像機器人那么愛(ài)聊天，那是因為他們被訓練只談?wù)撘恍〔糠质虑?，執行特定的、有限的任?wù)。它們無(wú)法與人進(jìn)行自然的對話(huà)，無(wú)法根據對單詞及其含義的一般理解產(chǎn)生自己的反應。它們只能提供一般性的答復。

在M測試版之前，Facebook縮減了對這款機器人的宏偉計劃，盡管它的一些自然語(yǔ)言技術(shù)已經(jīng)進(jìn)入了相對保守的Messenger聊天機器人領(lǐng)域，這些聊天機器人可以做一些簡(jiǎn)單的事情，比如點(diǎn)餐或發(fā)送問(wèn)答信息。美國運通和1-800-FLOWERS等公司仍然使用這種簡(jiǎn)單的聊天機器人來(lái)回答客戶(hù)服務(wù)問(wèn)題、接受基本訂單和提供賬戶(hù)余額。如果你問(wèn)一些超出它們理解范圍的問(wèn)題，則會(huì )讓你和人工客服聯(lián)系。

但Facebook的人工智能研究小組已經(jīng)從那種只能簡(jiǎn)單聊天的機器人發(fā)展起來(lái)。Facebook自然語(yǔ)言研究人員Antoine Bordes表示：“過(guò)去3到4年我們一直在說(shuō)，對目標導向對話(huà)的研究不是我們需要探索的道路，因為它太難，風(fēng)險太大。”他還表示，如果一個(gè)旅游聊天機器人預訂了“錯誤的飛機、錯誤的航班，那在金錢(qián)、旅游等方面都是一個(gè)很大的錯誤。”

Bordes解釋說(shuō)，Facebook并沒(méi)有專(zhuān)注于特定任務(wù)的機制，而是后退一步來(lái)解決一個(gè)更深層次的問(wèn)題——教虛擬代理像人一樣交談。他們認為，如果聊天機器人能夠更好地理解，并與人類(lèi)交流，它們最終可能會(huì )成為更好的助手，幫助人們完成實(shí)際任務(wù)，比如預訂機票。

Facebook在這方面投入了大量資金，聘請了自然語(yǔ)言人工智能領(lǐng)域的一些頂尖人才。該公司喜歡表明的是，與一些大型科技公司不同，它通過(guò)將人工智能研究成果發(fā)布到網(wǎng)上，讓整個(gè)研究社區都能看到，這可能會(huì )幫助其他正在構建下一代人工智能的公司。但這項研究肯定也會(huì )在自己的產(chǎn)品中體現。

消息應用與人們的日常生活深度捆綁，包括Messenger和WhatsApp，后者也是Facebook的子公司，目前仍在研究如何盈利。隨著(zhù)首席執行官扎克伯格為公司提出一個(gè)更加重視私人對話(huà)的新愿景，Messenger和WhatsApp將需要增加一些功能，以保持相對于微信、Telegram和蘋(píng)果iMessage等其他信息平臺的領(lǐng)先地位。

構建一種可以隨意與人聊天的算法，已經(jīng)成為大型科技公司的一個(gè)關(guān)鍵目標。亞馬遜、谷歌和微軟都加入了Facebook的行列，押注于人類(lèi)對話(huà)的力量——不僅是基于文本的消息應用，還包括語(yǔ)音助手和其他體驗。由于最近的研究進(jìn)展，通往真正的對話(huà)式計算機的道路突然變得清晰起來(lái)，但首先到達目的地的獎品仍有待商榷。

換句話(huà)說(shuō)，Facebook的自然語(yǔ)言研究遠不止是復活M或者改進(jìn)基于Messenger的聊天機器人，而是事關(guān)整個(gè)公司的未來(lái)。

神經(jīng)網(wǎng)絡(luò )

構建一個(gè)能與人進(jìn)行逼真對話(huà)的數字代理人，可以說(shuō)是所有自然語(yǔ)言問(wèn)題中最難的。它需要一臺機器來(lái)學(xué)習一本充滿(mǎn)單詞的字典，以及所有的用法和細微差別，然后在與一個(gè)無(wú)法預測的人的實(shí)時(shí)對話(huà)中使用它們。

直到最近幾年，自然語(yǔ)言的AI社區才開(kāi)始向通用知識機器人邁出更大的步伐。這部分是因為神經(jīng)網(wǎng)絡(luò )的巨大進(jìn)步，這是一種機器學(xué)習算法，通過(guò)分析大量數據來(lái)識別模式。

在A(yíng)I發(fā)展的大部分歷史中，人類(lèi)一直在觀(guān)察軟件在機器學(xué)習過(guò)程中的表現。在一種被稱(chēng)為監督學(xué)習的技術(shù)中，人類(lèi)教師通過(guò)提供一個(gè)問(wèn)題的正確答案來(lái)慢慢訓練神經(jīng)網(wǎng)絡(luò )，然后調整算法使其達到相同的解決方案。

當有大量的數據都是經(jīng)過(guò)精心標注的時(shí)候，監督學(xué)習就能很好地工作——比如，通過(guò)識別照片中有貓、狗或其他物品。但這種方法在聊天機器人的世界里往往行不通。數千小時(shí)的人與人之間的對話(huà)記錄很難大量找到，而且對于一家公司來(lái)說(shuō)，創(chuàng )建這些記錄的成本很高。

由于很難教聊天機器人使用這些較老的方法進(jìn)行對話(huà)，研究人員一直在尋找替代監督學(xué)習的方法，讓神經(jīng)網(wǎng)絡(luò )在沒(méi)有人參與的情況下自己從數據中學(xué)習。

減少對訓練數據需求的一種方法是教機器基本常識。如果一臺計算機對世界有一些了解，比如物體的相對大小、人們如何使用它們，以及一些物理定律如何影響它們的知識，那么它可能會(huì )將選擇范圍縮小。

人類(lèi)這樣做很自然。例如，假設你在一個(gè)陡峭的懸崖邊開(kāi)車(chē)，突然看到前面的路上有一塊大石頭，你要避免撞到石頭。但在考慮你的選擇時(shí)，你永遠不會(huì )決定突然向懸崖邊艱難地轉彎。你知道，由于重力的作用，汽車(chē)會(huì )猛烈地落在下面的巖石上。

“我們所做的大部分學(xué)習是觀(guān)察世界，”Facebook副總裁兼首席人工智能科學(xué)家Yann Lecun是人工智能領(lǐng)域的傳奇人物，自上世紀80年代以來(lái)一直在應對最大的挑戰，他表示：“我們從父母和其他人身上學(xué)到了很多東西，但我們也正是通過(guò)與世界互動(dòng)，通過(guò)嘗試、失敗和改正，學(xué)到了很多東西。”

使用這種技術(shù)訓練的人工智能，稱(chēng)為無(wú)監督學(xué)習，工作原理是一樣的。例如，一輛自動(dòng)駕駛汽車(chē)通過(guò)它的許多傳感器和攝像頭收集有關(guān)世界的數據，就像一個(gè)孩子通過(guò)她的五種感官了解世界一樣。通過(guò)這種方法，科學(xué)家們?yōu)闄C器提供了大量的訓練數據供其仔細研究。他們不會(huì )要求它給出正確的答案，也不會(huì )哄它朝著(zhù)某個(gè)目標前進(jìn)。相反，他們只要求IT部門(mén)處理數據并從中學(xué)習，找到模式，并映射不同數據點(diǎn)之間的關(guān)系。

在許多情況下，這些必要的數據很難獲得。但是AI的一個(gè)領(lǐng)域是，神經(jīng)網(wǎng)絡(luò )可以在不需要傳感器的情況下了解世界，即自然語(yǔ)言處理。研究人員可以使用大量現有的文本來(lái)幫助算法理解人類(lèi)世界，這是理解語(yǔ)言的必要部分。

假設給一個(gè)神經(jīng)網(wǎng)絡(luò )兩個(gè)短語(yǔ)來(lái)理解：

“獎杯放不進(jìn)手提箱，因為它太大了。”

“獎杯放不進(jìn)手提箱，因為它太小了。”

要知道“它”在每個(gè)句子中指的是不同的事物，模型需要知道一些關(guān)于世界上的對象及其相互關(guān)系的信息。LeCun表示：“文本中有足夠的結構，它們正在接受訓練，知道當你有一個(gè)對象適合另一個(gè)對象時(shí)，如果對象太大，其中一個(gè)就不適合。”

這項技術(shù)可能成為新一代更具對話(huà)性和實(shí)用性的Facebook聊天機器人的秘密。

BERT和RoBERTa

目前在自然語(yǔ)言系統的無(wú)監督訓練方面的進(jìn)展始于2018年的谷歌。它的研究人員創(chuàng )建了一個(gè)名為BERT(Bidirectional Encoder Representations from Transformers)的深度學(xué)習模型，并從11038本書(shū)中提取了未加注釋的文本，以及維基百科英語(yǔ)詞條中的25億個(gè)單詞。研究人員隨機屏蔽了文本中的某些單詞，并對該模型提出了挑戰，讓它找出如何填入這些單詞。

在神經(jīng)網(wǎng)絡(luò )分析了整個(gè)訓練文本后，它發(fā)現了經(jīng)常出現在同一上下文中的單詞和句子的模式，幫助它理解單詞之間的基本關(guān)系。由于單詞是物體或概念在現實(shí)世界中的表現形式，該模型學(xué)到的不僅僅是單詞之間的語(yǔ)言關(guān)系：它開(kāi)始理解物體之間的關(guān)系。

BERT并不是第一個(gè)使用無(wú)監督方法訓練計算機理解人類(lèi)語(yǔ)言的模型，但它是第一個(gè)在上下文中學(xué)習單詞含義的模型。

“我想說(shuō)它是自然語(yǔ)言處理領(lǐng)域的前兩三大突破之一，”微軟研究院深度學(xué)習小組的合作伙伴研究經(jīng)理Jianfeng Gao表示。“你可以看到人們使用該模型作為構建所有其他自然語(yǔ)言處理模型的新基線(xiàn)。”到目前為止，BERT研究論文有超過(guò)1000條學(xué)術(shù)引用，其他研究人員也在谷歌的模型上進(jìn)行了構建。

LeCun和他的團隊就是其中之一。他們構建了自己版本的模型，然后進(jìn)行了一些優(yōu)化調整，大大擴展了訓練數據量，并增加了允許的訓練時(shí)間。在神經(jīng)網(wǎng)絡(luò )運行了數十億次計算之后，Facebook的語(yǔ)言模型RoBERTa的表現要比谷歌的模型好得多。與BERT的80.5%相比，它的準確率達到了88.5%。

BERT和RoBERTa代表了一種全新的方法來(lái)教計算機如何交談。“在這個(gè)過(guò)程中，系統必須表示它看到的單詞的意思、句子的結構和上下文，”LeCun表示。“結果，它學(xué)會(huì )了語(yǔ)言的本質(zhì)，這很奇怪，因為它對世界的物理現實(shí)一無(wú)所知。它沒(méi)有視覺(jué)，沒(méi)有聽(tīng)覺(jué)，什么都沒(méi)有。”它只知道語(yǔ)言——字母、單詞和句子。

慢慢接近真正的對話(huà)

LeCun表示，使用BERT和RoBERTa訓練的自然語(yǔ)言模型，仍然沒(méi)有足夠的常識來(lái)開(kāi)始生成基于廣泛常識的聊天。這只是訓練一個(gè)算法像人一樣說(shuō)話(huà)的開(kāi)始。

Facebook的自然語(yǔ)言研究者也試圖在RoBERTa的基礎上建立更多的對話(huà)特征。他們首先研究了與聊天機器人的實(shí)際人類(lèi)對話(huà)，以了解對話(huà)如何以及何時(shí)會(huì )中斷或變得無(wú)聊。他們的發(fā)現推動(dòng)了一項研究，可以通過(guò)訓練，讓機器人避免最常見(jiàn)的對話(huà)失敗。

例如，聊天機器人經(jīng)常自相矛盾，因為它們不記得自己在對話(huà)中說(shuō)過(guò)什么。聊天機器人可能在前一分鐘還聲稱(chēng)喜歡重播的《霹靂游俠》，下一分鐘又說(shuō)不喜歡電視劇。聊天機器人會(huì )創(chuàng )建自己的原始響應(而不是從訓練數據中檢索示例)，它們傾向于以模糊的方式回答問(wèn)題，以避免出錯。它們常常顯得缺乏情緒，這使得它們缺乏吸引力。

聊天機器人還必須能夠調用知識，成為有趣的健談?wù)?。那些能夠利用各種各樣信息的人，更有可能與人類(lèi)進(jìn)行更長(cháng)時(shí)間的對話(huà)。但是，目前的聊天機器人只接受一個(gè)領(lǐng)域的知識訓練，這個(gè)領(lǐng)域與機器人的設計任務(wù)相對應——當人類(lèi)開(kāi)始對機器人領(lǐng)域之外的主題發(fā)表評論時(shí)，這就成了一個(gè)問(wèn)題。例如，如果你問(wèn)一個(gè)送披薩的機器人關(guān)于披薩以外的任何話(huà)題，對話(huà)就會(huì )迅速轉移。

作為一種矯正方法，Facebook的研究人員一直致力于訓練自然語(yǔ)言模型，從許多知識領(lǐng)域提取數據，并將這些信息以自然的方式輸入到對話(huà)中。未來(lái)的研究將集中于教導機器人何時(shí)以及如何引導對話(huà)從一個(gè)一般性話(huà)題回到一個(gè)特定的任務(wù)。

開(kāi)發(fā)聊天機器人面臨的最大挑戰之一是，讓它們在調用后能夠繼續學(xué)習。單詞的含義會(huì )隨著(zhù)時(shí)間的推移而變化，新的術(shù)語(yǔ)和俚語(yǔ)在文化上變得重要。與此同時(shí)，聊天機器人不能太容易受人影響——微軟的Tay聊天機器人從在線(xiàn)對話(huà)中學(xué)到了太多、太快，在24小時(shí)內就變成了具有侮辱性的種族主義者。Facebook正在教授其實(shí)驗性聊天機器人如何從順暢的對話(huà)中學(xué)習，并分析人類(lèi)聊天伙伴的語(yǔ)言，以發(fā)現機器人是否說(shuō)了一些愚蠢或無(wú)聊的話(huà)。

預測Facebook在實(shí)驗室中取得的進(jìn)展可能會(huì )導致即時(shí)通訊聊天機器人的出現，這將是很危險的，因為這些聊天機器人能夠進(jìn)行對話(huà)，甚至具備某些類(lèi)人類(lèi)的膚淺技能。但也許不久我們就能自己判斷結果了。Facebook研究員Jason Weston表示：“我們相信，我們已經(jīng)非常接近擁有一個(gè)機器人，人們可以與機器人對話(huà)，從中看到價(jià)值。

鄭重聲明：本文版權歸原作者所有，轉載文章僅為傳播更多信息之目的，如作者信息標記有誤，請第一時(shí)間聯(lián)系我們修改或刪除，多謝。

RM新时代投资官网

<kbd id="ljlr3"><sub id="ljlr3"></sub></kbd>

<delect id="ljlr3"><noscript id="ljlr3"><cite id="ljlr3"></cite></noscript></delect>

<kbd id="ljlr3"><sub id="ljlr3"></sub></kbd>

<delect id="ljlr3"><noscript id="ljlr3"><cite id="ljlr3"></cite></noscript></delect>