人工智能的最重要的理論家和最近的圖靈獎獲得者 - 向學(xué)生Sara Sabour和Nicholas Frosst提出了一個(gè)名為CapsNet的機器學(xué)習架構,這是一種經(jīng)過(guò)歧視訓練的多層方法,實(shí)現了最先進(jìn)的技術(shù)?;诹餍谢鶞实膱D像分類(lèi)性能。在他們最初工作的后續工作中,Hinton,Sabour和本周牛津機器人研究所的研究人員詳細介紹了一種膠囊網(wǎng)絡(luò )的版本,該網(wǎng)絡(luò )在無(wú)人監督的分類(lèi)任務(wù)中勝出領(lǐng)先的算法。

他們的工作在預印本服務(wù)器Arxiv.org上發(fā)表的論文(“ Stacked Capsule Autoencoders ”)中有所描述。
對于不熟悉的人來(lái)說(shuō),膠囊系統通過(guò)幾何地解釋其相互關(guān)聯(lián)的部分的有組織的集合來(lái)理解對象。針對各種對象屬性(如位置,大小和色調)單獨激活的數學(xué)函數(膠囊)的集合被添加到卷積神經(jīng)網(wǎng)絡(luò )(一種通常用于分析視覺(jué)圖像的AI模型)上,并且它們的一些輸出是重用以形成更高階膠囊的更“穩定”的表示。由于這些表示在整個(gè)過(guò)程中保持完整,因此膠囊系統可以利用它們來(lái)識別對象,即使在視點(diǎn)發(fā)生變化時(shí)也是如此,例如當交換或轉換部件的位置時(shí)。
關(guān)于膠囊系統的另一個(gè)獨特之處 他們注意路線(xiàn)。與所有深度神經(jīng)網(wǎng)絡(luò )一樣,膠囊的功能被安排在互連層中,從輸入數據傳輸“信號”并緩慢調整每個(gè)連接的突觸強度 - 權重。(這就是他們如何提取特征并學(xué)習如何進(jìn)行預測。)但是在涉及膠囊的情況下,權重是根據前一層函數預測下一層輸出的能力動(dòng)態(tài)計算的。
Hinton及其同事最近的研究工作是研究一種神經(jīng)編碼器,它可以查看圖像樣本并嘗試消除物體的存在和姿勢。它使用解碼器進(jìn)行訓練,該解碼器使用姿勢預測的混合來(lái)預測已經(jīng)發(fā)現的圖像部分的姿勢(通過(guò)自動(dòng)編碼器分割),并且將每個(gè)圖像像素建模為由變換部分做出的預測的混合。然后在未標記的數據上學(xué)習膠囊系統,并且將存在的向量(數學(xué)表示)聚集在一起以捕獲整個(gè)對象和部分之間的空間關(guān)系。
共同作者注意到,對象膠囊的存在概率向量更有可能形成緊密的聚類(lèi),并且為每個(gè)緊密聚類(lèi)分配一個(gè)類(lèi)會(huì )在街景房號數據集(a)上進(jìn)行無(wú)監督分類(lèi),從而產(chǎn)生最先進(jìn)的結果。來(lái)自Google街景圖像的超過(guò)600,000個(gè)房屋號碼真實(shí)圖像的數據集)。此外,這種實(shí)現導致MNIST(一種手寫(xiě)數字語(yǔ)料庫)的近乎最先進(jìn)的結果,并且通過(guò)少于300個(gè)參數進(jìn)一步改善了性能。
