Demis Hassabis創(chuàng )立了DeepMind的目標是通過(guò)重新創(chuàng )建情報本身來(lái)解鎖一些世界上最棘手的問(wèn)題的答案。他的野心仍然只是雄心勃勃,但是哈薩比斯和他的同事們在本周實(shí)現這一目標的步伐越來(lái)越近,在《自然 》雜志上發(fā)表了論文,解決了生物醫學(xué)面臨的兩個(gè)巨大挑戰。

第一篇論文起源于DeepMind的神經(jīng)科學(xué)團隊,提出了AI研究的發(fā)展可以作為理解大腦如何學(xué)習的框架的觀(guān)點(diǎn)。另一篇論文側重于DeepMind在蛋白質(zhì)折疊方面的工作-該工作于2018年12月進(jìn)行了詳細介紹。這兩篇論文均緊隨DeepMind在將AI用于預測急性腎損傷或AKI以及挑戰性游戲環(huán)境等方面的工作之后。進(jìn)行圍棋,將棋,象棋,數十種Atari游戲以及Activision Blizzard的StarCraft II。
哈薩比斯說(shuō):“很高興看到我們在[機器學(xué)習]中的研究如何指向對大腦中起作用的學(xué)習機制的新理解。” “ [另外,了解]蛋白質(zhì)如何折疊是一個(gè)長(cháng)期存在的基本科學(xué)問(wèn)題,有朝一日可能成為解鎖針對各種疾病的新療法的關(guān)鍵,從阿爾茨海默氏癥和帕金森氏癥到囊性纖維化和亨廷頓氏癥,人們都認為錯折疊的蛋白質(zhì)會(huì )扮演一個(gè)角色。”
在有關(guān)多巴胺的論文中,來(lái)自DeepMind和哈佛大學(xué)的團隊研究了大腦是否代表了未來(lái)可能的回報,而不是作為一個(gè)單一的平均值,而是作為一個(gè)概率分布,該數學(xué)函數提供了發(fā)生不同結果的可能性。他們從小鼠腹側被蓋區域(控制多巴胺向邊緣和皮質(zhì)區域釋放的中腦結構)的錄音中發(fā)現了“ 分布強化學(xué)習 ”的證據。有證據表明,獎勵預測是同時(shí)并行地由多個(gè)未來(lái)結果表示的。

人工智能系統模仿人類(lèi)生物學(xué)的想法并不新鮮。荷蘭拉德布德大學(xué)研究人員進(jìn)行的一項研究發(fā)現,遞歸神經(jīng)網(wǎng)絡(luò )(RNN)可以預測人腦如何處理感官信息,特別是視覺(jué)刺激。但是,在大多數情況下,這些發(fā)現為機器學(xué)習提供了信息,而不是神經(jīng)科學(xué)研究。
2017年,DeepMind通過(guò)模仿前額葉皮層行為的AI算法和發(fā)揮海馬作用的“記憶”網(wǎng)絡(luò )構建了人腦的解剖模型,從而使該系統的性能大大優(yōu)于大多數機器學(xué)習模型架構。最近,DeepMind將注意力轉向了理性機器,產(chǎn)生了能夠將類(lèi)人推理能力和邏輯應用于解決問(wèn)題的合成神經(jīng)網(wǎng)絡(luò )。在2018年,DeepMind的研究人員進(jìn)行了一項實(shí)驗,表明前額葉皮層并不像過(guò)去那樣依賴(lài)突觸權重變化來(lái)學(xué)習規則結構,而是使用直接在多巴胺中編碼的基于抽象模型的信息。
強化學(xué)習涉及僅使用獎勵和懲罰作為教學(xué)信號來(lái)學(xué)習行為的算法。獎勵或多或少地增強了導致其獲得的任何行為。
正如研究人員指出的那樣,解決問(wèn)題需要了解當前的行動(dòng)如何帶來(lái)未來(lái)的回報。這就是時(shí)差學(xué)習(TD)算法出現的地方-他們試圖預測即時(shí)獎勵以及在下一個(gè)時(shí)刻自己的獎勵預測。當這帶來(lái)更多信息時(shí),算法會(huì )將新的預測與預期的進(jìn)行比較。如果兩者不同,則使用此“時(shí)間差異”將舊的預測調整為新的預測,以使鏈條變得更加準確。

強化學(xué)習技術(shù)已隨著(zhù)時(shí)間的流逝而得到改進(jìn),以提高培訓的效率,最近開(kāi)發(fā)的一種技術(shù)稱(chēng)為
由特定動(dòng)作產(chǎn)生的未來(lái)獎勵的數量通常不是已知數量,而是涉及一些隨機性。在這種情況下,標準的TD算法會(huì )學(xué)會(huì )預測平均會(huì )收到的未來(lái)獎勵,而分布式強化算法會(huì )預測整個(gè)獎勵范圍。
這與動(dòng)物大腦中多巴胺神經(jīng)元的功能無(wú)異。一些神經(jīng)元表示獎勵預測錯誤,這意味著(zhù)它們在收到比預期更多或更少的獎勵時(shí)會(huì )觸發(fā)(即發(fā)送電信號)。這就是所謂的獎勵預測誤差理論-計算獎勵預測誤差,通過(guò)多巴胺信號將其傳播到大腦,并用于驅動(dòng)學(xué)習。
分布強化學(xué)習擴展了多巴胺的典范獎勵預測誤差理論。以前曾有人認為,獎勵預測僅表示為一個(gè)數量,支持對隨機(即,隨機確定)結果的平均值(或平均值)的了解,但是這項工作表明大腦實(shí)際上考慮了多種預測。DeepMind研究科學(xué)家Zeb Kurth-Nelson說(shuō):“在大腦中,強化學(xué)習是由多巴胺驅動(dòng)的。” “我們在……論文中發(fā)現,每個(gè)多巴胺細胞都經(jīng)過(guò)了特殊的調整,可以使細胞群以前所未有的方式非常有效地重新布線(xiàn)這些神經(jīng)網(wǎng)絡(luò )。”
最簡(jiǎn)單的分布增強算法之一-分布TD-假定基于獎勵的學(xué)習受獎勵預測錯誤驅動(dòng),該錯誤會(huì )發(fā)出已接收到的獎勵和預期獎勵之間的差異。但是,與傳統的強化學(xué)習相反,在這種預測中,預測被表示為一個(gè)單一的數量(即所有潛在結果的平均值,以其概率加權),而分布強化則使用了幾種預測,這些預測對即將來(lái)臨的獎勵的樂(lè )觀(guān)程度各不相同。
分布式TD算法通過(guò)計算描述連續預測之間差異的預測誤差來(lái)學(xué)習這組預測。內部的一組預測變量將不同的變換應用于其各自的獎勵預測錯誤,從而使某些預測變量有選擇地“放大”或“超重”其獎勵錯誤。當獎勵預測誤差為正時(shí),某些預測器會(huì )學(xué)習到對應于分布的較高部分的更樂(lè )觀(guān)的獎勵,而當獎勵預測為負時(shí),他們將學(xué)習更多的悲觀(guān)預測。這就導致了悲觀(guān)或樂(lè )觀(guān)價(jià)值估計的多樣性,這些估計捕獲了獎勵的全部分配。
“在過(guò)去的三十年中,我們在A(yíng)I中最好的強化學(xué)習模型…幾乎完全專(zhuān)注于學(xué)習以預測未來(lái)的平均回報。但這并不能反映現實(shí)生活。” DeepMind研究科學(xué)家Will Dabney說(shuō)。“ [實(shí)際上有可能]時(shí)刻預測獎勵成果的整個(gè)分布。”
分布式強化學(xué)習的執行很簡(jiǎn)單,但是與機器學(xué)習系統一起使用時(shí)非常有效-它可以將性能提高兩倍或更多。那可能是因為了解獎勵的分配會(huì )給系統提供一個(gè)更強大的信號,以塑造其表
分布式學(xué)習與多巴胺
然后,該研究試圖確定大腦是否使用某種形式的分布TD。研究小組分析了11只小鼠在執行刺激任務(wù)時(shí)制作的多巴胺細胞的記錄。五只老鼠接受了概率可變的任務(wù)訓練,而六只接受了幅度可變的任務(wù)的訓練。第一組暴露于四種隨機氣味中的一種,然后噴水,吹氣或什么也沒(méi)有。(第一種氣味表示獲得獎勵的機會(huì )為90%,第二種,第三種和第四種氣味表示獲得獎勵的機會(huì )分別為50%,10%和90%。)
多巴胺細胞改變發(fā)射速率以指示預測誤差,這意味著(zhù)當收到的獎勵恰好是細胞預測的確切大小時(shí),預測誤差應該為零??紤]到這一點(diǎn),研究人員確定了每個(gè)細胞的反轉點(diǎn)-多巴胺細胞不會(huì )改變其發(fā)射速率的獎勵大小-并比較了它們是否存在差異。
他們發(fā)現,某些單元格預測了大量的獎勵,而另一些單元格則預測了很少的獎勵,遠遠超出了可變性可能帶來(lái)的差異。他們在測量了不同細胞展現出陽(yáng)性預期和陰性預期的擴增程度之后,再次看到了多樣性。他們觀(guān)察到,放大其陽(yáng)性預測誤差的相同細胞具有更高的逆轉點(diǎn),表明它們已被調整以期望更高的獎勵量。
在最后的實(shí)驗中,研究人員試圖從多巴胺細胞的發(fā)射速率中解碼獎勵分布。他們報告了成功:通過(guò)推理,他們設法重建了與老鼠從事的任務(wù)中的實(shí)際獎勵分配相匹配的分配。
“在研究來(lái)自AI的思想的過(guò)程中,很容易將注意力集中在從AI到神經(jīng)科學(xué)的思想流中。但是,我們認為結果對于A(yíng)I同樣重要。” DeepMind神經(jīng)科學(xué)研究主任Matt Botvinick說(shuō)。“當我們能夠證明大腦采用了我們在A(yíng)I工作中所使用的算法時(shí),就增強了我們的信心,即這些算法從長(cháng)遠來(lái)看將是有用的-它們可以很好地擴展到復雜的現實(shí)世界中,與其他計算過(guò)程的接口很好。其中涉及一種驗證:如果大腦正在做,那可能是個(gè)好主意。”
蛋白質(zhì)折疊
兩篇論文的第二篇詳細介紹了DeepMind在蛋白質(zhì)折疊領(lǐng)域的工作,這項工作始于兩年前。正如研究人員所指出的那樣,預測蛋白質(zhì)形狀的能力是了解蛋白質(zhì)如何在體內發(fā)揮作用的基礎。這不僅對健康有影響,而且可以幫助應對許多社會(huì )挑戰,例如管理污染物和減少廢物。
蛋白質(zhì)的配方(由氨基酸組成的大分子組成,氨基酸是組織,肌肉,頭發(fā),酶,抗體和其他生物的基本組成部分的基本組成部分)在DNA中編碼。這些遺傳定義界定了它們的三維結構,從而決定了它們的功能。例如,抗體蛋白質(zhì)的形狀像“ Y”形,使它們能夠鎖定在病毒和細菌上,而膠原蛋白的形狀像繩索,在軟骨,骨骼,皮膚和韌帶之間傳遞張力。
Demis Hassabis創(chuàng )立了DeepMind的目標是通過(guò)重新創(chuàng )建情報本身來(lái)解鎖一些世界上最棘手的問(wèn)題的答案。他的野心仍然只是雄心勃勃,但是哈薩比斯和他的同事們在本周實(shí)現這一目標的步伐越來(lái)越近,在《自然 》雜志上發(fā)表了論文,解決了生物醫學(xué)面臨的兩個(gè)巨大挑戰。
第一篇論文起源于DeepMind的神經(jīng)科學(xué)團隊,提出了AI研究的發(fā)展可以作為理解大腦如何學(xué)習的框架的觀(guān)點(diǎn)。另一篇論文側重于DeepMind在蛋白質(zhì)折疊方面的工作-該工作于2018年12月進(jìn)行了詳細介紹。這兩篇論文均緊隨DeepMind在將AI用于預測急性腎損傷或AKI以及挑戰性游戲環(huán)境等方面的工作之后。進(jìn)行圍棋,將棋,象棋,數十種Atari游戲以及Activision Blizzard的StarCraft II。
哈薩比斯說(shuō):“很高興看到我們在[機器學(xué)習]中的研究如何指向對大腦中起作用的學(xué)習機制的新理解。” “ [另外,了解]蛋白質(zhì)如何折疊是一個(gè)長(cháng)期存在的基本科學(xué)問(wèn)題,有朝一日可能成為解鎖針對各種疾病的新療法的關(guān)鍵,從阿爾茨海默氏癥和帕金森氏癥到囊性纖維化和亨廷頓氏癥,人們都認為錯折疊的蛋白質(zhì)會(huì )扮演一個(gè)角色。”
在有關(guān)多巴胺的論文中,來(lái)自DeepMind和哈佛大學(xué)的團隊研究了大腦是否代表了未來(lái)可能的回報,而不是作為一個(gè)單一的平均值,而是作為一個(gè)概率分布,該數學(xué)函數提供了發(fā)生不同結果的可能性。他們從小鼠腹側被蓋區域(控制多巴胺向邊緣和皮質(zhì)區域釋放的中腦結構)的錄音中發(fā)現了“ 分布強化學(xué)習 ”的證據。有證據表明,獎勵預測是同時(shí)并行地由多個(gè)未來(lái)結果表示的。
人工智能系統模仿人類(lèi)生物學(xué)的想法并不新鮮。荷蘭拉德布德大學(xué)研究人員進(jìn)行的一項研究發(fā)現,遞歸神經(jīng)網(wǎng)絡(luò )(RNN)可以預測人腦如何處理感官信息,特別是視覺(jué)刺激。但是,在大多數情況下,這些發(fā)現為機器學(xué)習提供了信息,而不是神經(jīng)科學(xué)研究。
2017年,DeepMind通過(guò)模仿前額葉皮層行為的AI算法和發(fā)揮海馬作用的“記憶”網(wǎng)絡(luò )構建了人腦的解剖模型,從而使該系統的性能大大優(yōu)于大多數機器學(xué)習模型架構。最近,DeepMind將注意力轉向了理性機器,產(chǎn)生了能夠將類(lèi)人推理能力和邏輯應用于解決問(wèn)題的合成神經(jīng)網(wǎng)絡(luò )。在2018年,DeepMind的研究人員進(jìn)行了一項實(shí)驗,表明前額葉皮層并不像過(guò)去那樣依賴(lài)突觸權重變化來(lái)學(xué)習規則結構,而是使用直接在多巴胺中編碼的基于抽象模型的信息。
強化學(xué)習與神經(jīng)元
強化學(xué)習涉及僅使用獎勵和懲罰作為教學(xué)信號來(lái)學(xué)習行為的算法。獎勵或多或少地增強了導致其獲得的任何行為。
正如研究人員指出的那樣,解決問(wèn)題需要了解當前的行動(dòng)如何帶來(lái)未來(lái)的回報。這就是時(shí)差學(xué)習(TD)算法出現的地方-他們試圖預測即時(shí)獎勵以及在下一個(gè)時(shí)刻自己的獎勵預測。當這帶來(lái)更多信息時(shí),算法會(huì )將新的預測與預期的進(jìn)行比較。如果兩者不同,則使用此“時(shí)間差異”將舊的預測調整為新的預測,以使鏈條變得更加準確。
強化學(xué)習技術(shù)已隨著(zhù)時(shí)間的流逝而得到改進(jìn),以提高培訓的效率,最近開(kāi)發(fā)的一種技術(shù)稱(chēng)為分布式強化學(xué)習。
分布強化學(xué)習
由特定動(dòng)作產(chǎn)生的未來(lái)獎勵的數量通常不是已知數量,而是涉及一些隨機性。在這種情況下,標準的TD算法會(huì )學(xué)會(huì )預測平均會(huì )收到的未來(lái)獎勵,而分布式強化算法會(huì )預測整個(gè)獎勵范圍。
這與動(dòng)物大腦中多巴胺神經(jīng)元的功能無(wú)異。一些神經(jīng)元表示獎勵預測錯誤,這意味著(zhù)它們在收到比預期更多或更少的獎勵時(shí)會(huì )觸發(fā)(即發(fā)送電信號)。這就是所謂的獎勵預測誤差理論-計算獎勵預測誤差,通過(guò)多巴胺信號將其傳播到大腦,并用于驅動(dòng)學(xué)習。
分布強化學(xué)習擴展了多巴胺的典范獎勵預測誤差理論。以前曾有人認為,獎勵預測僅表示為一個(gè)數量,支持對隨機(即,隨機確定)結果的平均值(或平均值)的了解,但是這項工作表明大腦實(shí)際上考慮了多種預測。DeepMind研究科學(xué)家Zeb Kurth-Nelson說(shuō):“在大腦中,強化學(xué)習是由多巴胺驅動(dòng)的。” “我們在……論文中發(fā)現,每個(gè)多巴胺細胞都經(jīng)過(guò)了特殊的調整,可以使細胞群以前所未有的方式非常有效地重新布線(xiàn)這些神經(jīng)網(wǎng)絡(luò )。”
最簡(jiǎn)單的分布增強算法之一-分布TD-假定基于獎勵的學(xué)習受獎勵預測錯誤驅動(dòng),該錯誤會(huì )發(fā)出已接收到的獎勵和預期獎勵之間的差異。但是,與傳統的強化學(xué)習相反,在這種預測中,預測被表示為一個(gè)單一的數量(即所有潛在結果的平均值,以其概率加權),而分布強化則使用了幾種預測,這些預測對即將來(lái)臨的獎勵的樂(lè )觀(guān)程度各不相同。
分布式TD算法通過(guò)計算描述連續預測之間差異的預測誤差來(lái)學(xué)習這組預測。內部的一組預測變量將不同的變換應用于其各自的獎勵預測錯誤,從而使某些預測變量有選擇地“放大”或“超重”其獎勵錯誤。當獎勵預測誤差為正時(shí),某些預測器會(huì )學(xué)習到對應于分布的較高部分的更樂(lè )觀(guān)的獎勵,而當獎勵預測為負時(shí),他們將學(xué)習更多的悲觀(guān)預測。這就導致了悲觀(guān)或樂(lè )觀(guān)價(jià)值估計的多樣性,這些估計捕獲了獎勵的全部分配。
我們可以根據其發(fā)射率來(lái)解碼獎勵的分布?;疑幱皡^域是任務(wù)中遇到的獎勵的真實(shí)分布。
“在過(guò)去的三十年中,我們在A(yíng)I中最好的強化學(xué)習模型…幾乎完全專(zhuān)注于學(xué)習以預測未來(lái)的平均回報。但這并不能反映現實(shí)生活。” DeepMind研究科學(xué)家Will Dabney說(shuō)。“ [實(shí)際上有可能]時(shí)刻預測獎勵成果的整個(gè)分布。”
分布式強化學(xué)習的執行很簡(jiǎn)單,但是與機器學(xué)習系統一起使用時(shí)非常有效-它可以將性能提高兩倍或更多。那可能是因為了解獎勵的分配會(huì )給系統提供一個(gè)更強大的信號,以塑造其表示形式,使其對環(huán)境或給定政策的變化更加穩健。
分布式學(xué)習與多巴胺
然后,該研究試圖確定大腦是否使用某種形式的分布TD。研究小組分析了11只小鼠在執行刺激任務(wù)時(shí)制作的多巴胺細胞的記錄。五只老鼠接受了概率可變的任務(wù)訓練,而六只接受了幅度可變的任務(wù)的訓練。第一組暴露于四種隨機氣味中的一種,然后噴水,吹氣或什么也沒(méi)有。(第一種氣味表示獲得獎勵的機會(huì )為90%,第二種,第三種和第四種氣味表示獲得獎勵的機會(huì )分別為50%,10%和90%。)
多巴胺細胞改變發(fā)射速率以指示預測誤差,這意味著(zhù)當收到的獎勵恰好是細胞預測的確切大小時(shí),預測誤差應該為零??紤]到這一點(diǎn),研究人員確定了每個(gè)細胞的反轉點(diǎn)-多巴胺細胞不會(huì )改變其發(fā)射速率的獎勵大小-并比較了它們是否存在差異。
他們發(fā)現,某些單元格預測了大量的獎勵,而另一些單元格則預測了很少的獎勵,遠遠超出了可變性可能帶來(lái)的差異。他們在測量了不同細胞展現出陽(yáng)性預期和陰性預期的擴增程度之后,再次看到了多樣性。他們觀(guān)察到,放大其陽(yáng)性預測誤差的相同細胞具有更高的逆轉點(diǎn),表明它們已被調整以期望更高的獎勵量。
在最后的實(shí)驗中,研究人員試圖從多巴胺細胞的發(fā)射速率中解碼獎勵分布。他們報告了成功:通過(guò)推理,他們設法重建了與老鼠從事的任務(wù)中的實(shí)際獎勵分配相匹配的分配。
“在研究來(lái)自AI的思想的過(guò)程中,很容易將注意力集中在從AI到神經(jīng)科學(xué)的思想流中。但是,我們認為結果對于A(yíng)I同樣重要。” DeepMind神經(jīng)科學(xué)研究主任Matt Botvinick說(shuō)。“當我們能夠證明大腦采用了我們在A(yíng)I工作中所使用的算法時(shí),就增強了我們的信心,即這些算法從長(cháng)遠來(lái)看將是有用的-它們可以很好地擴展到復雜的現實(shí)世界中,與其他計算過(guò)程的接口很好。其中涉及一種驗證:如果大腦正在做,那可能是個(gè)好主意。”
蛋白質(zhì)折疊
兩篇論文的第二篇詳細介紹了DeepMind在蛋白質(zhì)折疊領(lǐng)域的工作,這項工作始于兩年前。正如研究人員所指出的那樣,預測蛋白質(zhì)形狀的能力是了解蛋白質(zhì)如何在體內發(fā)揮作用的基礎。這不僅對健康有影響,而且可以幫助應對許多社會(huì )挑戰,例如管理污染物和減少廢物。
蛋白質(zhì)的配方(由氨基酸組成的大分子組成,氨基酸是組織,肌肉,頭發(fā),酶,抗體和其他生物的基本組成部分的基本組成部分)在DNA中編碼。這些遺傳定義界定了它們的三維結構,從而決定了它們的功能。例如,抗體蛋白質(zhì)的形狀像“ Y”形,使它們能夠鎖定在病毒和細菌上,而膠原蛋白的形狀像繩索,在軟骨,骨骼,皮膚和韌帶之間傳遞張力。
但是眾所周知,很難在幾毫秒內發(fā)生蛋白質(zhì)折疊。DNA僅包含有關(guān)氨基酸殘基鏈的信息,而不包含那些鏈的最終形式。實(shí)際上,科學(xué)家估計,由于氨基酸之間相互作用的數量無(wú)法估量,要找出典型蛋白質(zhì)的所有可能構型,然后再確定正確的結構,就需要花費超過(guò)138億年的時(shí)間(這種現象被稱(chēng)為列文塔爾悖論)。 。
因此,DeepMind團隊率先采用了名為AlphaFold的機器學(xué)習系統,而不是依靠常規方法來(lái)預測蛋白質(zhì)結構,例如X射線(xiàn)晶體學(xué),核磁共振和低溫電子顯微鏡。它可以預測每對氨基酸之間的距離以及連接的化學(xué)鍵之間的扭轉角,將其合并為一個(gè)分數。單獨的優(yōu)化步驟通過(guò)梯度下降(一種改進(jìn)結構以更好地與預測匹配的數學(xué)方法)細化分數,使用所有距離的總和來(lái)估計擬議結構與正確答案的接近程度。
迄今為止,最成功的蛋白質(zhì)折疊預測方法已經(jīng)利用了所謂的片段裝配,即通過(guò)采樣過(guò)程創(chuàng )建結構,從而最大程度地減少了來(lái)自蛋白質(zhì)數據庫中結構的統計潛力。(顧名思義,蛋白質(zhì)數據庫是有關(guān)蛋白質(zhì),核酸和其他復雜裝配體的3D結構信息的開(kāi)源存儲庫。)在片段裝配中,通常通過(guò)更改結構的形狀來(lái)反復修改結構假設。一段較短的時(shí)間,同時(shí)保留降低電位的變化,最終導致電位低的結構。
借助AlphaFold,DeepMind的研究團隊專(zhuān)注于從頭開(kāi)始為目標形狀建模而無(wú)需以已解決的蛋白質(zhì)為模板的問(wèn)題。他們使用上述評分功能,搜索了蛋白質(zhì)結構,找到了符合其預測的結構,并用新的蛋白質(zhì)片段替換了蛋白質(zhì)結構的片段。他們還訓練了一個(gè)生成系統來(lái)發(fā)明新片段,并與梯度下降優(yōu)化一起使用以改善結構得分。
該模型對從31,247個(gè)域中從蛋白質(zhì)數據庫中提取的結構進(jìn)行了訓練,這些結構被分為分別包含29,427和1,820個(gè)蛋白質(zhì)的訓練集和測試集。(本文中的結果反映了包含377個(gè)域的測試子集。)培訓被劃分為八張圖形卡,大約花了五天的時(shí)間才能完成600,000個(gè)步驟。
經(jīng)過(guò)全面訓練的網(wǎng)絡(luò )可以預測每對氨基酸與其作為輸入基因序列的距離。具有900個(gè)氨基酸的序列可翻譯為約40萬(wàn)個(gè)預測。
自1994年以來(lái),AlphaFold參加了2018年12月的蛋白質(zhì)結構預測關(guān)鍵評估比賽(CASP13),該競賽每?jì)赡昱e行一次,為團體提供了測試和驗證其蛋白質(zhì)折疊方法的機會(huì )。對通過(guò)實(shí)驗已經(jīng)解決但其結構尚未公開(kāi)的蛋白質(zhì)結構進(jìn)行預測評估,證明了方法是否可以推廣到新蛋白質(zhì)。
AlphaFold通過(guò)預測43種蛋白質(zhì)中24種蛋白質(zhì)的最準確結構贏(yíng)得了2018年CASP13。DeepMind貢獻了五種材料,這些材料是從系統的三種不同變體產(chǎn)生的八種結構中選擇的,所有這些結構均使用了基于A(yíng)I模型距離預測的電位,其中一些結構是由梯度下降系統生成的。DeepMind報告說(shuō),AlphaFold在免費建模類(lèi)別中表現特別出色,可以在沒(méi)有類(lèi)似模板的情況下創(chuàng )建模型。實(shí)際上,它在該類(lèi)別中獲得了52.8的z分數總和(衡量系統相對于平均水平的性能),領(lǐng)先于次佳模型的36.6。
UCL生物信息學(xué)小組負責人David Jones寫(xiě)道:“蛋白質(zhì)的3D結構可能是科學(xué)家可以獲得的最有用的信息,以幫助了解蛋白質(zhì)的作用及其在細胞中的工作方式。”項目的一部分。“確定蛋白質(zhì)結構的實(shí)驗技術(shù)既費時(shí)又昂貴,因此迫切需要更好的計算機算法來(lái)直接從編碼蛋白質(zhì)的基因序列中計算蛋白質(zhì)的結構,而DeepMind致力于將AI應用到這個(gè)長(cháng)期存在的問(wèn)題上在分子生物學(xué)中是絕對的進(jìn)步。最終目標是確定每種人類(lèi)蛋白質(zhì)的準確結構,這最終可能會(huì )導致分子醫學(xué)的新發(fā)現。”
