麻省理工學(xué)院和伍茲霍爾海洋學(xué)研究所(WHOI)的研究人員發(fā)明了一種自主的機器人系統,可以有效地探測出在廣闊的,未經(jīng)勘探的水中最科學(xué)有趣的但很難找到的采樣點(diǎn)。
環(huán)境科學(xué)家通常對在環(huán)境中最有趣的位置或“最大值”處收集樣本感興趣。一個(gè)例子可能是泄漏化學(xué)品的來(lái)源,該化學(xué)品的濃度最高,并且大部分不受外部因素破壞。但是最大值可以是研究人員想要測量的任何可量化值,例如水深或暴露于空氣中的珊瑚礁部分。

部署尋求最大性能的機器人的工作受到效率和準確性問(wèn)題的困擾。通常,機器人會(huì )像割草機一樣來(lái)回移動(dòng)以覆蓋一個(gè)區域,這很耗時(shí),并且會(huì )收集許多有趣的樣本。一些機器人會(huì )感知并遵循高濃度的線(xiàn)索找到其泄漏源。但是它們可能會(huì )被誤導。例如,化學(xué)物質(zhì)可能被捕獲并堆積在遠離源頭的縫隙中。機器人可能會(huì )將那些高濃度點(diǎn)識別為源頭,但距離還很近。
在國際智能機器人與系統國際會(huì )議(IROS)上發(fā)表的一篇論文中,研究人員描述了“ PLUMES”,該系統使自主移動(dòng)機器人能夠更快,更高效地實(shí)現最大零位歸零。PLUMES利用概率技術(shù)來(lái)預測哪些路徑可能導致最大值,同時(shí)導航障礙物,移動(dòng)電流和其他變量。在收集樣本時(shí),它會(huì )權衡所學(xué)的內容,以確定是繼續沿著(zhù)有希望的道路還是尋找未知的事物-這可能會(huì )保留更多有價(jià)值的樣本。
重要的是,PLUMES不會(huì )被困在那些棘手的高濃度點(diǎn)上而到達目的地。“這很重要,因為很容易以為您發(fā)現了黃金,但實(shí)際上您已經(jīng)找到了傻瓜的黃金,”第一作者,計算機科學(xué)與人工智能實(shí)驗室(CSAIL)和MIT-WHOI聯(lián)合計劃。

研究人員建造了由PLUMES驅動(dòng)的機器人船,該船成功地發(fā)現了巴巴多斯Bellairs邊緣礁中最裸露的珊瑚頭,這意味著(zhù)它位于最淺的位置,這對于研究日曬如何影響珊瑚生物非常有用。在不同的水下環(huán)境中進(jìn)行的100次模擬試驗中,虛擬PLUMES機器人在分配的時(shí)間范圍內還連續收集了比傳統覆蓋方法多7到8倍的最大值樣本。
“ PLUMES進(jìn)行了最少的探索,以找到最大的探索量,然后迅速集中精力在那里收集有價(jià)值的樣本,”研究第一作者,CSAIL和MIT-WHOI聯(lián)合計劃博士生Genevieve Flaspohler說(shuō)。
在論文中加入Preston和Flaspohler的是:WHOI應用海洋物理與工程系的科學(xué)家Anna PM Michel和Yogesh Girdhar。尼古拉斯·羅伊(Nicholas Roy),加拿大航空航天學(xué)會(huì )(CSAIL)和航空航天系的教授。
導航漏洞利用-探索權衡
PLUMES的一個(gè)關(guān)鍵見(jiàn)解是使用從概率到推理的技術(shù)來(lái)解決眾所周知的復雜權衡問(wèn)題,即權衡利用有關(guān)環(huán)境的知識與探索可能更有價(jià)值的未知區域之間的關(guān)系。
Flaspohler說(shuō):“最大程度地尋求最大的挑戰是,讓機器人平衡從已知高度集中的地點(diǎn)獲取的信息和探索對其不太了解的地方之間的平衡。” “如果機器人進(jìn)行的探索過(guò)多,則最多不會(huì )收集到足夠的有價(jià)值的樣本。如果探索得不夠充分,可能會(huì )完全錯過(guò)最大值。”
置于新環(huán)境中的PLUMES機器人使用一種稱(chēng)為高斯過(guò)程的概率統計模型對環(huán)境變量(例如化學(xué)濃度)進(jìn)行預測,并估計感應不確定性。然后,PLUMES生成機器人可以采用的可能路徑的分布,并使用估計值和不確定性通過(guò)允許機器人進(jìn)行探索和利用的程度對每個(gè)路徑進(jìn)行排名。
首先,PLUMES將選擇隨機探索環(huán)境的路徑。但是,每個(gè)樣本都會(huì )提供有關(guān)周?chē)h(huán)境目標值的新信息,例如化學(xué)物質(zhì)濃度最高或深度最淺的斑點(diǎn)。高斯過(guò)程模型利用該數據來(lái)縮小機器人可以從其給定位置遵循的路徑,以從具有更高價(jià)值的位置進(jìn)行采樣。PLUMES使用一種新穎的目標函數(通常在機器學(xué)習中使用以最大化獎勵)來(lái)確定機器人是應該利用過(guò)去的知識還是探索新的領(lǐng)域。
“光明化”的道路
在哪里收集下一個(gè)樣本的決定取決于系統從當前位置“半透明”所有可能的未來(lái)操作的能力。為此,它利用了改進(jìn)的蒙特卡洛樹(shù)搜索(MCTS)版本,該版本是一種路徑規劃技術(shù),廣泛用于為掌握復雜游戲(例如Go和Chess)的人工智能系統提供動(dòng)力。
MCTS使用決策樹(shù)(連接的節點(diǎn)和線(xiàn)的圖)來(lái)模擬達成最終獲勝動(dòng)作所需的路徑或移動(dòng)順序。但是在游戲中,可能路徑的空間是有限的。在未知的環(huán)境中,隨著(zhù)實(shí)時(shí)變化的動(dòng)態(tài)變化,空間實(shí)際上是無(wú)限的,從而使規劃變得極為困難。研究人員設計了“連續觀(guān)測MCTS”,它利用高斯過(guò)程和新穎的目標函數來(lái)搜索可能的真實(shí)路徑的繁瑣空間。

此MCTS決策樹(shù)的根始于“信念”節點(diǎn),這是機器人可以采取的下一個(gè)直接步驟。該節點(diǎn)包含直到那時(shí)的機器人動(dòng)作和觀(guān)察的全部歷史記錄。然后,系統將樹(shù)從根部擴展到新的行和節點(diǎn),并查看導致開(kāi)發(fā)區和未開(kāi)發(fā)區的未來(lái)操作的幾個(gè)步驟。
然后,系統根據從先前的觀(guān)察中學(xué)到的一些模式,模擬如果從每個(gè)新生成的節點(diǎn)中抽取一個(gè)樣本將會(huì )發(fā)生什么。取決于最終模擬節點(diǎn)的值,整個(gè)路徑會(huì )獲得獎勵分數,值越高,意味著(zhù)采取的措施就越多。來(lái)自所有路徑的獎勵分數將回滾到根節點(diǎn)。機器人選擇得分最高的路徑,邁出一步,并收集真實(shí)的樣本。然后,它使用實(shí)際數據更新其高斯過(guò)程模型并重復“鹵化”過(guò)程。
Flaspohler說(shuō):“只要系統繼續幻化為在世界看不見(jiàn)的地區可能會(huì )有更高的價(jià)值,它就必須繼續探索。” “當它最終收斂于一個(gè)點(diǎn)時(shí),它估計是最大值,因為它無(wú)法沿著(zhù)路徑產(chǎn)生更高的幻覺(jué),然后便停止探索。”
現在,研究人員正在與WHOI的科學(xué)家合作,使用PLUMES驅動(dòng)的機器人在火山現場(chǎng)定位化學(xué)羽流,并研究北極融化的沿海河口中的甲烷釋放??茖W(xué)家對釋放到大氣中的化學(xué)氣體的來(lái)源很感興趣,但是這些測試場(chǎng)所可以跨越數百平方英里。
普雷斯頓說(shuō):“他們可以[使用PLUMES]花更少的時(shí)間去探索那個(gè)廣闊的區域,而真正專(zhuān)注于收集具有科學(xué)價(jià)值的樣本。”
