基于RNN的分層模型用于預(yù)測(cè)圖像的場(chǎng)景圖

2019-05-31 16:08:52 編輯：來源：

導(dǎo)讀沿著發(fā)達(dá)的河岸，物理障礙可以幫助遏制洪水和對(duì)抗侵蝕。在干旱地區(qū)，檢查水壩有助于在降雨后保留土壤并恢復(fù)受損的景觀。在建筑項(xiàng)目中，金屬

沿著發(fā)達(dá)的河岸，物理障礙可以幫助遏制洪水和對(duì)抗侵蝕。在干旱地區(qū)，檢查水壩有助于在降雨后保留土壤并恢復(fù)受損的景觀。在建筑項(xiàng)目中，金屬板可以為挖掘，斜坡上的擋土墻或永久性基礎(chǔ)提供支撐。所有這些應(yīng)用都可以通過使用板樁，從扁平材料折疊并垂直驅(qū)動(dòng)到地面以形成墻壁和穩(wěn)定土壤來解決。適當(dāng)?shù)耐寥婪€(wěn)定性是建筑，采礦和農(nóng)業(yè)等行業(yè)可持續(xù)土地管理的關(guān)鍵; 和土地退化，特定地形造成的生態(tài)系統(tǒng)服務(wù)的喪失，是氣候變化的驅(qū)動(dòng)因素，估計(jì)每年的成本高達(dá)10萬億美元。

有了這個(gè)動(dòng)力，哈佛大學(xué)Wyss生物啟發(fā)工程研究所的機(jī)器人專家團(tuán)隊(duì)開發(fā)出一種機(jī)器人，可以自動(dòng)將互鎖的鋼板樁打入土壤中。它建造的結(jié)構(gòu)可以用作擋土墻或檢查水壩以控制侵蝕。該研究將在即將舉行的2019年IEEE機(jī)器人與自動(dòng)化國際會(huì)議上發(fā)表。

傳統(tǒng)的板樁驅(qū)動(dòng)過程是非常耗能的。僅使用典型重型機(jī)械的一小部分重量來施加向下的力。另一方面，Wyss團(tuán)隊(duì)的“Romu”機(jī)器人能夠利用自身的重量將板樁推入地下。這可以通過其四個(gè)車輪中的每一個(gè)連接到單獨(dú)的線性致動(dòng)器來實(shí)現(xiàn)，這也允許其適應(yīng)不平坦的地形并確保樁垂直驅(qū)動(dòng)。從一個(gè)抬起的位置，Romu抓住一個(gè)板樁，然后降低其底盤，在一個(gè)車載振動(dòng)錘的幫助下將樁壓入土壤。通過再次在較高位置抓住樁并重復(fù)該過程，機(jī)器人可以驅(qū)動(dòng)比其自身的垂直運(yùn)動(dòng)范圍高得多的樁。在打樁到足夠的深度后，Romu推進(jìn)并安裝下一個(gè)樁，使其與前一個(gè)樁互鎖，從而形成連續(xù)的壁。一旦它使用了它所攜帶的所有樁，它就可以返回供應(yīng)緩存以進(jìn)行補(bǔ)貨。

這項(xiàng)研究源于Wyss研究所以前在建筑應(yīng)用的團(tuán)隊(duì)或成群機(jī)器人方面的工作。在受土墩建造白蟻啟發(fā)的工作中，核心教員Radhika Nagpal和高級(jí)研究科學(xué)家Justin Werfel設(shè)計(jì)了一個(gè)名為TERMES的自動(dòng)機(jī)器人建筑工作人員，他們的成員共同合作，用專門的磚塊建造復(fù)雜的結(jié)構(gòu)。Werfel和研究人員Nathan Melenbrink的進(jìn)一步研究探索了能夠構(gòu)建懸臂桁架結(jié)構(gòu)的支撐式爬升機(jī)器人，解決橋梁等應(yīng)用問題。然而，這些研究都沒有解決將結(jié)構(gòu)錨固到地面的挑戰(zhàn)。Romu項(xiàng)目首先是探索自動(dòng)化場(chǎng)地準(zhǔn)備和基礎(chǔ)安裝的方法，以便建立早期系統(tǒng); 隨著它的發(fā)展，

“除了在實(shí)驗(yàn)室進(jìn)行測(cè)試外，我們還證明了Romu在附近的海灘上運(yùn)行，”Melenbrink說。“這種演示可以成為圍繞建筑和土地管理自動(dòng)化機(jī)會(huì)的更廣泛對(duì)話的破冰者。我們有興趣與相關(guān)領(lǐng)域的專家合作，他們可能會(huì)看到我們正在開發(fā)的那種自動(dòng)化干預(yù)的潛在好處。 “

研究人員設(shè)想大量的Romu機(jī)器人作為集體或群體一起工作。他們?cè)谟?jì)算機(jī)模擬中證明，Romu機(jī)器人團(tuán)隊(duì)可以利用坡度陡峭等環(huán)境線索，以便在有效位置建造墻壁，有效利用有限的資源。“群體方法具有諸如通過并行性加速，對(duì)個(gè)體機(jī)器人丟失的魯棒性以及大型團(tuán)隊(duì)的可擴(kuò)展性等優(yōu)勢(shì)，”Werfel說。“通過實(shí)時(shí)響應(yīng)他們工作時(shí)實(shí)際遇到的情況，機(jī)器人可以適應(yīng)意外或變化的情況，而無需依賴大量的支持基礎(chǔ)設(shè)施來實(shí)現(xiàn)站點(diǎn)測(cè)量，通信或本地化等功能。”

“Terramanus ferromurus(Romu)這個(gè)名稱是對(duì)”機(jī)器生態(tài)學(xué)“概念的一種認(rèn)可，其中自動(dòng)系統(tǒng)可以引入自然環(huán)境作為新參與者，采取具體行動(dòng)來補(bǔ)充和促進(jìn)人類環(huán)境管理，“Melenbrink說。”未來，Terramanus“屬”可以通過執(zhí)行不同任務(wù)來保護(hù)或恢復(fù)生態(tài)系統(tǒng)服務(wù)的其他機(jī)器人來擴(kuò)展。根據(jù)他們的發(fā)現(xiàn)，該小組現(xiàn)在有興趣調(diào)查各種干預(yù)措施，包括用于支持干旱地區(qū)農(nóng)業(yè)的地下水保持結(jié)構(gòu)，以及用于颶風(fēng)防備的響應(yīng)性防洪堤建設(shè)。未來版本的機(jī)器人可以執(zhí)行其他干預(yù)措施，如噴灑土壤粘合劑或安裝淤泥圍欄，因此，這些機(jī)器人的家族可以在各種情況下穩(wěn)定土壤。

在許多環(huán)境保護(hù)或恢復(fù)的情景中，行動(dòng)的機(jī)會(huì)受到人力勞動(dòng)的可用性和重型機(jī)械的現(xiàn)場(chǎng)訪問的限制。更小，更通用的建筑機(jī)器可以提供解決方案。“很明顯，目前可用的工具和技術(shù)無法滿足許多退化景觀的需求，”Melenbrink說。“現(xiàn)在，在重型設(shè)備時(shí)代出現(xiàn)100年后，我們正在詢問是否有更具彈性和響應(yīng)性的方式來實(shí)現(xiàn)土地管理和恢復(fù)。”

“這種板樁驅(qū)動(dòng)機(jī)器人具有在自然環(huán)境中表現(xiàn)出的能力，這標(biāo)志著Wyss研究所的機(jī)器人和群體機(jī)器人能力可以在自然和人造環(huán)境中承受的路徑，在這種環(huán)境中，傳統(tǒng)機(jī)械，人力限制，或成本不足以防止經(jīng)常造成災(zāi)難性的后果。這個(gè)機(jī)器人也可以解決災(zāi)難性的情況，即停止危險(xiǎn)的化學(xué)品泄漏或放射性放射性液體使人類很難或不可能進(jìn)行干預(yù)，“Wyss研究所創(chuàng)始主任Donald Ingber醫(yī)學(xué)博士說，他也是血管的猶大民間教授HMS的生物學(xué)和波士頓兒童醫(yī)院的血管生物學(xué)項(xiàng)目，以及SEAS的生物工程教授。上海大學(xué)的研究人員最近開發(fā)了一種基于遞歸神經(jīng)網(wǎng)絡(luò)(RNN)的新方法來預(yù)測(cè)圖像中的場(chǎng)景圖。他們的方法包括由兩個(gè)基于注意力的RNN組成的模型，以及實(shí)體本地化組件。

在過去十年左右的時(shí)間里，人工智能(AI)領(lǐng)域的研究人員開發(fā)了各種自動(dòng)工具來管理，分析和檢索數(shù)字圖像。為了表示圖像的內(nèi)容，傳統(tǒng)方法通常使用關(guān)鍵字或多視圖特征。但是，依賴于功能或關(guān)鍵字通常會(huì)導(dǎo)致對(duì)圖像的理解有限，無法提供有關(guān)圖像的全面知識(shí)。

為了解決這些缺點(diǎn)，幾年前，斯坦福大學(xué)，馬克斯普朗克信息學(xué)研究所，雅虎實(shí)驗(yàn)室和Snapchat的一組研究人員提出使用“場(chǎng)景圖”，這是一種用于描述圖像中視覺概念的數(shù)據(jù)結(jié)構(gòu)。場(chǎng)景圖可以將圖像中描繪的場(chǎng)景的描述存儲(chǔ)為結(jié)構(gòu)化圖，其中節(jié)點(diǎn)表示對(duì)象信息，并且邊提供兩個(gè)節(jié)點(diǎn)之間的預(yù)測(cè)。

這些結(jié)構(gòu)化表示可以幫助用戶管理數(shù)字圖像。但是，預(yù)測(cè)場(chǎng)景圖通常具有挑戰(zhàn)性，因?yàn)樗枰行У墓ぞ邅碜R(shí)別對(duì)象，以及它們之間的屬性和交互。

雖然有幾種現(xiàn)有的預(yù)測(cè)場(chǎng)景圖的方法，但其中大多數(shù)都有很大的局限性。在他們的研究中，上海大學(xué)的研究人員著手開發(fā)一種基于神經(jīng)網(wǎng)絡(luò)的模型，從視覺注意力的角度預(yù)測(cè)場(chǎng)景圖。

“場(chǎng)景圖為各種視覺任務(wù)提供了強(qiáng)大的中間知識(shí)結(jié)構(gòu)，包括語義圖像檢索，圖像標(biāo)題和視覺問答，”研究人員在他們的論文中寫道，該論文發(fā)表在Wiley Online Library上。“在本文中，預(yù)測(cè)圖像場(chǎng)景圖的任務(wù)被制定為兩個(gè)相關(guān)的問題，即識(shí)別關(guān)系三元組，結(jié)構(gòu)化，并從公認(rèn)的關(guān)系三元組構(gòu)建場(chǎng)景圖。”

這個(gè)研究小組設(shè)計(jì)的方法有兩個(gè)關(guān)鍵組成部分，一個(gè)旨在識(shí)別他們所謂的“關(guān)系三胞胎”，另一個(gè)旨在構(gòu)建場(chǎng)景圖。為了識(shí)別關(guān)系三元組，研究人員在分層組織中使用了由兩個(gè)基于注意力的RNN組成的模型。

“第一個(gè)網(wǎng)絡(luò)為每個(gè)關(guān)系三元組生成一個(gè)主題向量，而第二個(gè)網(wǎng)絡(luò)根據(jù)主題向量預(yù)測(cè)該關(guān)系三元組中的每個(gè)單詞，”研究人員在他們的論文中解釋說。“這種方法成功地捕捉了圖像的構(gòu)圖結(jié)構(gòu)和上下文依賴關(guān)系以及描述其場(chǎng)景的關(guān)系三元組。”

一旦這個(gè)基于RNN的模型從圖像中提取了相關(guān)信息，他們的方法的第二個(gè)組成部分就會(huì)使用這些數(shù)據(jù)構(gòu)建場(chǎng)景圖。對(duì)于此步驟，研究人員使用實(shí)體定位方法，該方法可以使用可用的注意信息來確定圖形的結(jié)構(gòu)。除了這兩個(gè)組件之外，研究人員還使用一種算法來闡明他們的方法將生成的關(guān)系三元組信息轉(zhuǎn)換為場(chǎng)景圖的過程。

他們的方法使用流行的視覺基因組(VG)數(shù)據(jù)集和視覺關(guān)系數(shù)據(jù)集(VRD)進(jìn)行評(píng)估。為了他們的研究目的，研究人員使用一組三聯(lián)體對(duì)這些數(shù)據(jù)集中的圖像進(jìn)行注釋，用位置信息標(biāo)記每個(gè)主題和對(duì)象對(duì)。

“兩個(gè)流行數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果表明，從我們模型中的視覺注意導(dǎo)向角度看，層次復(fù)現(xiàn)方法在結(jié)果上比基線模型有明顯改善，”研究人員寫道。“在未來的工作中，我們計(jì)劃用高級(jí)語義和更多樣化的屬性來豐富場(chǎng)景圖。”

標(biāo)簽：分層模型