2016-2022 All Rights Reserved.平安財(cái)經(jīng)網(wǎng).復(fù)制必究 聯(lián)系QQ280 715 8082 備案號(hào):閩ICP備19027007號(hào)-6
本站除標(biāo)明“本站原創(chuàng)”外所有信息均轉(zhuǎn)載自互聯(lián)網(wǎng) 版權(quán)歸原作者所有。
在本周在預(yù)印服務(wù)器Arxiv.org上發(fā)表的一對(duì)論文中,谷歌和加州大學(xué)伯克利分校的研究人員描述了新的人工智能和機(jī)器學(xué)習(xí)技術(shù),使機(jī)器人能夠適應(yīng)從未見過的任務(wù),并掌握被遮擋的對(duì)象。 第一項(xiàng)研究詳細(xì)介紹了X-Ray,這是一種算法,當(dāng)部署在機(jī)器人上時(shí),可以通過大量的對(duì)象搜索來抓取目標(biāo)對(duì)象,而第二項(xiàng)研究則提出了一種策略適應(yīng)技術(shù),它“教授”機(jī)器人的技能,而不需要從抓取模型訓(xùn)練。
機(jī)器人抓取是一個(gè)令人驚訝的困難挑戰(zhàn)。 例如,機(jī)器人很難執(zhí)行所謂的“機(jī)械搜索”,即當(dāng)它們必須從一堆其他物體中識(shí)別和拾取一個(gè)物體時(shí)。 大多數(shù)機(jī)器人不是特別適應(yīng)能力強(qiáng),而且缺乏足夠能力的人工智能模型來指導(dǎo)機(jī)器人在機(jī)械搜索中的手。
X-Ray和政策調(diào)整步驟可以構(gòu)成一個(gè)產(chǎn)品包裝系統(tǒng)的基礎(chǔ),該系統(tǒng)可以在沒有人的監(jiān)督下發(fā)現(xiàn)、拾取和丟棄一系列對(duì)象。
關(guān)于X-Ray的研究的合著者注意到,由于缺乏適當(dāng)?shù)哪P?,機(jī)械搜索-在一堆對(duì)象中尋找對(duì)象-仍然具有挑戰(zhàn)性。 X射線通過遮擋推理和假設(shè)預(yù)測(cè)相結(jié)合來解決這個(gè)問題,它用來估計(jì)包圍盒(物體周圍矩形邊框的坐標(biāo))與物體最相似的占用率分布,同時(shí)考慮各種平移和旋轉(zhuǎn)。
X-Ray假設(shè)堆中至少有一個(gè)目標(biāo)對(duì)象被未知對(duì)象完全或部分遮擋,并且每個(gè)時(shí)間步長最多掌握一個(gè)對(duì)象。 以RGB圖像和目標(biāo)對(duì)象為輸入,預(yù)測(cè)場(chǎng)景的占用率分布和分割掩碼,并計(jì)算幾個(gè)潛在的抓取動(dòng)作,以最高的成功概率執(zhí)行。
為了訓(xùn)練和驗(yàn)證X射線,研究人員制作了一個(gè)由10,000幅增強(qiáng)深度圖像組成的語料庫,其中標(biāo)記了矩形框目標(biāo)對(duì)象的對(duì)象占用分布。 從Thingiverse上的1296個(gè)三維CAD模型的開源數(shù)據(jù)集上采樣,他們選擇了10個(gè)不同尺寸的盒子目標(biāo),體積相等,厚度小,因此它們更有可能被遮擋。 這使他們共獲得10萬張圖像。
上圖:說明X射線技術(shù)的圖表。
這10000幅圖像中約有8000幅保留用于培訓(xùn),其余的留作測(cè)試。 還有一千幅包含模擬物體的圖像-蓋子、多米諾骨牌和長笛-被用來評(píng)估X射線對(duì)看不見的形狀、物體、縱橫比和尺度的泛化。
在涉及一個(gè)現(xiàn)實(shí)世界中的ABBYuMi機(jī)器人的物理實(shí)驗(yàn)中,研究人員責(zé)成X-Ray將一個(gè)裝有物體的垃圾箱裝滿,然后將垃圾箱傾倒在目標(biāo)物體的頂部。 在最初包含25個(gè)對(duì)象的堆中,系統(tǒng)以5個(gè)動(dòng)作的中位數(shù)提取目標(biāo)對(duì)象,超過20次試驗(yàn),成功率為100%。
合著者留給未來的工作,提高X-Ray的培訓(xùn)效率,并分析數(shù)據(jù)集大小的影響以及用于生成培訓(xùn)分布的翻譯和旋轉(zhuǎn)次數(shù)。 他們還計(jì)劃探索基于目標(biāo)對(duì)象可見性獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí)政策。
在最近的兩篇論文中,合著者試圖開發(fā)一個(gè)不斷適應(yīng)新的現(xiàn)實(shí)世界環(huán)境、對(duì)象和條件的系統(tǒng)。 這與大多數(shù)機(jī)器人形成了鮮明對(duì)比,它們只訓(xùn)練一次,部署時(shí)沒有太多的適應(yīng)能力。
研究人員預(yù)先訓(xùn)練了一個(gè)機(jī)器學(xué)習(xí)模型,在608,000次抓取嘗試的語料庫上抓取一系列物體,然后他們負(fù)責(zé)使用夾持器抓取物體,將其移動(dòng)到起始位置的右側(cè)10厘米。 在系統(tǒng)練習(xí)了一段時(shí)間(在800次嘗試中),并將這些嘗試記錄到一個(gè)新的數(shù)據(jù)集-目標(biāo)數(shù)據(jù)集-之后,新的嘗試在50%的時(shí)間內(nèi)與原始數(shù)據(jù)集混合,以微調(diào)模型。
上圖:模型適應(yīng)訓(xùn)練過程,以示意圖的形式。
這些步驟-預(yù)訓(xùn)練、嘗試新任務(wù)和微調(diào)-被重復(fù)了五種不同的場(chǎng)景。 在一種情況下,嚴(yán)酷的照明阻礙了機(jī)器人的相機(jī);在另一種情況下,棋盤圖案的背景使模型難以識(shí)別物體。 最后,實(shí)驗(yàn)者讓機(jī)器人抓住訓(xùn)練中沒有看到的透明瓶子(透明物體對(duì)機(jī)器人來說是出了名的難以抓住,因?yàn)樗鼈冇袝r(shí)會(huì)混淆深度傳感器),并撿起坐在高反射鈑金表面上的物體。
研究人員報(bào)告說,在實(shí)驗(yàn)中,模型成功地抓住了物體63%的時(shí)間在苛刻的照明,74%的時(shí)間與透明的瓶子,86%的時(shí)間與棋盤支持,88%的時(shí)間與擴(kuò)展夾持器,91%的時(shí)間與偏移夾持器。 此外,他們還說,機(jī)器人只需要1到4個(gè)小時(shí)的練習(xí)才能適應(yīng)新的情況(相比之下,大約有6,000個(gè)小時(shí)的學(xué)習(xí)如何掌握),而且性能并沒有降低模型適應(yīng)得越多。
在未來,團(tuán)隊(duì)計(jì)劃調(diào)查該過程是否可以自動(dòng)進(jìn)行。
2016-2022 All Rights Reserved.平安財(cái)經(jīng)網(wǎng).復(fù)制必究 聯(lián)系QQ280 715 8082 備案號(hào):閩ICP備19027007號(hào)-6
本站除標(biāo)明“本站原創(chuàng)”外所有信息均轉(zhuǎn)載自互聯(lián)網(wǎng) 版權(quán)歸原作者所有。