谷歌的人工智能教機(jī)器人抓取被遮擋的物體并適應(yīng)新環(huán)境

2022-09-01 16:59:51 編輯：長孫霞媚來源：

導(dǎo)讀在本周在預(yù)印服務(wù)器Arxiv.org上發(fā)表的一對(duì)論文中，谷歌和加州大學(xué)伯克利分校的研究人員描述了新的人工智能和機(jī)器學(xué)習(xí)技術(shù)，使機(jī)器人能夠適...

在本周在預(yù)印服務(wù)器Arxiv.org上發(fā)表的一對(duì)論文中，谷歌和加州大學(xué)伯克利分校的研究人員描述了新的人工智能和機(jī)器學(xué)習(xí)技術(shù)，使機(jī)器人能夠適應(yīng)從未見過的任務(wù)，并掌握被遮擋的對(duì)象。第一項(xiàng)研究詳細(xì)介紹了X-Ray，這是一種算法，當(dāng)部署在機(jī)器人上時(shí)，可以通過大量的對(duì)象搜索來抓取目標(biāo)對(duì)象，而第二項(xiàng)研究則提出了一種策略適應(yīng)技術(shù)，它“教授”機(jī)器人的技能，而不需要從抓取模型訓(xùn)練。

機(jī)器人抓取是一個(gè)令人驚訝的困難挑戰(zhàn)。例如，機(jī)器人很難執(zhí)行所謂的“機(jī)械搜索”，即當(dāng)它們必須從一堆其他物體中識(shí)別和拾取一個(gè)物體時(shí)。大多數(shù)機(jī)器人不是特別適應(yīng)能力強(qiáng)，而且缺乏足夠能力的人工智能模型來指導(dǎo)機(jī)器人在機(jī)械搜索中的手。

X-Ray和政策調(diào)整步驟可以構(gòu)成一個(gè)產(chǎn)品包裝系統(tǒng)的基礎(chǔ)，該系統(tǒng)可以在沒有人的監(jiān)督下發(fā)現(xiàn)、拾取和丟棄一系列對(duì)象。

關(guān)于X-Ray的研究的合著者注意到，由于缺乏適當(dāng)?shù)哪Ｐ?，機(jī)械搜索-在一堆對(duì)象中尋找對(duì)象-仍然具有挑戰(zhàn)性。 X射線通過遮擋推理和假設(shè)預(yù)測(cè)相結(jié)合來解決這個(gè)問題，它用來估計(jì)包圍盒(物體周圍矩形邊框的坐標(biāo))與物體最相似的占用率分布，同時(shí)考慮各種平移和旋轉(zhuǎn)。

X-Ray假設(shè)堆中至少有一個(gè)目標(biāo)對(duì)象被未知對(duì)象完全或部分遮擋，并且每個(gè)時(shí)間步長最多掌握一個(gè)對(duì)象。以RGB圖像和目標(biāo)對(duì)象為輸入，預(yù)測(cè)場(chǎng)景的占用率分布和分割掩碼，并計(jì)算幾個(gè)潛在的抓取動(dòng)作，以最高的成功概率執(zhí)行。

為了訓(xùn)練和驗(yàn)證X射線，研究人員制作了一個(gè)由10，000幅增強(qiáng)深度圖像組成的語料庫，其中標(biāo)記了矩形框目標(biāo)對(duì)象的對(duì)象占用分布。從Thingiverse上的1296個(gè)三維CAD模型的開源數(shù)據(jù)集上采樣，他們選擇了10個(gè)不同尺寸的盒子目標(biāo)，體積相等，厚度小，因此它們更有可能被遮擋。這使他們共獲得10萬張圖像。

上圖：說明X射線技術(shù)的圖表。

這10000幅圖像中約有8000幅保留用于培訓(xùn)，其余的留作測(cè)試。還有一千幅包含模擬物體的圖像-蓋子、多米諾骨牌和長笛-被用來評(píng)估X射線對(duì)看不見的形狀、物體、縱橫比和尺度的泛化。

在涉及一個(gè)現(xiàn)實(shí)世界中的ABBYuMi機(jī)器人的物理實(shí)驗(yàn)中，研究人員責(zé)成X-Ray將一個(gè)裝有物體的垃圾箱裝滿，然后將垃圾箱傾倒在目標(biāo)物體的頂部。在最初包含25個(gè)對(duì)象的堆中，系統(tǒng)以5個(gè)動(dòng)作的中位數(shù)提取目標(biāo)對(duì)象，超過20次試驗(yàn)，成功率為100%。

合著者留給未來的工作，提高X-Ray的培訓(xùn)效率，并分析數(shù)據(jù)集大小的影響以及用于生成培訓(xùn)分布的翻譯和旋轉(zhuǎn)次數(shù)。他們還計(jì)劃探索基于目標(biāo)對(duì)象可見性獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí)政策。

在最近的兩篇論文中，合著者試圖開發(fā)一個(gè)不斷適應(yīng)新的現(xiàn)實(shí)世界環(huán)境、對(duì)象和條件的系統(tǒng)。這與大多數(shù)機(jī)器人形成了鮮明對(duì)比，它們只訓(xùn)練一次，部署時(shí)沒有太多的適應(yīng)能力。

研究人員預(yù)先訓(xùn)練了一個(gè)機(jī)器學(xué)習(xí)模型，在608，000次抓取嘗試的語料庫上抓取一系列物體，然后他們負(fù)責(zé)使用夾持器抓取物體，將其移動(dòng)到起始位置的右側(cè)10厘米。在系統(tǒng)練習(xí)了一段時(shí)間(在800次嘗試中)，并將這些嘗試記錄到一個(gè)新的數(shù)據(jù)集-目標(biāo)數(shù)據(jù)集-之后，新的嘗試在50%的時(shí)間內(nèi)與原始數(shù)據(jù)集混合，以微調(diào)模型。

上圖：模型適應(yīng)訓(xùn)練過程，以示意圖的形式。

這些步驟-預(yù)訓(xùn)練、嘗試新任務(wù)和微調(diào)-被重復(fù)了五種不同的場(chǎng)景。在一種情況下，嚴(yán)酷的照明阻礙了機(jī)器人的相機(jī);在另一種情況下，棋盤圖案的背景使模型難以識(shí)別物體。最后，實(shí)驗(yàn)者讓機(jī)器人抓住訓(xùn)練中沒有看到的透明瓶子(透明物體對(duì)機(jī)器人來說是出了名的難以抓住，因?yàn)樗鼈冇袝r(shí)會(huì)混淆深度傳感器)，并撿起坐在高反射鈑金表面上的物體。

研究人員報(bào)告說，在實(shí)驗(yàn)中，模型成功地抓住了物體63%的時(shí)間在苛刻的照明，74%的時(shí)間與透明的瓶子，86%的時(shí)間與棋盤支持，88%的時(shí)間與擴(kuò)展夾持器，91%的時(shí)間與偏移夾持器。此外，他們還說，機(jī)器人只需要1到4個(gè)小時(shí)的練習(xí)才能適應(yīng)新的情況(相比之下，大約有6，000個(gè)小時(shí)的學(xué)習(xí)如何掌握)，而且性能并沒有降低模型適應(yīng)得越多。

在未來，團(tuán)隊(duì)計(jì)劃調(diào)查該過程是否可以自動(dòng)進(jìn)行。

標(biāo)簽：

免責(zé)聲明：本文由用戶上傳，如有侵權(quán)請(qǐng)聯(lián)系刪除！