您的位置: 首頁 >科技 >

使用強化學習在機器人中實現(xiàn)類似人的平衡控制策略

2019-06-10 17:20:09 編輯: 來源:
導讀 愛丁堡大學的研究人員開發(fā)了一種基于深度強化學習(RL)的分層框架,可以獲得各種人形平衡控制策略。他們的框架在預先發(fā)布在arXiv上并在2017

愛丁堡大學的研究人員開發(fā)了一種基于深度強化學習(RL)的分層框架,可以獲得各種人形平衡控制策略。他們的框架在預先發(fā)布在arXiv上并在2017年人形機器人國際會議上發(fā)表的論文中概述,可以執(zhí)行比傳統(tǒng)控制器更像人類的平衡行為。

當站立或行走時,人類天生就能有效地使用許多技術來進行欠驅動控制,以幫助他們保持平衡。這些包括腳趾傾斜和腳跟滾動,從而創(chuàng)造更好的腳距離。復制類人機器人中的類似行為可以極大地改善其運動和運動能力。

“我們的研究重點是使用深度RL來解決人形機器人的動態(tài)運動,”負責該研究的愛丁堡大學機器人和控制講師Zhibin Li博士告訴TechXplore。“在過去,運動主要是使用傳統(tǒng)的分析方法 - 基于模型來完成的,因為它們需要人力和知識,并且需要高計算能力才能在線運行。”

需要較少的人力和手動調整,機器學習技術可以導致開發(fā)比傳統(tǒng)工程方法更有效和特定的控制器。使用RL的另一個優(yōu)點是這些工具的計算也可以離線外包,從而使高維控制系統(tǒng)(如人形機器人)的在線性能更快。

“鑒于越來越強大的深度RL算法,越來越多的研究開始使用深度RL來解決控制任務,因為最近在為連續(xù)作用域設計的深度RL算法方面的進展提出了應用強化學習連續(xù)控制任務的可能性這涉及復雜的動力學,“李博士解釋說。“我們研究的主要目的是探索使用深度強化學習來獲得與分析方法相當或更好的多樣化控制策略的可能性,同時減少人力。”

李博士與Taku Komura博士和博士合作開發(fā)的框架。學生Chuanyu Yang,使用深RL來達到高層控制政策。這些策略不斷接收機器人狀態(tài)的反饋,從而以較低的頻率實現(xiàn)所需的關節(jié)角度。

“在低級別,比例和微分(PD)控制器用于更高的控制頻率,以保證穩(wěn)定的關節(jié)運動,”博士。學生川宇說。“低水平PD控制器的輸入是高級神經(jīng)網(wǎng)絡產(chǎn)生的所需關節(jié)角度,輸出是關節(jié)電機所需的扭矩。”

研究人員測試了他們算法的性能并取得了非常有希望的結果。他們發(fā)現(xiàn),將人類知識從控制工程方法轉移到RL算法的獎勵設計,可以實現(xiàn)類似人類使用的平衡控制策略。此外,隨著RL算法通過反復試驗過程得到改善,自動適應新情況,他們的框架幾乎不需要人工調整或人工工程師的其他干預。

兩足動物的狀態(tài)特征。Yang,Komura&Li

“我們的研究表明,深層強化學習可以成為一個強大的工具,可以產(chǎn)生與人工設計的控制器相當?shù)钠胶饨Y果,減少手動調整工作和縮短時間,”李博士說。“ 我們開發(fā)的深度強化學習算法甚至能夠學習類似于人類的行為,例如傾斜腳趾或腳跟,這是大多數(shù)工程方法無法執(zhí)行的。”

李博士和他的同事現(xiàn)在正致力于擴展他們的研究,在三維模擬中將RL應用于全身Valkyrie機器人。在這項新的研究工作中,他們能夠將類似人類的平衡策略推廣到步行和其他運動任務。

“最終,我們希望應用這種將機器學習和機器人控制結合到真人形機器人以及其他機器人平臺的分層框架,”李博士說。


免責聲明:本文由用戶上傳,如有侵權請聯(lián)系刪除!

2016-2022 All Rights Reserved.平安財經(jīng)網(wǎng).復制必究 聯(lián)系QQ280 715 8082   備案號:閩ICP備19027007號-6

本站除標明“本站原創(chuàng)”外所有信息均轉載自互聯(lián)網(wǎng) 版權歸原作者所有。