您的位置: 首頁 >互聯(lián)網(wǎng) >

一種通過人類嬰兒的行為來改善機器學(xué)習(xí)的技術(shù)

2022-08-03 21:23:20 編輯:鳳強洋 來源:
導(dǎo)讀 從他們生命的最初幾年開始,人類就具有不斷學(xué)習(xí)的天生能力,并通過觀察周圍環(huán)境中的事物或人與他們互動來建立世界的心理模型。認(rèn)知心理學(xué)...

從他們生命的最初幾年開始,人類就具有不斷學(xué)習(xí)的天生能力,并通過觀察周圍環(huán)境中的事物或人與他們互動來建立世界的心理模型。認(rèn)知心理學(xué)研究表明,人類廣泛使用這種先前獲得的知識,特別是當(dāng)他們遇到新的情況或做出決定時。

盡管最近在人工智能(AI)領(lǐng)域取得了重大進展,但大多數(shù)虛擬代理仍然需要數(shù)百小時的培訓(xùn)才能在多個任務(wù)中實現(xiàn)人類級別的性能,而人類可以在幾小時或更短時間內(nèi)學(xué)會完成這些任務(wù)。最近的研究突出了人類獲得知識的能力的兩個關(guān)鍵因素 - 即直覺物理學(xué)和直覺心理學(xué)。

這些直覺模型已經(jīng)在人類從發(fā)展的早期階段觀察到,可能是未來學(xué)習(xí)的核心推動者?;谶@一想法,韓國高等科學(xué)技術(shù)研究院(KAIST)的研究人員最近開發(fā)了一種內(nèi)在獎勵歸一化方法,允許AI代理選擇最能改善其直覺模型的行為。在他們的論文中,預(yù)先發(fā)表在arXiv上,研究人員特別提出了一個圖形物理網(wǎng)絡(luò),它與深層強化學(xué)習(xí)相結(jié)合,受到人類嬰兒學(xué)習(xí)行為的啟發(fā)。

研究人員在他們的論文中解釋說:“想象一個房間里的人類嬰兒,玩具周圍有可到達的距離。” “他們不斷地抓住,投擲和對物體采取行動;有時,他們會觀察他們行為的后果,但有時,他們會失去興趣并轉(zhuǎn)向另一個物體。”作為科學(xué)家的兒童觀點表明,人類嬰兒是內(nèi)在動機進行自己的實驗,發(fā)現(xiàn)更多信息,并最終學(xué)會區(qū)分不同的對象,并創(chuàng)造更豐富的內(nèi)部表征。“

心理學(xué)研究表明,在人生的最初幾年,人類不斷嘗試周圍環(huán)境,這使他們能夠形成對世界的重要理解。此外,當(dāng)兒童觀察到的結(jié)果不符合他們之前的期望時(稱為預(yù)期違規(guī)),他們經(jīng)常被鼓勵進一步嘗試,以更好地了解他們所處的情況。

KAIST的研究小組試圖使用強化學(xué)習(xí)方法在AI代理中重現(xiàn)這些行為。在他們的研究中,他們首先引入了一個圖形物理網(wǎng)絡(luò),可以提取對象之間的物理關(guān)系,并預(yù)測它們在三維環(huán)境中的后續(xù)行為。隨后,他們將該網(wǎng)絡(luò)與深度強化學(xué)習(xí)模型相結(jié)合,引入了內(nèi)在獎勵規(guī)范化技術(shù),鼓勵A(yù)I代理人探索并識別將不斷改進其直覺模型的行為。

研究人員使用三維物理引擎證明了他們的圖形物理網(wǎng)絡(luò)能夠有效地推斷出不同物體的位置和速度。他們還發(fā)現(xiàn),他們的方法允許深度強化學(xué)習(xí)網(wǎng)絡(luò)不斷改進其直覺模型,鼓勵它僅僅基于內(nèi)在動機與對象進行交互。

在一系列評估中,由該團隊的研究人員設(shè)計的新技術(shù)實現(xiàn)了非凡的準(zhǔn)確性,AI代理執(zhí)行了大量不同的探索行動。在未來,它可以為機器學(xué)習(xí)工具的開發(fā)提供信息,這些工具可以更快,更有效地從過去的經(jīng)驗中學(xué)習(xí)。

研究人員在他們的論文中解釋說:“我們已經(jīng)在各種場景中用固定和非固定問題測試我們的網(wǎng)絡(luò),其中球形物體具有不同的質(zhì)量和半徑。” “我們希望這些預(yù)先訓(xùn)練好的直覺模型將被用作其他目標(biāo)導(dǎo)向任務(wù)的先驗知識,如ATARI游戲或視頻預(yù)測。”


免責(zé)聲明:本文由用戶上傳,如有侵權(quán)請聯(lián)系刪除!

精彩推薦

圖文推薦

點擊排行

2016-2022 All Rights Reserved.平安財經(jīng)網(wǎng).復(fù)制必究 聯(lián)系QQ280 715 8082   備案號:閩ICP備19027007號-6

本站除標(biāo)明“本站原創(chuàng)”外所有信息均轉(zhuǎn)載自互聯(lián)網(wǎng) 版權(quán)歸原作者所有。