您的位置: 首頁(yè) >互聯(lián)網(wǎng) >

一種通過人類嬰兒的行為來(lái)改善機(jī)器學(xué)習(xí)的技術(shù)

2022-08-03 21:23:20 編輯:鳳強(qiáng)洋 來(lái)源:
導(dǎo)讀 從他們生命的最初幾年開始,人類就具有不斷學(xué)習(xí)的天生能力,并通過觀察周圍環(huán)境中的事物或人與他們互動(dòng)來(lái)建立世界的心理模型。認(rèn)知心理學(xué)...

從他們生命的最初幾年開始,人類就具有不斷學(xué)習(xí)的天生能力,并通過觀察周圍環(huán)境中的事物或人與他們互動(dòng)來(lái)建立世界的心理模型。認(rèn)知心理學(xué)研究表明,人類廣泛使用這種先前獲得的知識(shí),特別是當(dāng)他們遇到新的情況或做出決定時(shí)。

盡管最近在人工智能(AI)領(lǐng)域取得了重大進(jìn)展,但大多數(shù)虛擬代理仍然需要數(shù)百小時(shí)的培訓(xùn)才能在多個(gè)任務(wù)中實(shí)現(xiàn)人類級(jí)別的性能,而人類可以在幾小時(shí)或更短時(shí)間內(nèi)學(xué)會(huì)完成這些任務(wù)。最近的研究突出了人類獲得知識(shí)的能力的兩個(gè)關(guān)鍵因素 - 即直覺物理學(xué)和直覺心理學(xué)。

這些直覺模型已經(jīng)在人類從發(fā)展的早期階段觀察到,可能是未來(lái)學(xué)習(xí)的核心推動(dòng)者?;谶@一想法,韓國(guó)高等科學(xué)技術(shù)研究院(KAIST)的研究人員最近開發(fā)了一種內(nèi)在獎(jiǎng)勵(lì)歸一化方法,允許AI代理選擇最能改善其直覺模型的行為。在他們的論文中,預(yù)先發(fā)表在arXiv上,研究人員特別提出了一個(gè)圖形物理網(wǎng)絡(luò),它與深層強(qiáng)化學(xué)習(xí)相結(jié)合,受到人類嬰兒學(xué)習(xí)行為的啟發(fā)。

研究人員在他們的論文中解釋說(shuō):“想象一個(gè)房間里的人類嬰兒,玩具周圍有可到達(dá)的距離。” “他們不斷地抓住,投擲和對(duì)物體采取行動(dòng);有時(shí),他們會(huì)觀察他們行為的后果,但有時(shí),他們會(huì)失去興趣并轉(zhuǎn)向另一個(gè)物體。”作為科學(xué)家的兒童觀點(diǎn)表明,人類嬰兒是內(nèi)在動(dòng)機(jī)進(jìn)行自己的實(shí)驗(yàn),發(fā)現(xiàn)更多信息,并最終學(xué)會(huì)區(qū)分不同的對(duì)象,并創(chuàng)造更豐富的內(nèi)部表征。“

心理學(xué)研究表明,在人生的最初幾年,人類不斷嘗試周圍環(huán)境,這使他們能夠形成對(duì)世界的重要理解。此外,當(dāng)兒童觀察到的結(jié)果不符合他們之前的期望時(shí)(稱為預(yù)期違規(guī)),他們經(jīng)常被鼓勵(lì)進(jìn)一步嘗試,以更好地了解他們所處的情況。

KAIST的研究小組試圖使用強(qiáng)化學(xué)習(xí)方法在AI代理中重現(xiàn)這些行為。在他們的研究中,他們首先引入了一個(gè)圖形物理網(wǎng)絡(luò),可以提取對(duì)象之間的物理關(guān)系,并預(yù)測(cè)它們?cè)谌S環(huán)境中的后續(xù)行為。隨后,他們將該網(wǎng)絡(luò)與深度強(qiáng)化學(xué)習(xí)模型相結(jié)合,引入了內(nèi)在獎(jiǎng)勵(lì)規(guī)范化技術(shù),鼓勵(lì)A(yù)I代理人探索并識(shí)別將不斷改進(jìn)其直覺模型的行為。

研究人員使用三維物理引擎證明了他們的圖形物理網(wǎng)絡(luò)能夠有效地推斷出不同物體的位置和速度。他們還發(fā)現(xiàn),他們的方法允許深度強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)不斷改進(jìn)其直覺模型,鼓勵(lì)它僅僅基于內(nèi)在動(dòng)機(jī)與對(duì)象進(jìn)行交互。

在一系列評(píng)估中,由該團(tuán)隊(duì)的研究人員設(shè)計(jì)的新技術(shù)實(shí)現(xiàn)了非凡的準(zhǔn)確性,AI代理執(zhí)行了大量不同的探索行動(dòng)。在未來(lái),它可以為機(jī)器學(xué)習(xí)工具的開發(fā)提供信息,這些工具可以更快,更有效地從過去的經(jīng)驗(yàn)中學(xué)習(xí)。

研究人員在他們的論文中解釋說(shuō):“我們已經(jīng)在各種場(chǎng)景中用固定和非固定問題測(cè)試我們的網(wǎng)絡(luò),其中球形物體具有不同的質(zhì)量和半徑。” “我們希望這些預(yù)先訓(xùn)練好的直覺模型將被用作其他目標(biāo)導(dǎo)向任務(wù)的先驗(yàn)知識(shí),如ATARI游戲或視頻預(yù)測(cè)。”


免責(zé)聲明:本文由用戶上傳,如有侵權(quán)請(qǐng)聯(lián)系刪除!

最新文章

精彩推薦

圖文推薦

點(diǎn)擊排行

2016-2022 All Rights Reserved.平安財(cái)經(jīng)網(wǎng).復(fù)制必究 聯(lián)系QQ280 715 8082   備案號(hào):閩ICP備19027007號(hào)-6

本站除標(biāo)明“本站原創(chuàng)”外所有信息均轉(zhuǎn)載自互聯(lián)網(wǎng) 版權(quán)歸原作者所有。