一種通過(guò)人類(lèi)嬰兒的行為來(lái)改善機(jī)器學(xué)習(xí)的技術(shù)

2022-08-03 21:23:20 編輯：鳳強(qiáng)洋來(lái)源：

導(dǎo)讀從他們生命的最初幾年開(kāi)始，人類(lèi)就具有不斷學(xué)習(xí)的天生能力，并通過(guò)觀察周?chē)h(huán)境中的事物或人與他們互動(dòng)來(lái)建立世界的心理模型。認(rèn)知心理學(xué)...

從他們生命的最初幾年開(kāi)始，人類(lèi)就具有不斷學(xué)習(xí)的天生能力，并通過(guò)觀察周?chē)h(huán)境中的事物或人與他們互動(dòng)來(lái)建立世界的心理模型。認(rèn)知心理學(xué)研究表明，人類(lèi)廣泛使用這種先前獲得的知識(shí)，特別是當(dāng)他們遇到新的情況或做出決定時(shí)。

盡管最近在人工智能(AI)領(lǐng)域取得了重大進(jìn)展，但大多數(shù)虛擬代理仍然需要數(shù)百小時(shí)的培訓(xùn)才能在多個(gè)任務(wù)中實(shí)現(xiàn)人類(lèi)級(jí)別的性能，而人類(lèi)可以在幾小時(shí)或更短時(shí)間內(nèi)學(xué)會(huì)完成這些任務(wù)。最近的研究突出了人類(lèi)獲得知識(shí)的能力的兩個(gè)關(guān)鍵因素 - 即直覺(jué)物理學(xué)和直覺(jué)心理學(xué)。

這些直覺(jué)模型已經(jīng)在人類(lèi)從發(fā)展的早期階段觀察到，可能是未來(lái)學(xué)習(xí)的核心推動(dòng)者。基于這一想法，韓國(guó)高等科學(xué)技術(shù)研究院(KAIST)的研究人員最近開(kāi)發(fā)了一種內(nèi)在獎(jiǎng)勵(lì)歸一化方法，允許AI代理選擇最能改善其直覺(jué)模型的行為。在他們的論文中，預(yù)先發(fā)表在arXiv上，研究人員特別提出了一個(gè)圖形物理網(wǎng)絡(luò)，它與深層強(qiáng)化學(xué)習(xí)相結(jié)合，受到人類(lèi)嬰兒學(xué)習(xí)行為的啟發(fā)。

研究人員在他們的論文中解釋說(shuō)：“想象一個(gè)房間里的人類(lèi)嬰兒，玩具周?chē)锌傻竭_(dá)的距離。” “他們不斷地抓住，投擲和對(duì)物體采取行動(dòng);有時(shí)，他們會(huì)觀察他們行為的后果，但有時(shí)，他們會(huì)失去興趣并轉(zhuǎn)向另一個(gè)物體。”作為科學(xué)家的兒童觀點(diǎn)表明，人類(lèi)嬰兒是內(nèi)在動(dòng)機(jī)進(jìn)行自己的實(shí)驗(yàn)，發(fā)現(xiàn)更多信息，并最終學(xué)會(huì)區(qū)分不同的對(duì)象，并創(chuàng)造更豐富的內(nèi)部表征。“

心理學(xué)研究表明，在人生的最初幾年，人類(lèi)不斷嘗試周?chē)h(huán)境，這使他們能夠形成對(duì)世界的重要理解。此外，當(dāng)兒童觀察到的結(jié)果不符合他們之前的期望時(shí)(稱(chēng)為預(yù)期違規(guī))，他們經(jīng)常被鼓勵(lì)進(jìn)一步嘗試，以更好地了解他們所處的情況。

KAIST的研究小組試圖使用強(qiáng)化學(xué)習(xí)方法在AI代理中重現(xiàn)這些行為。在他們的研究中，他們首先引入了一個(gè)圖形物理網(wǎng)絡(luò)，可以提取對(duì)象之間的物理關(guān)系，并預(yù)測(cè)它們?cè)谌S環(huán)境中的后續(xù)行為。隨后，他們將該網(wǎng)絡(luò)與深度強(qiáng)化學(xué)習(xí)模型相結(jié)合，引入了內(nèi)在獎(jiǎng)勵(lì)規(guī)范化技術(shù)，鼓勵(lì)A(yù)I代理人探索并識(shí)別將不斷改進(jìn)其直覺(jué)模型的行為。

研究人員使用三維物理引擎證明了他們的圖形物理網(wǎng)絡(luò)能夠有效地推斷出不同物體的位置和速度。他們還發(fā)現(xiàn)，他們的方法允許深度強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)不斷改進(jìn)其直覺(jué)模型，鼓勵(lì)它僅僅基于內(nèi)在動(dòng)機(jī)與對(duì)象進(jìn)行交互。

在一系列評(píng)估中，由該團(tuán)隊(duì)的研究人員設(shè)計(jì)的新技術(shù)實(shí)現(xiàn)了非凡的準(zhǔn)確性，AI代理執(zhí)行了大量不同的探索行動(dòng)。在未來(lái)，它可以為機(jī)器學(xué)習(xí)工具的開(kāi)發(fā)提供信息，這些工具可以更快，更有效地從過(guò)去的經(jīng)驗(yàn)中學(xué)習(xí)。

研究人員在他們的論文中解釋說(shuō)：“我們已經(jīng)在各種場(chǎng)景中用固定和非固定問(wèn)題測(cè)試我們的網(wǎng)絡(luò)，其中球形物體具有不同的質(zhì)量和半徑。” “我們希望這些預(yù)先訓(xùn)練好的直覺(jué)模型將被用作其他目標(biāo)導(dǎo)向任務(wù)的先驗(yàn)知識(shí)，如ATARI游戲或視頻預(yù)測(cè)。”

標(biāo)簽：

免責(zé)聲明：本文由用戶(hù)上傳，如有侵權(quán)請(qǐng)聯(lián)系刪除！