2016-2022 All Rights Reserved.平安財(cái)經(jīng)網(wǎng).復(fù)制必究 聯(lián)系QQ280 715 8082 備案號(hào):閩ICP備19027007號(hào)-6
本站除標(biāo)明“本站原創(chuàng)”外所有信息均轉(zhuǎn)載自互聯(lián)網(wǎng) 版權(quán)歸原作者所有。
專注于推進(jìn)人工智能研究的谷歌部門DeepMind今天發(fā)布了一個(gè)新版本的AlphaGo程序,它只通過玩自己來學(xué)習(xí)游戲。
該系統(tǒng)被稱為AlphaGoZero,通過學(xué)習(xí)其自我游戲的結(jié)果,使用一種稱為強(qiáng)化學(xué)習(xí)的機(jī)器學(xué)習(xí)技術(shù)來工作。 隨著零的不斷訓(xùn)練,該系統(tǒng)開始學(xué)習(xí)先進(jìn)的概念,在游戲中,自己去挑選某些有利的位置和序列。
經(jīng)過三天的訓(xùn)練,該系統(tǒng)能夠擊敗AlphaGoLee,DeepMind的軟件,去年擊敗了韓國(guó)頂級(jí)球員LeeSedol,100場(chǎng)比賽為零。 經(jīng)過大約40天的訓(xùn)練-這意味著2900萬場(chǎng)自我游戲-阿爾法戈零能夠擊敗阿爾法戈大師(今年早些時(shí)候擊敗了世界冠軍克杰)89場(chǎng)比賽到11場(chǎng)。
結(jié)果表明,當(dāng)涉及到不同技術(shù)的有效性時(shí),在人工智能領(lǐng)域還有很多需要學(xué)習(xí)的東西。 阿爾法圍棋大師是使用許多類似的方法,阿爾法圍棋零是,但它開始訓(xùn)練人類數(shù)據(jù),首先開始自我游戲。
一個(gè)有趣的注意是,雖然AlphaGoZero在幾周的訓(xùn)練中學(xué)習(xí)了幾個(gè)關(guān)鍵概念,但該系統(tǒng)的學(xué)習(xí)方式不同于許多接近圍棋游戲的人類玩家。 連續(xù)的“拉粉”石頭,以一個(gè)樓梯一樣的模式在棋盤上玩,是人類在練習(xí)游戲時(shí)學(xué)到的第一件事之一。 《自然》雜志發(fā)表的論文《深度心靈》(Deep Mind)指出,Zero在后來的訓(xùn)練中才理解這一概念。
此外,AlphaGoZero比它的許多前輩更有效率。 阿爾法·戈·李需要使用幾臺(tái)機(jī)器和48臺(tái)谷歌的張量處理單元機(jī)器學(xué)習(xí)加速器芯片。 系統(tǒng)的早期版本AlphaGo Fan需要176個(gè)GPU。 阿爾法圍棋零,連同阿爾法圍棋大師,每個(gè)只需要一個(gè)單一的機(jī)器與四個(gè)TPU。
2016-2022 All Rights Reserved.平安財(cái)經(jīng)網(wǎng).復(fù)制必究 聯(lián)系QQ280 715 8082 備案號(hào):閩ICP備19027007號(hào)-6
本站除標(biāo)明“本站原創(chuàng)”外所有信息均轉(zhuǎn)載自互聯(lián)網(wǎng) 版權(quán)歸原作者所有。