DeepMind AI MuZero可以學習和掌握國際象棋圍棋雅達利

2020-12-24 15:27:56 編輯：來源：

導讀今天，《自然》雜志上的一篇專題研究論文詳細介紹了機器學習算法MuZero。MuZero擴展了AlphaGo，AlphaGo Zero和AlphaZero等系統(tǒng)的功能。每

今天，《自然》雜志上的一篇專題研究論文詳細介紹了機器學習算法MuZero。MuZero擴展了AlphaGo，AlphaGo Zero和AlphaZero等系統(tǒng)的功能。每種新算法都使智能機器在掌握游戲方面變得更好，從Go開始，然后是Chess和Shogi，現(xiàn)在是Atari!

什么是MuZero?

MuZero是一種機器學習算法。算法是計算機在需要學習新信息和/或?qū)π滦畔⒉扇⌒袆訒r遵循的一組規(guī)則。當MuZero用于具有機器學習功能的計算機上時，它就可以學習游戲和大師級游戲，例如Go和Chess。

創(chuàng)建像MuZero這樣的算法的過程很重要，因為它可以導致機器學習和人工智能能夠處理比過去任何計算機都無法破解的先進的現(xiàn)實世界問題。

AlphaGo，AlphaGo零，AlphaZero

AlphaGo算法于2016年公開發(fā)布，似乎是第一個掌握GO *游戲的程序。* AlphaGo使用神經(jīng)網(wǎng)絡和樹搜索掌握了Go。它要求先植入人類數(shù)據(jù)和領(lǐng)域知識，然后才能嘗試掌握Go。

在2017年，AlphaGo Zero系統(tǒng)超越了第一次迭代，現(xiàn)在能夠在不增加人類數(shù)據(jù)和/或領(lǐng)域知識的情況下學習玩Go?？爝M到2018年，AlphaZero超越了前兩個版本，掌握了Go，Chess和Shogi。同一小組中發(fā)布了其他小組的最新算法稱為MuZero。

MuZero也可以學習

前三個發(fā)行版中的每個發(fā)行版都需要為每個游戲預先植入一套規(guī)則，然后將其繼續(xù)掌握。在2020年末，名為MuZero的系統(tǒng)取得了重大飛躍。該算法現(xiàn)在不需要預先植入的規(guī)則集-它可以實時學習所述規(guī)則。

MuZero既可以學習將要玩的游戲規(guī)則，又可以掌握所說的游戲。正如其創(chuàng)造者所說的那樣，“ MuZero可以學習游戲規(guī)則，還可以掌握動態(tài)未知的環(huán)境。”

正如本周發(fā)表的研究指出的那樣，“當在Go，國際象棋和將棋上進行評估(用于高性能計劃的典型環(huán)境時)，MuZero算法在沒有任何游戲動態(tài)知識的情況下與所提供的AlphaZero算法的超人性能相匹配。遵守游戲規(guī)則。”

Atari作為證明

研究人員表明，MuZero能夠?qū)W習圍棋，國際象棋和將棋的規(guī)則，然后掌握這些游戲(同樣，無需預先植入規(guī)則)。此外，MuZero還針對57種不同的Atari電子游戲進行了測試。MuZero能夠?qū)W習一套Atari游戲的規(guī)則并掌握大師所說的游戲!

正如本周發(fā)表的研究報告所述，當在57種不同的Atari游戲上進行測試時，“當在57種不同的Atari游戲上進行評估時-MuZero算法是一種經(jīng)典的視頻游戲環(huán)境，用于測試人工智能技術(shù)，在這種環(huán)境中，基于模型的規(guī)劃方法歷來都在掙扎達到了最先進的性能。”

標簽： DeepMindAIMuZero