AI可以通過玩星際爭霸和我的世界來學習真實世界的技能

2022-09-09 21:35:21 編輯：蒲美全來源：

導讀虛擬游戲世界是探索，響應和適應的良好測試平臺，AI AT PLAY玩視頻游戲的算法可以掌握各種技能。DarioWünsch感到自信。來自德國萊比...

虛擬游戲世界是探索，響應和適應的良好測試平臺，AI AT PLAY玩視頻游戲的算法可以掌握各種技能。

DarioWünsch感到自信。來自德國萊比錫的這位28歲的年輕人即將成為第一個在快速視頻游戲“星際爭霸II”中接受人工智能程序AlphaStar的專業(yè)游戲玩家。Wünsch一直專業(yè)玩“星際爭霸II”，競爭對手命令外國艦隊爭奪領(lǐng)土近十年。他不可能失去這個五場比賽的挑戰(zhàn)給一個新創(chuàng)造的AI游戲玩家。

甚至AlphaStar在總部位于倫敦的人工智能研究公司DeepMind的創(chuàng)始人也是如此，該公司是Alphabet公司的一部分，對結(jié)果并不樂觀。他們是一大批研究人員中的最新成員，他們試圖建立一個可以處理星際爭霸II令人眼花繚亂的復雜性的人工智能。到目前為止，還沒有人創(chuàng)造出能夠擊敗經(jīng)驗豐富的人類玩家的系統(tǒng)。

果然，當AlphaStar在12月12日對陣Wünsch時，人工智能似乎在第一場比賽開始時犯了一個致命錯誤：它忽略了在營地入口處建立一個保護屏障，讓Wünsch滲透并迅速挑選關(guān)閉了幾個工人單位。有一分鐘，看起來星際爭霸II仍然是人類戰(zhàn)勝機器的領(lǐng)域。但AlphaStar取得了勝利的回歸，組建了一個頑強的隊伍，很快就浪費了Wünsch的防守。AlphaStar 1，Wünsch0。

Wünsch搖了搖頭。他只需要更多地關(guān)注防守。但是在第二輪比賽中，AlphaStar通過扣留攻擊讓這位職業(yè)選手感到驚訝，直到它積累了一支再次粉碎Wünsch部隊的。之后的三場比賽，AlphaStar以5比0的比分贏得了比賽，將Wünsch降級為由機器擊敗的小型但不斷增長的世界級游戲玩家俱樂部。

研究人員長期以來一直將游戲作為AI智能的基準。1997年，IBM的Deep Blue贏得了國際象棋冠軍加里卡斯帕羅夫(SN：8/2/97，第76頁)的國際贊譽。2016年，DeepMind的AlphaGo以擊敗Go冠軍Lee Sedol而著稱(SN：12/24/16，第28頁)。

但是像國際象棋和圍棋這樣的基于棋盤的比賽到目前為止只能推動人工智能。這些游戲仍然非常簡單 - 玩家可以輪流看到每個棋子在棋盤上的位置。在制作能夠處理真實世界歧義和快節(jié)奏互動的人工智能時，最有用的機器認知測試可能會出現(xiàn)在虛擬世界中的游戲中。

建立可以打敗人類玩家的AI游戲玩家不僅僅是一個虛榮項目。哥本哈根IT大學的AI研究員Sebastian Risi說：“最終的想法是......將這些算法用于實際挑戰(zhàn)。”例如，在總部位于舊金山的公司OpenAI訓練了一個五人工作小組參加一個名為Dota 2的在線戰(zhàn)斗游戲之后，程序員重新利用這些算法教導機器人手的五個手指以前所未有的靈巧操縱物體。研究人員在1月份在arXiv.org網(wǎng)上描述了這項工作。

使用最初開發(fā)的算法來幫助五個AI玩游戲Dota 2，OpenAI研究人員構(gòu)建了一個非常靈巧的機器人手。

DeepMind的研究人員同樣希望AlphaStar的設(shè)計能夠讓研究人員嘗試構(gòu)建AI來處理長時間的相互作用，例如那些涉及模擬氣候變化或理解對話的人，這是一項特別困難的任務(SN：3/2/19，第8頁)。

目前，AI仍在努力解決的兩個重要問題是：相互協(xié)調(diào)，不斷將新知識應用于新情況。事實證明，星際爭霸的世界是一種優(yōu)秀的測試平臺，可以讓人工智能更加合作。為了試驗使AI永遠成為學習者的方法，研究人員正在使用另一種流行的視頻游戲Minecraft。雖然人們可能會利用屏幕時間作為對現(xiàn)實生活的分心，但虛擬挑戰(zhàn)可能有助于AI掌握在現(xiàn)實世界中取得成功所需的技能。

街機教育

AI可以在視頻游戲中練習不同的技能，以學習如何在現(xiàn)實世界中相處。例如，導航技術(shù)可以幫助搜索和救援機器人徘徊崎嶇的地形，知道如何管理許多工人的AI可以幫助管理公司。

教授AI為現(xiàn)實世界提供有用技能的游戲類型：

類型賽跑第一人稱射擊開放世界實時戰(zhàn)略示例游戲Forza Motororsport，Real Racing厄運我的世界，俠盜獵車手星際爭霸導航XXX管理資源/員工XX情節(jié)策略XXX快速反應XXX合作XX設(shè)定目標X創(chuàng)造力X勘探XX終身學習X動機XX雜耍優(yōu)先事項XX

團隊合作

當AlphaStar接手Wünsch時，AI就像人類一樣玩星際爭霸II：它像一個木偶操縱者一樣完全控制著艦隊中的所有角色。但在舊金山的Facebook AI Research的人工智能研究員Jakob Foerster表示，有許多現(xiàn)實世界的情況依賴于一個主腦AI來微觀管理大量設(shè)備會變得難以處理。

想想監(jiān)督整個醫(yī)院照顧病人的數(shù)十個護理機器人，或者自駕卡車協(xié)調(diào)他們在數(shù)英里的高速公路上的速度，以緩解交通瓶頸。因此，包括Foerster在內(nèi)的研究人員正在使用星際爭霸游戲嘗試不同的“多代理”方案。

在某些設(shè)計中，個別作戰(zhàn)單位具有一定的獨立性，但仍然受到集中控制器的支持。在這個設(shè)置中，監(jiān)督AI就像一個教練在場邊喊叫。教練制定了一個重要的計劃并向團隊成員發(fā)出指示。各個單位使用該指導以及對周圍環(huán)境的詳細觀察來決定如何采取行動。北京大學計算機科學家王益洲及其同事在提交給IEEE神經(jīng)網(wǎng)絡(luò)和學習系統(tǒng)的論文中報告了這種設(shè)計的有效性。

Wang的團隊使用強化學習訓練其人工智能團隊，這是一種機器學習，其中計算機系統(tǒng)通過與環(huán)境互動獲得技能，并在做正確的事情后獲得虛擬獎勵。每個隊友都根據(jù)其附近被淘汰的敵人數(shù)量獲得獎勵，以及整個團隊是否勝過由游戲內(nèi)置的自動對手控制的艦隊。在由至少10個戰(zhàn)斗單位組成的團隊的幾個不同挑戰(zhàn)中，教練指導的AI團隊贏得了60%到82%的時間。沒有獨立推理能力的控制的AI團隊對內(nèi)置對手的成功率較低。

當團隊可以依賴所有代理人之間快速，準確的溝通時，具有單個指揮官的AI工作人員對個別單位施加至少一些控制可能效果最佳。例如，該系統(tǒng)可以用于同一倉庫內(nèi)的機器人。

在星際爭霸II的視頻游戲中，專業(yè)的星際爭霸II玩家DarioWünsch扮演“LiquidTLO”，被人工智能AlphaStar所壓倒，這對Wünsch的基地造成了嚴重破壞。當AI顯示其優(yōu)勢時，人工智能在DeepMind的創(chuàng)作者歡呼。當AlphaStar擊敗他時，Wünsch大步邁進，5場比賽為0。

但是，對于許多機器，例如自動駕駛汽車或無人機群體，它們分布在很遠的距離，單獨的設(shè)備“將無法與單個控制器保持一致，可靠和快速的數(shù)據(jù)連接，”Foerster說。這是每個AI本身。在這些限制下工作的AI通常無法與集中式團隊協(xié)調(diào)，但Foerster及其同事設(shè)計了一個培訓計劃，以使獨立思考的機器能夠協(xié)同工作。

在該系統(tǒng)中，集中觀察者在強化學習期間向隊友提供反饋。但是，一旦該小組接受了全面培訓，AI就會獨立完成。主要代理人不像是邊線教練，更像是在排練期間提供芭蕾舞女演員指導的舞蹈教練，但在舞臺表演期間保持沉默。

AI監(jiān)督員通過在培訓期間提供個性化建議，為個人AI提供自給自足的準備。在每次試運行之后，監(jiān)督員模擬替代可能的未來，并告訴每個代理人，“這就是實際發(fā)生的事情，如果其他人都做了同樣的事情就會發(fā)生這種情況，但你做了不同的事情。”這種方法，福斯特的團隊于2018年2月在新奧爾良舉行的AAAI人工智能會議上，幫助每個AI單位判斷哪些行動有助于或阻礙該團隊的成功。

為了測試這個框架，F(xiàn)oerster及其同事在星際爭霸中訓練了三組五個AI單元。受過訓練的單位必須僅根據(jù)對周圍環(huán)境的觀察來行動。在由內(nèi)置的非人類對手指揮的相同球隊的戰(zhàn)斗回合中，所有三個AI組贏得了他們的大部分回合，在相同的戰(zhàn)斗場景中表現(xiàn)出三個控制的AI團隊。

終身學習

程序員在星際爭霸和星際爭霸II中測試的AI培訓類型旨在幫助AI團隊掌握單一任務，例如協(xié)調(diào)交通信號燈或無人機。星際爭霸游戲非常適合這種情況，因為對于所有移動部件而言，游戲相當簡單：每個玩家都有一個壓倒對手的單一目標。但是，如果人工智能變得更加多樣化和人性化，程序需要能夠?qū)W習更多知識并不斷學習新技能。

“我們現(xiàn)在看到的所有玩Go和國際象棋的系統(tǒng) - 他們基本上都訓練過很好地完成這一項任務，然后他們被修復以便他們無法改變，”Risi說。Risi說，一個帶有18×18網(wǎng)格的Go-playing系統(tǒng)，而不是標準的19×19游戲板，可能必須在新的主板上完全重新訓練。改變星際爭霸單位的特征需要進行相同的背對一訓練。類似樂高的Minecraft領(lǐng)域是一個更好的測試方法，使AI更具適應性。

在由3D墻塊組成的不同環(huán)境中，Minecraft玩家可以構(gòu)建結(jié)構(gòu)并探索周圍環(huán)境(上面的示例)。CHRISTOPH SALGE等人/PROC。第13屆國際比賽。CONF。關(guān)于2018年數(shù)字游戲的基礎(chǔ)

與“星際爭霸”不同，“我的世界”不會讓玩家完成任務。在這個由三維灰塵，玻璃和其他材料組成的虛擬世界中，玩家可以收集資源來建造結(jié)構(gòu)，旅行，尋找食物，并做其他任何他們喜歡的事情?？偛课挥谂f金山的軟件公司Salesforce的人工智能研究員Caiming Xiong和同事們在Minecraft中使用了一個簡單的建筑物來測試人工智能，以便不斷學習。

熊的團隊并沒有指定人工智能通過強化學習中的反復試驗來學習單一任務，而是讓人工智能的教育錯綜復雜。研究人員指導人工智能通過越來越困難的強化學習挑戰(zhàn)，從尋找特定區(qū)塊到堆疊區(qū)塊。人工智能旨在將每個挑戰(zhàn)分解為更簡單的步驟。它可以使用舊的專業(yè)知識解決每一步或嘗試新的東西。與另一個沒有使用先前知識來傳達新學習經(jīng)驗的人工智能相比，熊團隊的人工智能證明是一個更快的研究。

積累知識的人工智能在適應新情況方面也更好。熊和同事告訴兩個AI如何拾取塊。在一個只包含一個街區(qū)的簡單房間內(nèi)進行培訓時，兩個AI都獲得了“收集項目”技能。但是在一個有多個街區(qū)的房間里，離散任務AI很難確定其目標并且只有29%的時間抓住了正確的區(qū)塊。

快速吸收

一個知道如何應用過去的知識來學習新技能(深綠色)的Minecraft玩AI可以更快地學習如何成功地執(zhí)行新技能。與不依賴于舊專業(yè)知識(淺綠色)的人工智能相比，它在嘗試中獲得的獎勵高達1.0。

人工智能學習有和沒有過去的知識

資料來源：T。Shu，C。Xiong和R. Socher / 6th Internat。CONF。關(guān)于學習代表2018年

知識積累的AI知道依賴于先前學習的“查找項目”技能來在分心中定位目標對象。它在94%的時間內(nèi)獲得了正確的阻止。該研究于2018年5月在溫哥華舉行的國際學習代表大會上發(fā)表。

通過進一步的培訓，熊和同事的系統(tǒng)可以掌握更多的技能。但是這種設(shè)計受到以下事實的限制：AI只能學習人類程序員在訓練期間分配的任務。人類沒有這種教育截止。當人們完成學業(yè)時，“不喜歡，”現(xiàn)在你已經(jīng)完成了學習。你可以凍結(jié)你的大腦然后去，“Risi說。

加州大學圣地亞哥分校的機器人專家Priyam Parashar說，一個更好的人工智能將在游戲和模擬中獲得基礎(chǔ)教育，然后能夠在其整個生命周期中繼續(xù)學習。例如，如果居民安裝嬰兒門或重新安排家具，家用機器人應該能夠找到導航工作區(qū)。

Parashar及其同事創(chuàng)建了一個AI，可以識別需要進一步培訓而無需人工輸入的實例。當人工智能遇到新的障礙時，它會評估環(huán)境與預期的不同。然后它可以在心理上排練各種解決方案，想象每個解決方案的結(jié)果并選擇最佳解決方案。

研究人員在一個兩室的Minecraft建筑中用AI測試了這個系統(tǒng)。人工智能已經(jīng)接受過培訓，可以從第二個房間找回金塊。但是另一個Minecraft玩家在房間之間的門口建造了一個玻璃屏障，阻止AI收集金塊。人工智能評估了這種情況，并通過強化學習，找出了如何粉碎玻璃以完成其任務，Parashar和她的同事在2018年知識工程評論中報道。

Parashar承認，面對意想不到的嬰兒門或玻璃墻的人工智能應該可能不會得出最好的解決辦法。但她說，程序員可以為AI的心理模擬添加額外的約束 - 比如不應該破壞有價值或擁有的對象的知識 - 來告知系統(tǒng)的學習。

研究人員使用Minecraft來教授人工智能技能，例如如何設(shè)定目標和建立創(chuàng)造性結(jié)構(gòu)。LAIGE PENG和YOSHIMASA TSURUOKA /信息處理學會2018

新的視頻游戲一直在成為AI測試床。人工智能和紐約大學的游戲研究員Julian Togelius及其同事希望在Overcooked中測試合作的AIs - 這是一個團隊烹飪游戲，發(fā)生在一個緊湊，擁擠的廚房里，玩家不斷地互相攻擊。“游戲旨在挑戰(zhàn)人類的思想，”Togelius說。任何視頻游戲本質(zhì)上都是一個現(xiàn)成的測試，可以測試AI知識如何模仿人類的聰明才智。

但是當談到在視頻游戲或其他模擬世界中測試AI時，“你永遠不能說，'好吧，我已經(jīng)模擬了現(xiàn)實世界中發(fā)生的一切，'”Parashar說。彌合虛擬和物理現(xiàn)實之間的差距將需要更多的研究。

她建議，保持模擬訓練的人工智能免于過度使用的一種方法是設(shè)計需要AI在需要時向人們尋求幫助的系統(tǒng)(SN：3/2/19，第8頁)。“從某種意義上說，這使得[AI]更像人類，對嗎?”Parashar說。“我們在朋友的幫助下順利過來。”

標簽：

免責聲明：本文由用戶上傳，如有侵權(quán)請聯(lián)系刪除！