您的位置: 首頁 >互聯(lián)網(wǎng) >

在棋盤游戲中擊敗人類在AI世界中是過時的

2019-05-13 11:38:41 編輯: 來源:
導(dǎo)讀 在棋盤游戲中擊敗人類在AI世界中是過時的?,F(xiàn)在,頂尖的學(xué)者和科技公司希望在視頻游戲中挑戰(zhàn)我們。今天,由Elon Musk和Sam Altman創(chuàng)立的

在棋盤游戲中擊敗人類在AI世界中是過時的?,F(xiàn)在,頂尖的學(xué)者和科技公司希望在視頻游戲中挑戰(zhàn)我們。今天,由Elon Musk和Sam Altman創(chuàng)立的研究實驗室OpenAI宣布了其最新的里程碑:一個AI代理團(tuán)隊,可以在流行的戰(zhàn)斗競技場游戲Dota 2中擊敗業(yè)余愛好者的前1%。

你可能還記得OpenAI 去年8月首次進(jìn)入Dota 2 的世界,推出了一個可以在1v1比賽中擊敗頂級球員的系統(tǒng)。然而,這種游戲類型大大減少了Dota 2的挑戰(zhàn).OpenAI現(xiàn)在已經(jīng)升級其機(jī)器人在5v5對戰(zhàn)中扮演人類,這需要更多的協(xié)調(diào)和長期規(guī)劃。雖然OpenAI尚未挑戰(zhàn)該游戲最優(yōu)秀的玩家,但它將在今年晚些時候在The International舉行,這是Dota 2錦標(biāo)賽,這是電子競技日歷上最大的年度賽事。

像這樣的研究動機(jī)很簡單:如果我們能夠教授人工智能系統(tǒng)玩視頻游戲所需的技能,我們可以用它們來解決復(fù)雜的現(xiàn)實挑戰(zhàn),這些挑戰(zhàn)在某些方面類似于視頻游戲 - 例如,管理城市的交通基礎(chǔ)設(shè)施。

“這是一個令人興奮的里程碑,它真的是因為它是關(guān)于過渡到真實應(yīng)用程序,”OpenAI的聯(lián)合創(chuàng)始人兼首席技術(shù)官Greg Brockman告訴The Verge。“如果你有一個問題的模擬,并且你可以運(yùn)行它足夠大的規(guī)模,那么你可以用它做什么就沒有障礙。”

從根本上說,視頻游戲提供了像國際象棋或Go這樣的棋盤游戲所面臨的挑戰(zhàn)。他們隱藏了玩家的信息,這意味著AI無法感知整個比賽場地并計算出最佳的下一步動作。還有更多要處理的信息和大量可能的動作。OpenAI表示,在任何時候,它的Dota 2機(jī)器人必須在1,000個不同的動作之間進(jìn)行選擇,同時處理代表游戲中發(fā)生的事件的20,000個數(shù)據(jù)點(diǎn)。

為了創(chuàng)建他們的機(jī)器人,實驗室轉(zhuǎn)向了一種稱為強(qiáng)化學(xué)習(xí)的機(jī)器學(xué)習(xí)方法。這是一種看似簡單的技術(shù),可以產(chǎn)生復(fù)雜的行為。AI代理人被投入到虛擬環(huán)境中,在那里他們自學(xué)如何通過反復(fù)試驗來實現(xiàn)目標(biāo)。程序員設(shè)置所謂的獎勵功能(為諸如殺死敵人之類的東西授予機(jī)器人點(diǎn)數(shù)),然后他們讓AI代理人一遍又一遍地玩。

對于這批新的Dota機(jī)器人來說,自我玩耍的數(shù)量是驚人的。每天,機(jī)器人以加速的速度玩了180 年的游戲時間。他們在幾個月的時間里以這種速度接受訓(xùn)練。“它開始時是完全隨機(jī)的,在地圖上游蕩。然后,經(jīng)過幾個小時,它開始學(xué)習(xí)基本技能,“布羅克曼說。他說,如果需要12,000到20,000小時的人力來學(xué)習(xí)成為一名專業(yè)人士,那就意味著OpenAI的代理人“每天都會玩100次人類生活。”

一方面,這證明了當(dāng)代機(jī)器學(xué)習(xí)方法和處理大量數(shù)據(jù)的最新計算機(jī)芯片的強(qiáng)大功能。另一方面,它提醒人們?nèi)绾螐母旧嫌薮赖腁I代理人。如果人類花費(fèi)數(shù)千年的時間來學(xué)習(xí)如何玩單個視頻游戲,那么我們就不會是一個物種。

OpenAI的機(jī)器人仍然受到限制。例如,他們只玩了115個英雄中的5個,包括Necrophos(如圖)。 圖片:閥門

雖然OpenAI的機(jī)器人現(xiàn)在正在玩5v5比賽,但他們?nèi)匀粵]有接觸到Dota 2的全部復(fù)雜性。存在許多限制。他們只使用了115位英雄中的5位,每位都有自己的打法。(他們的選擇:Necrophos,Sniper,Viper,Crystal Maiden和Lich。)他們的決策過程中的某些元素是硬編碼的,比如他們從供應(yīng)商處購買的物品以及他們使用游戲中體驗點(diǎn)升級的技能。游戲的其他棘手部分已被完全禁用,包括隱身,召喚和病房的放置,這些物品充當(dāng)遠(yuǎn)程攝像機(jī),在高級游戲中至關(guān)重要。(正如一位游戲指南警告的那樣,“如果有任何話題讓新人感到困惑,那就太過分了。”)

OpenAI的代理商還擁有您對計算機(jī)的所有優(yōu)勢。他們的反應(yīng)時間比人類快,他們不會錯過點(diǎn)擊,他們可以即時,準(zhǔn)確地訪問數(shù)據(jù),如項目庫存,英雄的健康狀況,以及地圖上物體之間的距離,這對正確使用某些物品至關(guān)重要。法術(shù)。這是人類玩家必須手動檢查或本能判斷的所有信息。

所有這些似乎都是對機(jī)器人能力的起訴,但布羅克曼認(rèn)為這是一種分心。他表示,在Dota 2中玩平均持續(xù)45分鐘的整個游戲的能力確實使OpenAI的代理商與眾不同。這種長期規(guī)劃被認(rèn)為很難甚至不可能通過強(qiáng)化學(xué)習(xí)來教授,但OpenAI的工作表明不然。布羅克曼說,他們成功的主要原因只是他們帶來了更多的計算機(jī)能力來解決這個問題。“這真的與規(guī)模有關(guān),”他說。

巴斯大學(xué)人工智能研究員安德烈亞斯·西奧多羅(Andreas Theodorou)表示,對5v5游戲的最新研究向前邁出了一大步,盡管他指出,最重要的成就可能是OpenAI使用可視化來調(diào)試他們的經(jīng)紀(jì)人 (這些交互式可視化可以在這里看到。)“這些技術(shù)顯示,一般來說,強(qiáng)化學(xué)習(xí)和機(jī)器學(xué)習(xí)系統(tǒng)一般都是透明的,”Theodorou告訴The Verge。這些附加組件“增加了系統(tǒng)的價值”,他說,特別是出于教育目的。

Theodorou說,研究人員使用單獨(dú)的獎勵功能來鼓勵機(jī)器人一起工作也是值得注意的。這個獎勵功能被標(biāo)記為“團(tuán)隊精神”,并且在每場比賽的過程中都有所增加。機(jī)器人開始每個游戲追求個人目標(biāo),比如摧毀殺戮,但隨著時間的推移,他們更多地關(guān)注共同的目標(biāo)。

布羅克曼說,與人類玩家不同,這意味著絕對“沒有自我”。他告訴The Verge,“機(jī)器人完全愿意為了更大的利益而犧牲一條車道或放棄英雄。” “為了好玩,我們有一個人來幫助更換其中一個機(jī)器人。我們沒有訓(xùn)練他們做任何特別的事,但他說他感覺得到了如此好的支持。他想要的任何東西,機(jī)器人都得到了他。“

OpenAI的機(jī)器人團(tuán)隊目前已經(jīng)與業(yè)余和半游戲團(tuán)隊進(jìn)行了五場多場比賽,贏得了四場比賽并贏得了一場比賽。但是他們最大的挑戰(zhàn)將在今年晚些時候在國際上展出。具有完美時間和沒有自我的機(jī)器能否與人類專業(yè)人士的流暢和直觀的游戲相匹配?在這一點(diǎn)上,這是任何人的游戲。


免責(zé)聲明:本文由用戶上傳,如有侵權(quán)請聯(lián)系刪除!

精彩推薦

圖文推薦

點(diǎn)擊排行

2016-2022 All Rights Reserved.平安財經(jīng)網(wǎng).復(fù)制必究 聯(lián)系QQ280 715 8082   備案號:閩ICP備19027007號-6

本站除標(biāo)明“本站原創(chuàng)”外所有信息均轉(zhuǎn)載自互聯(lián)網(wǎng) 版權(quán)歸原作者所有。