中國(guó)福建網(wǎng)

當(dāng)前位置:中國(guó)福建網(wǎng) > 熱文 > 正文

Dota之后,《王者榮耀》也被AI攻陷,勢(shì)把人類頂級(jí)玩家拉下馬

作者: 編輯 來(lái)源:互聯(lián)網(wǎng) 發(fā)布時(shí)間:2018-12-25

┊文章閱讀:

騰訊AI Lab團(tuán)隊(duì)在arXiv發(fā)表論文,通過(guò)對(duì)AI進(jìn)行訓(xùn)練,并與《王者榮耀》頂級(jí)人類玩家PK,最后獲得了48%的勝率。

終于,AI還是對(duì)《王者榮耀》下手了。

19日,騰訊AI Lab團(tuán)隊(duì)在arXiv上發(fā)表文章,訓(xùn)練AI大戰(zhàn)人類玩家,而此次所選擇的游戲,正是火遍大江南北的手游——《王者榮耀》。

論文地址:https://arxiv.org/pdf/1812.07887.pdf

騰訊團(tuán)隊(duì)表示,游戲AI的下一個(gè)挑戰(zhàn)是即時(shí)策略(RTS)游戲。在與頂尖人類玩家大戰(zhàn)250回合之后,取得了48%的勝率!

AI“殺戮”王者峽谷

近年來(lái),微觀層面的操作取得了很大的進(jìn)步,但宏觀戰(zhàn)略的完整解決方案仍然缺乏。

騰訊AI Lab團(tuán)隊(duì)提出了一種新的基于學(xué)習(xí)的分層宏觀策略模型,用于掌握RTS子類型游戲——MOBA游戲。

在層次宏觀戰(zhàn)略模型的訓(xùn)練下,智能體能夠明確地做出宏觀戰(zhàn)略決策,并進(jìn)一步指導(dǎo)其微觀層面的操作。

此外,每個(gè)智能體都可以在做出獨(dú)立的戰(zhàn)略決策的同時(shí),通過(guò)利用一種新穎的模仿交叉通信機(jī)制與盟友進(jìn)行溝通。

團(tuán)隊(duì)從《王者榮耀》職業(yè)聯(lián)賽(KPL)比賽和訓(xùn)練中收集了30萬(wàn)個(gè)游戲回放記錄。最后,用于訓(xùn)練的實(shí)例數(shù)量高達(dá)2.5億個(gè)。

在視覺方面,團(tuán)隊(duì)提取了85個(gè)特征,例如所有單位的位置和生命點(diǎn),然后將視覺特征模糊為12*12的分辨率;在屬性方面,團(tuán)隊(duì)提取了181個(gè)特性,如英雄角色、游戲時(shí)間、英雄ID、英雄的金幣和等級(jí)狀態(tài)以及死亡、助攻量統(tǒng)計(jì)。

團(tuán)隊(duì)將卷積層和完全連接層混合使用,分別從視覺和屬性特征方面獲取輸入。

而如何開局是MOBA最重要的策略之一。

下圖展示了通過(guò)模型學(xué)到不同英雄的開局注意力。每個(gè)子圖由兩個(gè)正方形組成。左側(cè)方形圖表示右側(cè)MOBA mini-map的注意力分布。

不同英雄的開場(chǎng)策略。最熱的區(qū)域用紅色圓圈標(biāo)出。

從左至右分別是貂蟬(法師,中路)、韓信(刺客,打野)、亞瑟(戰(zhàn)士,輔助)、后裔(射手,下路)。

根據(jù)注意力預(yù)測(cè),貂蟬將去中路,韓信將去藍(lán)Buff區(qū)域,亞瑟和后裔將去紅Buff區(qū)域,除此之外,宮本武藏(戰(zhàn)士,上單)將去上路發(fā)育。

這樣的開局策略在《王者榮耀》中非常流行。

隨著游戲的進(jìn)行,注意力的分布是會(huì)發(fā)生變化的,如下圖所示:

為了體現(xiàn)宏觀策略、跨智能體通信機(jī)制以及相位層的重要性,團(tuán)隊(duì)設(shè)計(jì)了如下實(shí)驗(yàn)進(jìn)行比較:

團(tuán)隊(duì)刪除了宏觀策略,并加入錄像中的微觀操作來(lái)訓(xùn)練模型。微觀模型的設(shè)計(jì)類似于OpenAI Five;在沒有跨智能體通信機(jī)制的情況下,將HMS與經(jīng)過(guò)訓(xùn)練的HMS進(jìn)行匹配;刪除相位層,并將其與完整版HMS進(jìn)行了比較;為了更準(zhǔn)確的評(píng)估AI的表現(xiàn),還邀請(qǐng)了250位人類玩家團(tuán)隊(duì),他們的排名處于前1%。同樣,游戲規(guī)則和正常玩法一樣,也會(huì)涉及BAN英雄。

其結(jié)果如下表所示:

比賽統(tǒng)計(jì)。250場(chǎng)比賽是針對(duì)人類玩家,40場(chǎng)比賽分別針對(duì)無(wú)宏觀策略、無(wú)交流和無(wú)階段的比賽。

MOBA游戲介紹:以《王者榮耀》為例

MOBA類游戲現(xiàn)在占世界網(wǎng)絡(luò)游戲市場(chǎng)的30%,Dota、《王者榮耀》、《英雄聯(lián)盟》均屬此類游戲。MOBA類游戲在PC游戲和移動(dòng)平臺(tái)游戲市場(chǎng)上均排名首位。

一局標(biāo)準(zhǔn)的游戲是5V5的組隊(duì)對(duì)抗賽,每個(gè)玩家控制一個(gè)單位,即英雄。王者榮耀中有80多個(gè)英雄可供選用,每個(gè)英雄有不同的戰(zhàn)斗特點(diǎn)和技能。玩家在游戲控制英雄移動(dòng),并釋放技能。

如圖所示。玩家使用左下角轉(zhuǎn)向按鈕來(lái)控制移動(dòng),而右下角則設(shè)置按鈕來(lái)控制技能??赏ㄟ^(guò)主屏幕觀察周圍環(huán)境,還可以通過(guò)左上角迷你地圖了解完整的地圖情況,其中可觀察的炮塔,小兵和英雄顯示為縮略圖。只有當(dāng)他們是盟友的單位或與盟友單位相距一定距離內(nèi)時(shí)才能觀察到該單位。

每個(gè)隊(duì)都有三組防御塔,每路各有三個(gè)塔。地圖上還有四個(gè)叢林區(qū)域,可以收集資源以增加金錢和經(jīng)驗(yàn)。每個(gè)英雄都以最低金幣值和等級(jí)1出生。兩隊(duì)都試圖利用資源獲得盡可能多的黃金和經(jīng)驗(yàn),以購(gòu)買物品和升級(jí)。最終目標(biāo)是摧毀敵人的基地。 MOBA的概念圖如圖所示。 1B。

要想精通MOBA游戲,玩家需要具備出色的宏觀策略操作和熟練的微操。常見的宏觀策略包括開放,限制,傳遞消息,伏擊等。熟練的微觀層面執(zhí)行需要高度的控制準(zhǔn)確性和對(duì)技能的損害和影響的深刻理解。宏觀策略操作和微觀層次執(zhí)行都需要掌握優(yōu)秀的時(shí)機(jī),這使得它極具挑戰(zhàn)性和趣味性。

(a)《王者榮耀》的游戲UI。玩家使用左下角轉(zhuǎn)向按鈕來(lái)控制動(dòng)作,而右下角則設(shè)置按鈕來(lái)控制技能。玩家可以通過(guò)屏幕觀察周圍環(huán)境,并使用左上角查看小地圖。(b)MOBA的示例地圖。這兩支隊(duì)伍的顏色為藍(lán)色和紅色,每個(gè)隊(duì)伍有9個(gè)炮塔(圓圈)和一個(gè)基地(方塊)。四個(gè)叢林區(qū)域的編號(hào)從1到4

下面以《王者榮耀》為例,對(duì)MOBA的計(jì)算復(fù)雜度進(jìn)行量化。

MOBA游戲計(jì)算復(fù)雜度的量化

一局《王者榮耀》一般游戲長(zhǎng)度約為20分鐘,即游戲核心約為20000幀。在每一幀中,玩家需要在數(shù)十個(gè)選項(xiàng)中做出決定,包括24方向的移動(dòng)方向控制,以及向相應(yīng)的位置/方向上釋放技能等。即使具有顯著的離散化和簡(jiǎn)化處理,并將最快反應(yīng)時(shí)間增加到200ms,需要處理動(dòng)作空間也達(dá)到101500

至于狀態(tài)空間,王者榮耀地圖的分辨率是130,000*130,000像素,每個(gè)單位的直徑是1000像素。在每一幀上,每個(gè)單位可能有不同的狀態(tài),如生命值,等級(jí),金幣數(shù)量等。同樣,狀態(tài)空間大小為1020,000。下表中列出了MOBA和圍棋之間的動(dòng)作空間和狀態(tài)空間復(fù)雜度的比較。

圍棋和MOBA游戲的計(jì)算復(fù)雜度比較

MOBA游戲中AI的宏觀戰(zhàn)略架構(gòu)

我們?cè)O(shè)計(jì)MOBA AI宏觀戰(zhàn)略模型的動(dòng)機(jī)源于人類玩家如何做出戰(zhàn)略決策。在MOBA游戲中,經(jīng)驗(yàn)豐富的人類玩家完全了解游戲的每個(gè)階段,例如開局階段,推線階段,游戲中期和游戲后期階段。在每個(gè)階段中,玩家都會(huì)關(guān)注游戲地圖,并根據(jù)英雄的位置做出相應(yīng)的決定。例如,在推線階段,玩家傾向于更多地關(guān)注自己所在的路,而不是去支持隊(duì)友,而在中后期階段,玩家更多地關(guān)注團(tuán)戰(zhàn)點(diǎn),并推向敵人的基地。

綜上所述,我們將宏觀戰(zhàn)略運(yùn)作過(guò)程表述為“階段識(shí)別 - >關(guān)注預(yù)測(cè) - >執(zhí)行”。為了模擬這個(gè)過(guò)程,我們提出了一個(gè)兩層的宏觀策略架構(gòu),即階段層和注意力層:

? 階段層負(fù)責(zé)識(shí)別當(dāng)前的游戲階段,以便注意力層可以更好地了解應(yīng)該注意的位置。

? 注意力層旨在預(yù)測(cè)游戲地圖上的最佳區(qū)域,將英雄移動(dòng)至該區(qū)域。

階段層和注意力層充當(dāng)微級(jí)執(zhí)行的高級(jí)指導(dǎo)。我們將在下一節(jié)中描述建模的細(xì)節(jié)。微觀模型的網(wǎng)絡(luò)結(jié)構(gòu)幾乎與OpenAI Five1中使用的網(wǎng)絡(luò)結(jié)構(gòu)相同,但是采用監(jiān)督學(xué)習(xí)方式。我們做了一些小修改,以使其適應(yīng)王者榮耀,比如刪除了瞬移技能。

分層宏觀戰(zhàn)略模型

我們提出了一種分層宏觀策略(HMS)模型,以在統(tǒng)一的神經(jīng)網(wǎng)絡(luò)中考慮階段層和注意力層。我們將首先介紹統(tǒng)一的網(wǎng)絡(luò)架構(gòu)。然后,我們將說(shuō)明如何構(gòu)建每個(gè)階段層和注意力層。

概述

我們提出了一種分層宏觀策略模型(HMS),將注意力層和相位層作為多任務(wù)模型進(jìn)行建模。它將游戲功能作為輸入。輸出包括兩個(gè)任務(wù),即將注意力層作為主要任務(wù),階段層作為輔助任務(wù)。注意力層的輸出直接將宏觀策略嵌入,傳遞給微觀模型,而資源層則作為一個(gè)有用的任務(wù),細(xì)化注意力層和階段層任務(wù)之間的共享層。 HMS的網(wǎng)絡(luò)結(jié)構(gòu)如圖所示。

HMS將圖像和矢量特征作為輸入,分別承載視覺特征和全局特征。在圖像部分使用卷積層。在矢量部分使用全連接層。圖像和矢量部分合并在兩個(gè)單獨(dú)的任務(wù)中,即注意力層和階段層。最終,注意力和階段任務(wù)從共享層通過(guò)自己的層輸出,并輸出到計(jì)算損失。

注意力層

與玩家根據(jù)游戲地圖做出決策的方式類似,注意力層會(huì)預(yù)測(cè)智能體移動(dòng)的最佳目標(biāo)區(qū)域。但是,從數(shù)據(jù)中判斷出玩家的目的地在哪里是很困難的。我們觀察到,發(fā)生攻擊動(dòng)作的區(qū)域可以指示玩家英雄的移動(dòng)目的地。根據(jù)這一觀察,我們將地面真實(shí)區(qū)域定義為玩家進(jìn)行下一次攻擊的區(qū)域。如圖所示。

設(shè)s為包含多個(gè)幀的游戲中的一個(gè)會(huì)話,s-1表示s之前的會(huì)話。 s - 1是游戲中的第一個(gè)會(huì)話。讓ts成為s的起始框架。請(qǐng)注意,會(huì)話以攻擊行為結(jié)束,因此在英雄進(jìn)行攻擊的ts中存在區(qū)域y。如圖所示。s-1的標(biāo)簽是ys,而s的標(biāo)簽是ys + 1。直觀地說(shuō),以這種方式設(shè)置標(biāo)簽,是希望智能體學(xué)會(huì)在游戲開始時(shí)移動(dòng)到y(tǒng)s處。

階段層

階段層旨在識(shí)別當(dāng)前的游戲階段。提取關(guān)于游戲階段基礎(chǔ)信息是很困難的,因?yàn)槿祟愅婕沂褂玫碾A段定義是抽象的。雖然游戲階段與時(shí)間大致相關(guān),但是更多取決于對(duì)當(dāng)前比賽情況的復(fù)雜判斷,這使得想從重放錄像中提取真實(shí)的比賽階段信息非常難。

幸運(yùn)的是,我們觀察到游戲階段與主要資源數(shù)量之間的存在明顯的關(guān)聯(lián)。例如,在開局階段,玩家通常會(huì)瞄準(zhǔn)外塔和baron,而在游戲后期,玩家會(huì)操縱目標(biāo)摧毀敵人的基地。

因此,我們對(duì)主要資源進(jìn)行階段性建模。更具體地說(shuō),主要資源表示炮塔、baron、龍和基地。我們?cè)趫D4A中標(biāo)出了地圖上的主要資源。對(duì)階段層的標(biāo)簽定義類似于注意力層。唯一的區(qū)別是,階段層中的ys表示對(duì)炮塔,baron、和基地的攻擊行為,而不是區(qū)域。我們不會(huì)將其他資源(如英雄、小兵和中立生物)視為主要目標(biāo),因?yàn)橥ǔ_@些資源是為了實(shí)現(xiàn)更大的目標(biāo),例如摧毀炮塔或基地。

對(duì)多智能體間的通信的模擬

多智能體間的通信對(duì)于智能體團(tuán)隊(duì)合作至關(guān)重要。關(guān)于多智能體強(qiáng)化學(xué)習(xí)研究中的通信問題已有很多研究文獻(xiàn)。然而,在監(jiān)督學(xué)習(xí)中使用訓(xùn)練數(shù)據(jù)來(lái)學(xué)習(xí)通信是具有挑戰(zhàn)性的,因?yàn)閷?shí)際的通信情況是未知的。

為了使智能體能夠在監(jiān)督學(xué)習(xí)環(huán)境中進(jìn)行通信,我們?cè)O(shè)計(jì)了一種新的通信機(jī)制。在訓(xùn)練階段,我們將盟友的注意力標(biāo)簽作為訓(xùn)練特征。在測(cè)試階段,我們將盟友的注意力預(yù)測(cè)作為特征進(jìn)行相應(yīng)的決策。通過(guò)這種方式,我們的智能體可以實(shí)現(xiàn)彼此“溝通”。

【來(lái)源:新智元】

  • 牙齒美容
  • 好愛卡
  • pe管
  • 裝修平臺(tái)
  • 植物提取物網(wǎng)
  • 源碼論壇
  • 激光打標(biāo)機(jī)
  • 丹泊儀器
  • 礦山生態(tài)修復(fù)
  • 青島月子會(huì)所
  • 南京刑事律師