估計經常玩王者榮耀的人,都應該對一個詞不陌生—— “ 王者絕悟 ” 。
它是王者榮耀和騰訊 AI Lab 團隊共同打造的一個策略協作型 AI 。
在 2019 年《 王者榮耀 》世界冠軍杯的特設環節,它打敗了職業選手賽區聯隊,一鳴驚人。
當天它還在 ChinaJoy 進行了 504 場 1V1 比賽,面對一衆實力強勁的玩家,最終隻輸了一場,輸給了當時的國服第一後羿,總體勝率高達 99.8% 。
後來王者絕悟進一步面向普通玩家限時開放,去年 11 月限時開放的 20 個挑戰關卡更是讓每個玩家都體會到了王者絕悟的厲害。
這麼說吧,像王者絕悟這樣的 AI ,它通過強化學習機制經曆無數對戰,一天的訓練強度高達人類 440 年,對自己的能力特别有 B 數,啥大風大浪都見過。
能打過就會上,打不過絕不剛,抱團支援賊溜,越塔強殺也會。
對技能的方位和時間的把控異常精準,彼此間合作天衣無縫,坐擁頂級拉扯戰術。
2019 年的絕悟就已經會輪流抗塔分攤傷害了 ▼
普通人正常打肯定打不過,隻好到快手等平台去搜些特殊戰術,才能勉強拿個 “ 智極·絕悟 ” 的标簽。
大家紛紛感歎 AI 現在居然已經這麼強大了。
可能很多人都有相同的感知,現在遊戲 AI 的發展或多或少都受了當年 AlphaGo 的影響。
2016 年 AlphaGo Lee 與李世乭的大戰堪稱人機大戰的轉折點,在這之前人們不相信機器能夠勝任圍棋這種高智商的遊戲,但事實證明了AI 的潛力。
後來 AlphaGo Master 在棋壇橫掃一衆棋手,把 Lee 那一版的缺陷補足,便再無對手,柯潔與之對弈也隻能投子認輸。
到了AlphaGo Zero 這一代, AI 已經摒棄了學習人類棋譜這一步,通過大量自我對戰,隻需要短短的時間,從能瞎走的小白,就能蛻變成段位極高的大師,甚至發展出人類不曾想到的招數。
隻用了3 天, AlphaGo Zero 就把赢過李世乭的 AlphaGo Lee 踩到了腳下, 21 天就打敗 AlphaGo Master 。
也就是說,AlphaGo Zero 證明了,隻要人們給輸入規則和目标,程序就可以經過自我博弈不斷進步,也能成為身經百戰的頂流大師。
這種 “ 無師自通,自學成才 ” 的本事,立刻在學術界和民間掀起滔天巨浪。
這套自我博弈的方法就是機器學習理論中的 —— “ 強化學習 ”。
強化學習能解決哪些問題?這套方法解決問題的極限在哪裡?
研究人員把目光從圍棋這種棋牌遊戲,打量到星際争霸、Dota2 這些複雜策略的遊戲身上。
這類遊戲的複雜度可比圍棋高多了,因為它們可能包含豐富的畫面信息,還涉及多人對戰,戰争迷霧、即時戰略、第一人稱射擊等元素。
所以在開發這類AI 時,會遇到多智能體協同策略,不完全信息等等技術難題,更有挑戰性。
AlphaStar 就是 DeepMind 團隊
打造的星際争霸 AI ▼
這幾年,針對星際争霸、Dota 2等不同遊戲的 AI 不斷出現,當然,王者絕悟也是其中之一。
說起來大家可能會覺得驚訝,但王者榮耀這樣的遊戲中,玩家的動作狀态空間能高達 10 的 20000 次方,遠遠超過宇宙原子總數的 10 的 80 次方。
在如此浩瀚的運算空間裡,要做出王者絕悟那樣高效準确的決策,可想而知這挑戰有多大。
基于王者絕悟的研究方法和經驗,王者榮耀和騰訊 AI Lab 還搞了一個 AI 開放研究平台 —— 開悟。
最近,騰訊舉辦了一個名為 “ 開悟多智能體強化學習大賽 ” 的活動,并邀請國内包括北大、清華、中科大等二十餘所國内外頂尖院校的學霸們參加比賽。
簡單來說,這個比賽就是要求高校師生訓練出一個屬于自己的 mini 版 “ 絕悟 ” ,然後導入王者榮耀一決高下。
在比賽中,各大高校的教授和學霸們會利用開悟平台研究如何用算法解決單、多智能體解決方案,模型結構設計,強化學習算法設計、獎勵函數設計等問題。
比賽模式包括1v1墨家機關道、3v3長平攻防戰,規則與我們玩家在王者榮耀日常接觸到的一樣,最先推倒對方水晶的一方獲勝。
今年已經是第二屆比賽了,去年第一屆賽程還使用過5v5 夢境大亂鬥,冠軍被中科大收入囊中。
肯定有差友好奇,AI 到底怎麼經過自我博弈,最終學會玩王者榮耀的?
那給大家看看魯班七号AI 的進化之路,我們以訓練 10 分鐘,1小時,12小時為節點,分别看看 AI 的水平有怎樣的變化。
(下方動圖裡,左上角能看小地圖,會顯示紅藍雙方的位置)
這個是訓練了 10 min 的 AI,可以說這時候的 AI 菜得摳腳,仿佛完全不知道要做啥。。。
10min AI ▼
對戰開始,紅藍兩方的小魯班 AI 出了塔之後都非常迷茫,一臉的 “我是誰?我在哪?”,兜兜轉轉瞎溜達,技能也在瞎放。
迷糊了兩分鐘,藍方的小魯班才跌跌撞撞走到了兵線附近。(左上角能看到紅方還在迷茫中。。。)
這時藍方魯班發現,站在兵線前随意的平A 就可以獲得金錢的獎勵。
并且紅方一直沒出水晶,藍方連 2、3 技能都沒按出來,就已經鎖定勝局。
有意思的是,這時候魯班雖然不知道主動進攻,卻知道抗塔會掉血,看來以前經曆過不少教訓。
據我猜測,通過這一局 AI 就會知道,走中間有兵線的地方平 A 就能得到經濟。
那麼 AI 經過 1h 的對戰訓練後,水平又如何了呢?
1h AI ▼
戰局一開始,紅藍兩方都開始跌跌撞撞往中間走,看來 AI 已經知道了中間兵線有經濟。
紅藍相見分外眼紅,直接硬剛,藍方險勝。
看來此時 AI 還沒學會血量少的時候要苟一下,隻知道拿下對方人頭就可以獲得經濟。
訓練了 1 小時的 AI 終于知道放特殊技能了,可惜技能 2 和技能 3 基本就是瞎按,沒有一星半點的準頭。。。
不過相對于 10min 的版本,還是有不小的進步~
最終藍方堅定的在小兵的掩護下推了塔,盡管紅方也知道守塔,顯然大勢已去,無能為力了。
那訓練了12 小時的 AI 會怎樣呢?
對戰開始,紅藍雙方迅速在兵線附近狹路相逢,二話不說上來就對噴。
12h AI ▼
藍方因為靠小兵太近,中間不小心火力被兵線吸引了一下,被紅方取得優勢。
這時大家會發現這時的 AI 已經學會在血量較少的時候後撤,可惜在邊退邊戰的時候被噴死了。
繼續觀看比賽,發現 AI 還學會了在血量少的時候舔血包,甚至懂得回家加血!
藍方魯班舔血包 ▼
紅方魯班缺血後回家補血
滿血後回來反殺 ▼
而且,魯班的 2 技能的準确率也直線上升,3 技能也知道要在兵線和敵方身前釋放。
所以,雖然看起來這個訓練了 12 小時的 AI 動作還是蠢萌蠢萌的,跟人類比起來意識也不行,可是相比較于隻學習了 10 分鐘的 AI 強多了。
這就是強化學習 AI 的厲害之處,隻要規劃合理,繼續訓練就會變得越來越厲害,直到無法成長。
而學生需要做的就是:優化算法,提高 AI 的上限,縮短 AI 的成熟路徑。
紙上讀來終覺淺,其實這種算法、模型,隻有自己親身去實踐,才能知道書本上的公式和理論是如何在真實世界中發揮作用。
為了讓學生好好比賽,王者榮耀和騰訊 AI Lab 把一切都包圓了。
需要算力?直接開放雲平台,隻需要上傳模型,睡一覺就練好;想複盤模型好壞?模型的對戰形成的錄像随便觀看;比賽的底層信息太雜了?直接把遊戲場景和英雄行為打包成數據接口,直接調用就成……
估計很多人好奇了,這種比賽有什麼意義麼?
想當初,AlphaGo 在圍棋界大殺四方時,有人不屑的表示,隻會下棋的AI 能有什麼用?
但 4 年後,它的後輩 Alpha Fold 便在 CASP 蛋白質結構預測比賽上,解決困擾了人類 50 年來的蛋白折疊問題。
很多人評價說這是能與諾貝爾獎齊名的成就,因為它可以從根本上改變很多生物學的研究方式。
Alpha Fold 在預測蛋白質如何折疊上準确的離譜,準到大家不敢相信這是真的。
在下面的動圖裡,綠色是實驗測量得出的蛋白質結構,藍色是 Alpha Fold 的預測結果,兩個蛋白質樣本的實驗結果和預測結果幾乎重合。
人們原本預估能達到這種準确率的方法要幾十年後才會面世。
但是它就這麼突然出現了,就像當年的AlphaGo 一樣。
這是偶然麼?或許這也是必然。
當年研究AlphaGo 積攢的人才、經驗和學術成就,讓Alpha Fold 的研究如虎添翼,而現在他們已經盯上天體物理、計算化學等基礎科學領域。
人們這幾年瘋狂刷 “ ImageNet ” 圖像識别準确率、參加 Kaggle 機器學習比賽,不斷互相競争和學習,把圖像處理、機器學習推向高峰,我們生活中接觸到的面部識别、AI 捏臉等都沾了這些成果的光。
現在問題來了,AI 學會打遊戲有什麼意義呢?
其實王者絕悟、星際争霸 AI 背後遇到的技術難題,包括不完全信息、多智能體協同策略等等,其中得到經驗和方法,沒準也可以在未來的醫療、智能工業、自動駕駛、智慧城市等領域得到應用。。。
舉個例子,如果把每個紅綠燈都看作一個智能體,那麼這些紅綠燈應該怎麼配合才能讓車流更加順暢,減少交通堵塞?
雖然這看起來和王者榮耀的場景并不一樣,但實際上解決起來背後的算法是互通的,就是協同策略的問題。
我們又知道,評價 AI 算法優劣是很困難的一件事。
譬如我們要驗證自動駕駛技術,如果我們一開始就造個車或者造個真實場景來驗證,成本很大,很浪費。
後面英偉達、Google等公司、甚至獨立的開發者們都開始在 《GTA5》 上訓練無人駕駛 AI。
B站@XuDongLiang_自制自動駕駛AI ▼
在遊戲上驗證,研究員們就可以專心研究算法,而不用糾結平台的建造和成本問題。
如果要評價遊戲對于 AI 研究的意義,舉個類似的感覺,就像是果蠅對于生物研究的意義,因為它們都是成本低廉且便捷的。
同時,AI 研究領域也有個說法 “ 下一個 AI 裡程碑,可能會在複雜策略遊戲中誕生 ”。
為了搶占先機,世界頂尖的科技公司都在探索相應的技術,讓 OpenAI 一炮而紅的 OpenAI Five、DeepMind 的星際争霸 AI AlphaStar、連 Facebook 也在打造 AI CherryPi,當然也包括騰訊的王者絕悟。
論文中王者絕悟的訓練模型 ▼
而王者榮耀和騰訊AI Lab合作搭建的開悟平台,為國内AI學術界提供了一個試驗場,讓國内高校也能在複雜策略遊戲中開展研究。
将來,開悟還要和北大、中科大等高校一起開發 AI 課程。
按照王者榮耀執行制作人、騰訊天美L1總經理黃藍枭的話來說,他們為此開放了《王者榮耀》的核心機制,提供标準接口、核心算法、脫敏的測試數據、評估工具和計算集群等,給高校師生進行多智能體的機器學習算法研究、學習成果交流、對算法成果反複叠代升級提供便利條件。
遊戲和學習相結合,早幾年有這好事兒估計鲫魚也是 AI 研究員了。。。
也許,現實社會中的問題比遊戲中的要複雜的多,但我們想要在這個領域獲得突破,就少不了一步一個腳印的去積累,去成長。
去年跟王者絕悟死磕到底的我,現在也可以驕傲的說一聲,當年咱也是參加過全民級 AI 研究的人~
,
更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!