老撕雞玩荒野求生?豐色 發自 凹非寺量子位 | 公衆号 QbitAI,今天小編就來說說關于老撕雞玩荒野求生?下面更多詳細答案一起來看看吧!
豐色 發自 凹非寺
量子位 | 公衆号 QbitAI
你敢信,機器學習頂會NeurIPS的正經比賽,竟是讓你“打遊戲”,還有錢拿的那種。
你要做的就是調教一支由8個AI組成的小隊,讓它們在這樣一張地圖裡學會“荒野求生”。
在這個過程中,其他15支同樣規模的隊伍會跟你的AI争奪生存資源,所以還得會打架、搞裝備,甚至跑毒、經商……
如果你的AI特别抗揍,可以争奪單項獎裡的“坦克獎”(手動狗頭)。
如果你不想打打殺殺,還可以考慮走“經濟路線”:比賽系統中專門添加了交易系統,讓“小的們”專心搞錢(買賣裝備)也有機會赢得為鼓勵有趣策略湧現的“Gold Farmer獎”。
你說你是新手?沒關系,可以先打人機、再打排位~
可以說,簡直和咱平常玩的遊戲區别不是很大——隻不過是用你自己親手寫的代碼來比劃。
當然,不用擔心技術水平,隻要會編程,都可以來試試,赢的方式有很多種。
至于獎金,主辦方準備了20000美元,前十六名都有份。
想試試?打起來打起來~
海量AI同台大亂鬥,看AI玩轉三十六計這場比賽全稱為NeurIPS 2022-Neural MMO海量AI團隊生存挑戰賽,主辦方是超參數科技、麻省理工學院、清華大學深圳國際研究生院,以及數據科學挑戰平台AIcrowd。
正如其名,其“擂場”就來自于一個叫做Neural MMO的平台。
該平台是OpenAI于2019年發布的一個研究海量智能體策略的開源環境。
作者Joseph Suarez是MIT的一位博士生,設計靈感來自于大型多人在線角色扮演遊戲(MMORPG)。
它支持大量玩家同時在持久(不重置)、廣闊的環境中競争和對抗,且一塊桌面級CPU就能跑起來,是一個絕佳的強化學習訓練場。
基于Neural MMO的挑戰賽面向全球AI技術從業者、研究者和愛好者。
隻要你會編程就可以來玩一玩,當然,會一點強化學習算法或者運籌優化、啟發式算法的東西就更好~
具體規則上,每位參賽選手需控制一支由8個智能體組成的團隊,在128x128的地圖上和其他15支隊伍展開自由對抗。
每個智能體隻能看到15x15範圍内的東西。
地圖上有16種基本元素:
用來喝的“水”、可以獲得食物的“森林”、可正常踩踏的“草地”、擋路的“石頭”、踩到會死的“岩漿”;
可以轉化為可存儲的食物資源“魚”和“蘑菇”,可以被制作成三種彈藥的“礦石”“水晶”“松樹” ;
以及可被采集的資源被采後會退化成的“灌木叢”,它會有一定概率重新生長回來;
等等。
每一步可以執行很多動作:移動、選擇攻擊對象、選擇攻擊方式、使用背包裡的某一個裝備、購買市場上的物品、售賣一個物品并對它自由出價(在固定範圍内)。
可發起的攻擊包括近戰攻擊、遠程攻擊和魔法攻擊,都有對應的武器和彈藥來提升武力值,也有防禦護甲等裝備來提升自己的防禦值。
比賽開始後,每支隊伍随機出生于地圖邊緣,毒圈機制會讓大家慢慢聚集到地圖中間,讓對手以及高強度NPC都會被迫正面對戰,就看哪一隊KO掉的智能體數最多且存活時更長。
交易系統、毒圈機制……有趣又硬核是的,為了比賽的刺激性,不僅原本無限的遊戲時長被限制為1024步,在平台本身提供的生存和攻擊規則之外,賽事還增加了交易系統、擴充了裝備品類、設計了多職業分工和毒圈機制。
其中:
裝備系統可以讓智能體通過攻擊敵人和NPC獲取提升自己防禦力和攻擊力的物品,包括彈藥、武器、護甲等等。
交易系統則是本屆比賽最大的亮點。
智能體在每一個step都可以自由買賣手裡的裝備,隊友相比敵人具有優先購買權(不可送),售賣時需要用1-100之間的數字自行定價。
購買裝備的錢可以通過不斷擊殺NPC或其他玩家獲得。
由于每個智能體的背包容量有限,裝備滿了之後不能丢棄隻能賣,那麼賣什麼怎麼定價就成為一個問題(比如高級裝備賣出去被敵人得到就會對自己造成威脅)。
這個設定不僅給群體智能體提供了全新的交互方式,也讓它們面臨的抉擇有了更高的決策複雜度。
對于多職業分工機制來說,它的設定是為了選手可以靠打角色配合去赢得比賽。
比如擅長近戰攻擊者就一直攻克近攻能力,隻買近戰裝備,把得到的遠程和魔法攻擊的裝備都賣掉;
善于采集的智能體,則把得到的更加高級的裝備都低價賣給自己的隊友。
最後,毒圈機制規定遊戲進行到240步的時候開始縮毒,以此強迫智能體盡量進入到地圖中間的安全區域,和等級更高的NPC以及其他對手正面battle。
雙重賽道,按實力入座那麼具體怎麼個比法呢?
為了不挫敗新手玩家的積極性,比賽貼心地設置了兩個賽道:PvE和PvP。
PvE即“Player vs Environment”,在該賽道中,選手與内置AI進行比拼,一共打十局,排名第一得0.1分。
比賽有兩個Stage,内置AI策略難度逐漸提升。
不過其策略是固定的,因此參賽者就可以得到有參照性的反饋,從而根據該反饋不斷優化自己的策略,讓效果可見,提振信心。
(想想看,如果一開始就和真實選手PK,雙方都同時優化策略,該如何得知自己的優化有沒有長進呢?)
如果你在PvE環節Stage 1得到0.5分以上,那麼恭喜,可以參加主賽場了——
PvP,即“Player vs Player”,是真實參賽者之間的比拼,獎金的大頭都在這裡。
在這個賽道,一切都是未知,誰都不知道會遇上什麼樣的策略。
而你那在PvE中取得好成績的辦法,可能在與其他選手的大亂鬥中幸運脫穎而出,也可能被秒的落花流水。
PvP環節同樣并非一局定勝負,為保證公平,賽事會用類似天梯賽的排名算法來滾動排位。
這還沒完。
為了鼓勵多元化,湧現更多有意思的策略,比賽設置了兩個單項獎:
“Gold Farmer獎”和“坦克獎”。
沒錯,這個坦克指的就是T。開頭已經提過,需要智能體們學會在毒圈内外拼命橫跳、瘋狂嗑藥回血,做遊戲裡最肉的那個仔。
“Gold Farmer獎”則隻需要執着于搞錢。
不得不說,這倆獎項的設置,很有那味兒了。
關于比賽規則就介紹這麼多。
既考驗規則理解,也考驗決策深度為了減輕參賽選手熟悉環境和開始訓練的成本,主辦方特意準備了初學者工具包(Starter Kit)。
并基于Facebook的Torchbeast框架給出了一個Baseline,選手隻需用幾行代碼就可以運行Neural MMO的環境開始訓練。
此外,他們還開發了一個輕量級的Web Viewer,可以用很簡化的流程讓選手像人類觀察員一樣可視化地觀測每一局所有智能體的表現。
那麼,正文上文所說,上手簡單,且智能體學會喝水和采食就能存活,成為了比賽負責人陳嘉欣博士給出的第一個推薦參賽理由。
(如果不當比賽,看成有特定規則的任務,用來入門強化學習也可以。)
第二個推薦理由:你說它上手簡單,但也有“億點點”挑戰性。
比如Neural MMO挑戰賽就非常考驗選手的兩個能力:對遊戲本身的理解,與使用決策算法的能力。
鑒于每局環境裡有16支隊伍共128個智能體在同時學習,要想取勝,智能體們不僅需要考慮自己期望得到何種獎勵,如何配合隊友,還要考慮對手可能會采取什麼策略。
再加上每一局對戰都是多任務模式,決策鍊條很長,最後的輸赢獎勵很稀疏。
層層設置背後,都讓每個智能體面臨的“抉擇”都有着更高的決策複雜度,貼合現實的複雜決策環境。
比如它們可能就要同時解決:
具體怎麼決策,就看你如何發揮了~
最後,陳博士還表示,這次比賽新增的交易系統也十分有趣并具有看點,AI之間的交互從基本的搶奪資源和互相攻擊變得跟更加的豐富寫實了。
在這種設置下,智能體之間要學會買賣的策略,從而慢慢演化出AI的經濟行為,而之前的研究環境裡比較少見這一設置。
所以大家都是第一次玩,沒有前車之鑒鋪路,能湧現出什麼樣的策略非常值得期待。
除了以上三點,我們再聚焦到比賽背後的多智能體決策技術。
其實這項研究的成果在自動駕駛、無人機集群對抗、智慧城市、工業領域等方面都能派上用場。
再往遠了說,該技術對通用人工智能的發展也有着不可忽視的助推作用。
所以,如此有趣又有價值的比賽,你真的不來試試?
畢竟在此之外,主辦方提供了豐厚的物質獎勵。
在物質獎勵之外,獲獎者還将以共同作者身份一同被邀請撰寫Competition Report,發表在國内外技術類博客上,并可能作為NeurIPS的會議report/paper發表。
10月30日參賽DDL最後,賽程時間安排奉上:
感興趣的盆友可以掃描下圖中的二維碼參賽~
— 完 —
量子位 QbitAI · 頭條号簽約
關注我們,第一時間獲知前沿科技動态
更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!