AI擊敗末影龍指日可待。
2019年,為了研究分析AI與兒童的智力差距,一群世界頂級科研人員在卡内基梅隆大學和微軟的共同資助下舉辦了一場名為“MineRL”的比賽,以知名遊戲《我的世界》為舞台,讓接受訓練的AI在限定的時間内尋找遊戲中的稀有物品——鑽石。
考慮到一位普通兒童在觀看10分鐘的教學視頻後便能自主遊玩《我的世界》,這項挑戰在外行來看似乎并不是很困難,但事實是,參賽的AI們在長達4天的限時挑戰裡執行了超過800萬次操作之後,仍未能順利達成目标。
在這之後,MineRL競賽成了一年一度的科研項目,每年都會有不少探索AI前沿技術的學者帶着他們精心調教的AI來《我的世界》裡挖鑽石。而去年的MineRL大賽更是吸引了海内外近60支隊伍參賽,超過400名研究人員同台競技,其關注度可見一斑。
而到了最近,知名AI科技公司OpenAI終于實現了技術突破,提前殺死了比賽。根據他們于6月23日發布的論文來看,由他們訓練的AI已經做到了熟練遊玩《我的世界》,挖鑽石對他們家的AI來說早已不在話下,畢竟它目前已經掌握了隻有人類才能領悟的高階玩法:
為了讓AI真正做到像人類一樣“玩遊戲”,OpenAI的研究人員引入了一種新穎且便捷的AI訓練法:視頻預訓練(Video PreTraining)。他們通過從相關合作方處獲取《我的世界》演示視頻以及與視頻配套的鍵盤鼠标操作記錄,并根據這些操作習慣建立逆動力學模型(inverse dynamics model)以推測模拟視頻内的鍵鼠操作邏輯,此後再反複推演全世界的《我的世界》視頻以模拟人類的遊玩習慣。
在“被迫”觀看了7萬小時的視頻後,OpenAI旗下的AI的操作已經相當傳神:氧氣稀少時會主動浮出水面、餓肚子了會啃腐肉充饑,而在研究人員的數據微調後,AI掌握了更加進階的操作,包括搜刮随機村莊裡的寶箱,以及搭建一個簡陋的“火柴盒”。
至于同行們費盡心血鑽研的挖鑽石的方法,OpenAI也通過強化學習構建了一套科學合理的計算機模型。從獲取木頭開始,到在工作台上做出一把鑽石鎬,總計需要24000次操作,對于較為熟練的老玩家來說,完成這套流程的時長大概在20分鐘左右,而如今的AI在經曆了大規模訓練過後,收集鑽石的效率足以比肩人類。
目前,OpenAI已經向MineRL大賽提交了他們研究的預訓練模型,而今年參賽的科研隊伍也能在此模型的基礎上根據自己的主攻方向進行微調。考慮到OpenAI優秀的訓練成果,想必今年的MineRL大賽會是一場堪比神仙打架的高端對局,說不定不久之後,AI已經開始研究如何速通了。
轉載内容僅代表作者觀點
不代表中科院物理所立場
如需轉載請聯系原公衆号
本文轉載自公衆号“遊戲研究社”(ID:yysaag),已獲得轉載授權。
來源:遊戲研究社
編輯:Paarthurnax
,更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!