13年前,一款名為《QWOP》的跑步模拟器Flash小遊戲,被衆多玩家評為史上最難、最變态的遊戲。
遊戲目标十分簡單,鍵盤上的QWOP四個按鍵分别代表運動員的兩條大腿和小腿,玩家需要用這四個鍵操控他跑過100米之外的終點線,這也是遊戲名的來源。
盡管聽起來很容易,自己親自上手的話很容易就釀成人間慘劇……
不往前走不說,反而開起了倒車。
要不就是一個狗啃屎直接GG,完全掌握不好平衡。
看看這别人家的遊戲,最快的高手不到50秒就跑完了全程。而狂丸整了半天就沒跑出去過10米,低血壓都快給我治好了。
遊戲不應該是給人帶來快樂的嗎?.jpg
周先生曾經說過,人類的悲喜并不相通,但是對于遊戲的執着是。
Wesley Liao是國外的一名數據分析師,熱衷于人工智能領域。那一天,他又回想起了被《QWOP》支配的恐懼,試圖用AI對那個遊戲發起一場大複仇。
Liao設立了一個獎懲機制,告訴AI怎樣挪動步伐是正确的,然後讓AI在實際操作中逐漸自我學習,掌握規則,直到成功跑過終點線。
和人類田徑運動員需要場地和有科學訓練方法的教練一樣,AI的訓練也需要計算的平台和算法。
Liao選擇了一種名為ACER的強化學習算法作為AI的教練。
簡單來說,ACER的優勢在于它很會「翻舊賬」,不僅能夠從AI最近的表現汲取經驗,也能從早期存儲的大量數據中獲得經驗,避免學習重複的東西,極大提高樣本效率。
Liao把這名特殊運動員的身體數據輸入了算法,主要有頭部的動态、手部、肘部、還有臀部的動态。
4中按鍵的11種組合可能性也被納入計算範圍内,包括4個按鍵的單獨激活,6種4個按鍵的兩兩組合激活,還有什麼鍵也不按。
AI經過8小時的自主學習後,成功摸索出了一套穩赢不虧的跑步方法論——跪着跑。
其實,狂丸在試玩幾把後也發現,以弓步壓腿這種姿勢一點一點往前磨蹭的方法是能夠成功到終點的,但赢是赢了,代價就是得跪着。
我堂堂一個跑步運動員連跑都不會,這叫什麼事兒?
這樣的荒誕結果讓狂丸想到之前網上那個狼追羊的AI訓練實驗。
抓不到幹脆就不抓,站不起來幹脆就跪着,愛咋咋地,你就說過沒過線吧。
看來全靠AI自學是不行了,Liao隻能另找方法讓AI重新學習。
這次,通過和人類下棋來自我學習的Alpha Go給了Liao改進的靈感。他把自己遊玩《QWOP》的過程記錄下來做成經驗膠囊喂給AI吃。
這本來是個很好的研究路線,可惜Liao對于這個遊戲實在是太苦手,以正常的跑步姿态前進的話,靠他本人最多隻能跑到28米處,最後勉強挑出50份相對優質的數據交給AI學習。
結果,什麼叫邯鄲學步啊?
跑步沒學會,自己之前怎麼走也忘的一幹二淨,Liao決定再給AI一些時間悶頭消化消化。
20小時後,AI終于能操縱運動員跑動的更像人一點了,更重要的是不會再原地逝世,1分25秒的成績已經足夠在當時進入世界前15。
可愚蠢的人類總是貪心的,有了金斧頭,還想把河神帶回家。這時候,Liao把目光投向了《QWOP》的全球排行榜。
要是把之前自己的菜雞經驗換成榜一榜二的大神經驗,AI肯定會成長的更快。
他虛心向排行榜上的頂尖選手請教,get了成功地另一要訣。
推上名為@くろうど的高手建議,減少運動員的上下起伏或許會跑的更快,而且相當慷慨的給Liao發了50份自己遊玩時高端局的按鍵紀錄。
在把@くろうど的經驗喂給AI之後,本以為一切妥妥的Liao沒想到AI直接給他點了一首《奇迹再現》。
沒錯,AI又忘了怎麼擡腿了。
這次,Liao決定改變一下訓練方法,采用一種名為 DQN 的經典深度強化學習算法來訓練AI。
這種方法相當于一個盒子,它會把之前學習到的經驗和新來的經驗混在一起,保證AI一半的經驗來自AI自身,另一半來自高手@くろうど。
就這樣,AI終于能再一次奔跑起來了。隻是動作不太協調,時不時會突然給出一飛腿,這是人類經驗和AI計算結合帶來的陣痛。
于是,Liao在接下來的訓練中慢慢移除掉@くろうど的經驗,全靠AI自己調整改掉了飛腿的毛病。
25個小時後,運動員終于能完美的以人類跑步姿态跑完全程,并且以1分08秒的成績打入世界前10。
按常理說,在某些遊戲方面,AI的戰鬥力是比人類玩家高上不少的。
左為人類玩家 右為AI
有些媒體就出來搞事情,問Liao的AI為什麼連人類都跑不過。
标題:AI突破最難遊戲卻打不破人類記錄
這可在Liao的雷區結結實實踩了一腳,想沖?沖給你看。
既然AI已經學會了如何正确的跑步,Liao就在訓練中把速度放到了第一位,名為Prioritized DDQN的、優化過的深度強化學習算法被應用在這次升級之中。
顧名思義,這個算法會加強AI已學習過内容的權重。而且Liao這次取消了身體高度的限制,一切隻為沖的更快而設計。
40小時的訓練後,AI對腿的掌握可以說達到了人腿合一的狀态,成績直接提升到47.34秒,比人類最高紀錄正好快1秒。
不過這個排行榜隻認可人類玩家的成績,所以AI雖然快,但是規則畢竟是别人定的,隻好默默做一個十裡八鄉的俊AI。
這股讓AI玩遊戲的風潮也吹到了「無所不能萬物起源」的我的世界中。
最近,哥本哈根信息技術大學、紐約大學和上海大學的研究者們共同創造了一個能夠自動建造物品的AI,名為3D神經元胞自動機。
這個AI可以自動建造包括毛毛蟲、房子、城堡、大樹等最多由3000多個方塊組成的物品。
它甚至還能自我修複,當毛毛蟲被一分為二,剩下的殘體會自動成長為新的毛毛蟲,死侍直呼内行。
一分為二後重新長好的毛毛蟲
看起來,未來的遊戲裡,不僅僅是「别人的世界」,更是「AI的世界」了。
,
更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!