AlphaGo 酷不酷?Google 收購的人工智能公司 DeepMind 使用業界領先的深度學習技術在圍棋這種智商要求略高的遊戲上碾壓了人類,那下一步呢?
下面這個視頻你看了可能會覺得可笑,一個連蠢萌都算不上的愚蠢動畫形象在 3D 模型上進行着各種各樣的——額,如果你非要把它稱為「跑酷」也不是不可以。是的你可能想不到這與動漫《進擊的巨人》中的「奇行種」巨人有幾分相似的模拟機體,也是出自 DeepMind 之手。
在他們最新發布的一篇題為《豐富環境下運動行為的出現》的論文中,DeepMind 表示,對 AI 來說玩 Atari 的遊戲或者下圍棋,程序需要被設置的目标很簡單,隻要赢就行。但如果是讓 AI 完成一次後空翻呢?你要怎樣向機器描述後空翻的标準?于是他們開始研究訓練 AI 穿越各種各樣的地形,完成跳躍、轉向、屈膝等相對複雜的動作。
(無頭行者)
加強學習技術(reinforcement learning)是對 AI 深度學習實行幹預的一個系統,通過使用這種技術,人類可以根據自己的意願引導 AI 完成深度學習,在 AI 達到自己想要的效果時給以算法意義上的獎勵,這樣深度學習最後達成的結果就更接近人類最初所設想的。
來自 Google 的 DeepMind 就使用了這種技術,并教會了 AI 模拟機體完成了一條跑酷路線。
DeepMind 想知道這種簡單的獎勵機制能否在複雜的環境中使用,他們設計了一系列的跑酷路線,有落崖,有障礙,還有牆壁,每一次完成關卡都會赢得系統獎勵。
基本規則如下:最快突破障礙物的 AI 模拟機體将得到最大的獎勵,更加複雜的項目将會得到額外的獎勵和懲罰。
「結果顯示我們的行動主體在沒有收到特定指示的條件下學會了這些複雜的技能,證明了這種訓練多種不同模拟機體的方法是可行的。」
(DeepMind 官網上的一句 Slogan)
事實上,目前市面上的機器人能做的事情還非常少,就連波士頓動力那種非常前沿的機器人公司也隻能推出一些實驗室産品,單單是倒下後重新站起來就已經難倒了許許多多的機器人研發機構,所以雖然看起來很蠢,但 DeepMind 的這項研究成果還是非常黑科技的。
(波士頓動力的機器人在倒下後可以自己站起來,圖源:Discover Magazine Blogs)
據 The Verge 的說法,強化學習技術通常生成的行為是非常脆弱的,在不同的環境下無法保證行為的完成質量,就像一個孩子在家裡能學會怎樣爬樓梯,但出了門就弄不懂扶梯要怎麼坐了。
DeepMind 通過實例證明了強化學習技術可以用來教機器學習複雜的行動,究竟有多複雜,我們來看看這些 DeepMind 在他們的博客中發出來的動圖吧。
文章參考:DeepMind
頭圖來源:Upup
,更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!