如果學習模仿人類,那最多也就隻能模仿人類而已。在很多複雜的局面中,存在着人類永遠發現不了的新見解。
掀翻世界圍棋冠軍後僅僅19個月,計算機程序AlphaGo跨越了一個更大的障礙:它現在能全憑自學達到前所未有的圍棋水平。取名AlphaGo Zero的新版程序剛開始對圍棋策略一無所知,在不接受任何人為訓練的情況下,隻用了三天時間,就創造出幾千年來人類圍棋手從未想到的高明策略。這項突破讓人工智能擺脫對人類知識的依賴,為智能機器的未來消除了一個主要限制。
早期版本的AlphaGo在人類的指導下,利用兩種方法來學習圍棋。一是監督學習,研究人員把10萬場業餘高手的對局輸入程序,教它模仿人類的走法;二是強化學習,他們讓程序自己下棋,從結果中吸取經驗教訓。
在行家眼中,這個結果令人震驚。
圍棋比國際象棋複雜得多,走法多不勝數,單純的強化學習似乎無法掌握,你會認為AlphaGo Zero将永遠摸不着頭緒,盲目地尋找可行的策略。然而,它很快就培養出了人類無法企及的能力。
高效的學習過程歸功于反饋回路。和其前身一樣,AlphaGo Zero通過一個名為“樹搜索”的過程來确定下一步棋的走法。該程序從當前的盤面入手,考慮可能的落子位置,接着考慮對手會怎麼下,然後再考慮自己如何應對,以此類推,形成一個模拟不同落子組合、産生不同盤面的分支樹圖。
AlphaGo Zero無法窮盡搜索樹的每個分支,因為這需要極為強大的計算能力。它通過确定哪些路徑最有取勝希望,有選擇地修剪枝丫。它根據以前學到的緻勝走法和盤面,來計算應該修剪哪些枝丫。
早期版本的AlphaGo也是這麼做,但AlphaGo Zero的新穎之處在于,它不是運行樹搜索,然後走一步棋,而是記住樹搜索的結果以及對弈的結果,然後利用這些信息,調整它對具有取勝希望的走法和不同落子位置的緻勝可能性的判斷。因此,下一次運行樹搜索的時候,它能利用改善後的判斷(經由以前的樹搜索結果加以訓練),來進一步改善對最佳可能走法的判斷。
AlphaGo Zero背後的計算策略很有效,特别是在擁有衆多可能性、需要找到最優解的情況下。在描述AlphaGo Zero研究的論文中,作者們寫到,他們的系統可用于材料研究(識别讓材料具有不同屬性的原子組合)和蛋白質折疊(了解蛋白質的三維結構如何決定其功能)。
至于圍棋,AlphaGo Zero帶來的影響可能是驚天動地的。迄今為止,遊戲公司未能開發出世界級的圍棋軟件。AlphaGo Zero可能改變這一點。美國圍棋協會執行副總裁安德魯·傑克遜(Andrew Jackson)認為,不久後圍棋應用程序将面市。這将改變人類圍棋手的訓練方式,也将使作弊變得更容易。
對于AlphaGo來說,其未來是無限寬廣的。圍棋十分複雜,沒人知道一個能夠自學的計算機程序将達到怎樣的高度。現在,AlphaGo有了能夠匹配圍棋之廣博的學習方法。
翻譯:于波
來源:Quanta Magazine
造就:劇院式的線下演講平台,發現最有創造力的思想
,更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!