tft每日頭條

 > 生活

 > 柯潔和alphago哪個厲害

柯潔和alphago哪個厲害

生活 更新时间:2024-11-28 05:44:13

智東西(公衆号:zhidxcom)

文 | Lina

智東西5月23日下午,今天,世界圍棋第一人柯潔與DeepMind旗下的AlphaGo進行了一場長達4個半小時的圍棋對戰,最終柯潔僅以1/4子的差距惜敗AlphaGo,這場從上午10點半開始的鏖戰終于告一段落。

這是本次圍棋大賽中柯潔對戰AlphaGo三場比賽中的頭一場,柯潔執黑先行。與年初披着“Master”馬甲的連勝60場時不同,這次“柯Go大戰”下的是每方時長3小時的慢棋,而不是每手30秒快棋,對人類有着一定優勢。

理論上本輪比賽将持續3 3=6小時,但最終柯潔幾近耗盡3小時,AlphaGo僅用了1個多小時。比賽後期柯潔頻頻有咬嘴唇、抓頭發等焦慮的小動作,看得觀衆也不禁緊張起來。在最終隻剩十幾分鐘、敗局已定時,柯潔仍堅持下完全局。

柯潔和alphago哪個厲害(柯潔人機大戰首戰惜敗)1

(賽事焦灼時的柯潔)

(觀棋室裡人山人海,由專業圍棋家進行講解)

AlphaGo是由DeepMind團隊的戴密斯·哈薩比斯、大衛·席爾瓦、黃士傑等開發的一款人工智能程序。2016年3月,AlphaGo曾以5:3戰勝韓國棋手李世石,成為第一個擊敗人類職業圍棋選手的電腦程序。2016年12月底,AlphaGo身披“Master”馬甲,5天内橫掃中日韓棋壇,最終以60場連勝紀錄告退。

讀完本文,你可以知道以下問題的答案:

1)年初不是PK過了嗎?怎麼又來?

2)為什麼AI老盯着圍棋不放?

3)AlphaGo到底是怎麼下棋的?(最通俗易懂版本解釋)

4)德撲、圍棋、象棋,下一個被AI入侵的領域是啥?

5)AlphaGo的技術有什麼現實意義?

柯潔和alphago哪個厲害(柯潔人機大戰首戰惜敗)2

(10點半開場第一手)

一、說在前面

其實,柯潔與AlphaGo的這場比賽開始前,勝率并不被多少人看好。就連柯潔本人在四月初的發布會上,也用上了“懷有必死的信念,不會輕易言敗”這種情懷悲壯的詞語,昨夜11點半更是在微博發布了一條名為《最後的對決》的賽前感言。

柯潔和alphago哪個厲害(柯潔人機大戰首戰惜敗)3

“無論輸赢,這都将是我與人工智能最後的三盤對局”

“現在的AI進步之快遠超我們的想象。像國産的絕藝、日産的ZEN雖然和AIphago還有着較大差距,但已經表現出超強的實力了…”

“我相信未來是屬于人工智能的。可它始終都是冷冰冰的機器,與人類相比,我感覺不到它對圍棋的熱情和熱愛……”

如此沉重,如此傷懷,很難想象這是曾經意氣風發的天才少年。去年3月9日李世石1:4落敗AlphaGo時,年僅19歲的他曾在微博放出豪言——“就算阿法狗戰勝了李世石,但它赢不了我”,彼時尚不知柯潔是何方神聖的吃瓜群衆對其一頓群嘲,接着立刻被刷刷刷一溜世界冠軍的履曆反轉打臉的劇情看得人大呼過瘾。國内大衆向來是偏愛柯潔的,我們都愛聽傳奇故事,愛看任性的少年天才打破陳規,揚名立萬,如同起點網文一般的人生赢家。

此役戰敗,着實讓人唏噓不已。

二、年初不是PK過了嗎?怎麼又來?

其實,這并不是柯潔與AlphaGo的第一次交手。

2016年12月底,一位身披Master馬甲的神秘棋手突然出現,5天内橫掃中日韓棋壇,包括當時年僅19的三次世界大賽冠軍柯潔九段(今年20歲)、韓國等級分第一樸廷桓九段、中國名人戰冠軍連笑七段等,甚至激起了業内64歲泰鬥聶衛平參戰,最終在連勝60場後宣告揭曉真身——就是AlphaGo。

柯潔和alphago哪個厲害(柯潔人機大戰首戰惜敗)4

既然已經PK過了,為什麼又要比一次呢?

原來在年底時,Master與各位棋手下的是30秒快棋,對于擁有強大計算能力的電腦來說,優勢非常明顯。而本次柯潔 vs AlphaGo下的是慢棋,有3小時的思考時間,對于人類比較有利。

此外,本次柯潔與AlphaGo下的是“三番棋”,無論輸赢都将下滿三局,下兩輪比賽将分别在本周四(25号)與本周六(27号)的同一時間進行,大賽同時還設有150萬美元獎金。

三、為什麼AI老盯着圍棋不放?

很多人其實都對AlphaGo下棋的套路存在誤會,認為它是程序嘛,那用最簡單(最暴力)的方法——窮舉,自然是最有效的。

也……不是不行。但我們先來算算窮舉一共會出現多少情況。

普林斯頓研究人員曾經做過這樣一個統計項目,對于一個标準的圍棋棋盤而言,一共有19×19=361個位置,每個位置存在黑子、白子、空,3種情況。因此一局棋面理論上有3^361種可能。但根據圍棋規則,不是所有位置都可合法落子,因此在排除掉所有不合法的棋局後,精确的合法棋局數為——

……

你真的想知道嗎?……

深呼吸……

……

208168199381979984699478633344862770286522453884530548425639456820927419612738015378525648451698519643907259916015628128546089888314427129715319317557736620397247064840935局。

讓一台計算機暴力算法窮舉……也不是不行,普林斯頓的研究人員這麼試過一遍,使用15TB硬盤空間、8-16核處理器、192GB内存的服務器将這約等于2.08×10^170局棋全部窮舉出來,大概需要幾個月的時間。按3個月來算的話,如果AlphaGo按照這個配置每下一步棋都将所有情況窮舉一遍,那麼這盤棋下完的時候,今年20歲的柯潔已經是六十多歲的老人家了……

四、AlphaGo到底是怎麼下棋的?(最通俗易懂版本解釋)

當然啦,上文的這個比喻有些偷換概念,而且AlphaGo的配置比這要高出許多。當年和李世石下棋時,AlphaGo配備了1920個CPU加280個GPU,如今經過一年多的軟硬件升級,自然将計算能力武裝到了牙齒。

不過,AlphaGo用的真的不是窮舉,而是一套結合了深度學習(Deep Learning)與增強學習(Reinforcement Learning)的系統。DeepMind團隊在《自然》雜志上發表的《用深度神經網絡和樹搜索掌握圍棋博弈(Mastering the Game of Go with Deep Neural Networks and Tree Search)》論文中詳細介紹了AlphaGo是怎麼下棋的,此處不展開講了,隻做一個粗淺的流程介紹:

柯潔和alphago哪個厲害(柯潔人機大戰首戰惜敗)5

1)分析專業棋手棋譜,得到兩個結果,快速走棋策略(Rollout Policy)與策略網絡(SL Policy Network)。其中快速走棋策略類似于人觀察盤面獲得的“直覺”,使用線性模型訓練;策略網絡則經過深度學習模型訓練進行分析,類似于人類的“深思熟慮”。

2)用新的策略網絡與先前訓練好的策略網絡互相對弈,利用增強學習來修正參數,最終得到增強的策略網絡(RL Policy Network),類似于人類左右互搏後得到一個“更加深思熟慮”的結果,對某一步棋的好壞進行判斷。

3)将所有結果組成一個價值網絡(Value Network),對整個盤面進行“全局分析”判斷,圖中藍色越深的位置赢面越大,這樣可以讓程序有大局觀,不會因蠅頭小利而輸掉整場比賽。

柯潔和alphago哪個厲害(柯潔人機大戰首戰惜敗)6

4)綜合“直覺”、“深思熟慮”、“全局分析”的結果進行評價,循環往複,找出最優落子點。

微軟亞洲研究院主管研究員鄭宇與微軟亞洲研究院副研究員張鈞波在多次論文閱讀原文并收集了大量其他資料後,一起完成了一張更為詳細的AlphaGo原理流程圖,此處轉載作以解釋,版權歸兩位作者所有。

柯潔和alphago哪個厲害(柯潔人機大戰首戰惜敗)7

五、德撲、圍棋、象棋,下一個被AI入侵的領域是啥?

AlphaGo中的“Go”,在英語中就是“圍棋”的意思,AlphaGo顧名思義就是一款專門為圍棋打造的程序。不過,DeepMind團隊曾經透露下一階段會轉移目标,向暴雪的即時戰略遊戲《星際争霸》發起挑戰,再次志得意滿之後,星際的高手們請作好心理準備,下一個擂台可能就是發生在人族、神族和蟲族的世界裡了。

其實早在2013年,DeepMind就在NIPS上發表《用深度增強學習玩Arari遊戲(Playing Atari with Deep Reinforcement Learning)》這一論文讓機器像人類一樣玩Atari遊戲,即隻接收屏幕像素輸入,也隻産生視頻遊戲控制器上的按壓信号,也算是個熱愛玩遊戲的AI團隊了。

柯潔和alphago哪個厲害(柯潔人機大戰首戰惜敗)8

其實從第一台計算機問世以來,人們就不停嘗試着編寫更加強大高效的計算機程序,以期電腦有朝一日能夠戰勝人類。在過去的二十多年裡,有好次次人機大戰給人們留下深刻的印象。

1997年5月,IBM公司的“深藍”超級計算機以2勝1負3平的戰績戰勝了當時的世界國際象棋大師冠軍——卡斯帕羅夫(ГарриКимовичКаспаров)。其實從今天看來,“深藍”還算不上足夠智能,主要依靠強大的計算能力窮舉所有路數來選擇最佳策略。當時的“深藍”每秒可運算2億步,在全球超級計算機中排第259位。

柯潔和alphago哪個厲害(柯潔人機大戰首戰惜敗)9

據說在比賽中,第二局的完敗讓卡斯帕羅夫深受打擊,他的鬥志和體力在随後3局被拖垮,在決勝局中僅19步就宣布放棄。IBM拒絕了卡斯帕羅夫的再戰請求,拆卸了“深藍”,因而卡斯帕羅夫後來雖多次與電腦戰平,卻無法再找深藍“複仇”。

2011年,與“深藍”同樣出自IBM公司的人工智能程序“沃森”在美國老牌智力問答節目《危險邊緣》中挑戰兩位人類冠軍。“沃森”存儲了2億頁的數據,其中包括了各種百科全書、新聞、詞典、文學書籍等,還能根據比賽獎金的數額、局面的領先或落後情況、自己是否擅長該領域的問題來判斷自己是否要搶答某一個問題。最終,沃森輕松戰勝兩位人類冠軍。

在今年1月20日《最強大腦》人機大戰第三場的比賽中,百度大腦2比0輕松戰勝人類選手王昱珩。在這場比賽中,百度大腦和“水哥”王昱珩比拼的仍然是圖像識别。通過三段在夜幕下分别從行車記錄儀、高位攝像頭、和手機中拍到的模糊動态影像,雙方需要記住三名不同識别對象的面部特征,然後從節目現場的30人中将他們辨認出來。

此外,還有今年4月初由李開複發起,創新工場、海南生态軟件園聯合主辦的“冷撲大師”VS“龍之隊”德州撲克人機大戰。

柯潔和alphago哪個厲害(柯潔人機大戰首戰惜敗)10

“冷撲大師”的前身來自于耐基梅隆大學(Carnegie Mellon University,以下簡稱CMU)Tuomas Sandholm教授領導開發的打撲克的程序Libratus。在今年1月30日,Libratus曾一對一無限注德州撲克比賽中擊敗四名頂尖人類高手,在為期20天的賽程裡面對玩12萬手,赢走接近總數的籌碼。人類團隊由由六位華人頂尖撲克選手組建,隊長杜悅曾在世界德州撲克大賽WSOP的無限注德州撲克賽事中獲得冠軍。

最終,比賽以冷撲大師完勝人類結局。李開複在賽後也曾斷言,“人工智能已從完美信息的AlphaGo,延伸到了不完美信息的冷撲大師。人機對戰基本沒有懸念了,據聞AlphaGo近期即将來華和柯潔對戰,其實已經不再具有科學意義了。 ”

六、AlphaGo的技術有什麼現實意義?

其實,AlphaGo并不是DeepMind唯一項目,也不是最大的項目。DeepMind的最終目标是智能助手、醫療和機器人等。Scott Beaumont曾經在4月初的發布會上表示,盡管AlphaGo隻是針對圍棋開發的系統,但其原理可以被應用到現實問題中,比如醫療中的癌症檢測、機器人訓練等。

柯潔和alphago哪個厲害(柯潔人機大戰首戰惜敗)11

與單純的深度學習應用不同,AlphaGo在系統中加入了增強學習的部分。增強學習不一定為機器設定特殊明确的行為,機器試探性地做一個行動後,觀察“世界”會有怎樣的反應(獎賞還是懲罰),最終逐步形成對刺激的預期,産生能獲得最大利益的習慣性行為。這個方法具有普适性,因此在其他許多領域都有研究,但比較集中在步驟可能性較少、任務行為較窄的領域(比如圍棋、簡單物理運動等)。英偉達CEO黃仁勳在月初的GTC大會上就宣布了一款名為ISAAC的增強學習世界模拟器,創造出一個完全虛拟的、專為訓練機器人而打造的世界,用來訓練機器人執行打冰球、打高爾夫等動作。

結語、未來是屬于AI的,但人類還沒有完蛋

無論最後兩局勝負如何,人工智能最終在圍棋上戰勝人類已然是可預見的将來。即便這場三番棋賽柯潔最終獲勝,也無法逆轉這種潮流,也許明年,也許後年,但總有一日終将到來——就如同當年一匹世界最快的良駒寶馬,最終也無法跑赢汽車。

正如柯潔所言,“我相信未來是屬于人工智能的。”

但話說回來,AlphaGo的勝利意味人類要完蛋?别鬧了,圍棋可不是我們生活的全部,人工智能也隻是一項用于改善人類生産效率的工具而已。對于許多科幻小說裡提出的,最終能夠“推翻人類”、“統治人類”的“超級智能”,我們真的大可不必太擔心。

柯潔和alphago哪個厲害(柯潔人機大戰首戰惜敗)12

(Yann LeCun)

“卷積神經網絡之父”、深度學習三巨頭之一、Facebook人工智能研究院院長Yann LeCun曾經這樣解釋道,人類的占領、統治、鬥争等大部分行為,都是在一代代進化的過程中,受到“希望獲得資源”這一目的所驅動的。而如果我們想要機器做一件事情,則需要給它賦予這個能力,朝這個目的去打造機器。如今我們已經做出了在特定領域比人類更智能的機器,但人工智能并不會真正統治世界,因為我們并不會朝這個目的去做。

在火車剛剛發明的時候,美國某位權威人士曾經預言:“如果美國建設鐵路,首先要建許多家精神病院,因為人們看見呼嘯而過的火車會被吓破膽的。”

而德國的專家們則說,“火車時速一旦超過15英裡,鮮血就會從乘客的鼻腔裡噴射出來,導緻死亡。”

柯潔和alphago哪個厲害(柯潔人機大戰首戰惜敗)13

,

更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!

查看全部

相关生活资讯推荐

热门生活资讯推荐

网友关注

Copyright 2023-2024 - www.tftnews.com All Rights Reserved