tft每日頭條

 > 生活

 > alphagozero對局精解

alphagozero對局精解

生活 更新时间:2024-07-04 07:25:01

昨天DeepMind發布了萬衆矚目的新論文;不巧一早有事外出,下午回來後趕緊補功課:首先把附加福利83張相關棋譜放到圍棋寶典App的雲棋譜庫裡,然後就開始學習各大媒體對它的報道。

1、AlphaGo族譜

版本時間戰勝等級分
Fan2015-10樊麾3100
Lee2016-03李世石3600
Master2017-01頂尖s5000-
Ke2017-05柯潔5000-
Zero2017-10自我5000

(以上等級分為約略,根據論文原圖目測)

版本Ke是我加的,雖然其實也是Master,但經過幾個月肯定比年初的Master高一些。

趨勢:水平越來越高、硬件越來越省(上表自Master開始均隻有4個TPU,Lee要48個TPU,Fan是176個GPU)、學習時間越來越短(Zero從零開始到超越Master隻用了40天,而Master是花了幾個月)。

TPU者,張量處理器也;為深度學習量身定制的芯片,效率更高;預期普及時間:2025年。

Zero并不與AlphaGo從圍棋界隐退矛盾:所謂“技術仍繼續,就是不比賽”。

AlphaGo的目标遠大,比如解決科技難題、醫學難題,經濟、軍事。。。說不定還能解決哲學難題。

2、Zero出關記

Zero英文意思是:零。除了圍棋最基本規則(棋盤的幾何學定義、輪流落子規則、終局輸赢計算、打劫等),它就是一張白紙。放棄參考任何人類棋譜,完全自我學習。

自學小時成就
0渣渣
3戰5渣 貪吃蛇,以提子、填子為樂
19學會死活、實利與外勢等概念
70表現得訓練有素,富于變化,已達super-human水準(不知怎麼譯,但比職業頂尖低)
3×24超越Lee
21×24追上Master
40×24超越Master

注意:學習時間很短,是由于TPU運行得太猖狂。Nature微博的說法:“幾天訓練完成了近500萬盤棋”。要知道1天隻有86400秒。職業棋士一生平均有1000局正式比賽麼?

完全是剛見到棋盤的初學者的樣子,滿天星、撒豆兵。有點像初中物理講的電子雲。

alphagozero對局精解(兩張表讓您了解AlphaGo)1

至541手終局,雙方都很兢兢業業的填子、提子,對于“對方可能不會提自己的子”,似乎雙方都充滿期望和熱情,毫不衰減。

此階段對局發布了20局。

Zero追上并超越Lee的棋譜,20局。

Zero之後繼續雙手互搏的棋譜,20局。

Zero追上并超越Master的棋譜,20局。

還有3譜各階段有代表性的棋譜。

,

更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!

查看全部

相关生活资讯推荐

热门生活资讯推荐

网友关注

Copyright 2023-2024 - www.tftnews.com All Rights Reserved