昨天DeepMind發布了萬衆矚目的新論文;不巧一早有事外出,下午回來後趕緊補功課:首先把附加福利83張相關棋譜放到圍棋寶典App的雲棋譜庫裡,然後就開始學習各大媒體對它的報道。
1、AlphaGo族譜
版本 | 時間 | 戰勝 | 等級分 |
Fan | 2015-10 | 樊麾 | 3100 |
Lee | 2016-03 | 李世石 | 3600 |
Master | 2017-01 | 頂尖s | 5000- |
Ke | 2017-05 | 柯潔 | 5000- |
Zero | 2017-10 | 自我 | 5000 |
(以上等級分為約略,根據論文原圖目測)
版本Ke是我加的,雖然其實也是Master,但經過幾個月肯定比年初的Master高一些。
趨勢:水平越來越高、硬件越來越省(上表自Master開始均隻有4個TPU,Lee要48個TPU,Fan是176個GPU)、學習時間越來越短(Zero從零開始到超越Master隻用了40天,而Master是花了幾個月)。
TPU者,張量處理器也;為深度學習量身定制的芯片,效率更高;預期普及時間:2025年。
Zero并不與AlphaGo從圍棋界隐退矛盾:所謂“技術仍繼續,就是不比賽”。
AlphaGo的目标遠大,比如解決科技難題、醫學難題,經濟、軍事。。。說不定還能解決哲學難題。
2、Zero出關記
Zero英文意思是:零。除了圍棋最基本規則(棋盤的幾何學定義、輪流落子規則、終局輸赢計算、打劫等),它就是一張白紙。放棄參考任何人類棋譜,完全自我學習。
自學小時 | 成就 |
0 | 渣渣 |
3 | 戰5渣 貪吃蛇,以提子、填子為樂 |
19 | 學會死活、實利與外勢等概念 |
70 | 表現得訓練有素,富于變化,已達super-human水準(不知怎麼譯,但比職業頂尖低) |
3×24 | 超越Lee |
21×24 | 追上Master |
40×24 | 超越Master |
注意:學習時間很短,是由于TPU運行得太猖狂。Nature微博的說法:“幾天訓練完成了近500萬盤棋”。要知道1天隻有86400秒。職業棋士一生平均有1000局正式比賽麼?
完全是剛見到棋盤的初學者的樣子,滿天星、撒豆兵。有點像初中物理講的電子雲。
至541手終局,雙方都很兢兢業業的填子、提子,對于“對方可能不會提自己的子”,似乎雙方都充滿期望和熱情,毫不衰減。
此階段對局發布了20局。
Zero追上并超越Lee的棋譜,20局。
Zero之後繼續雙手互搏的棋譜,20局。
Zero追上并超越Master的棋譜,20局。
還有3譜各階段有代表性的棋譜。
,更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!