圖文原創:譚婧
譚婧老師愛下象棋,就是誰也赢不了。
去公園下了一盤棋 ,第一步我就走了一個當頭炮 ,剩下的都是大爺們幫我走的。
結果,我輸了。
經過他們的總結研究,我第一步走錯了 。
2022年,象棋AI下棋機器人,問世了。
我和它對弈了一盤,結果,我赢了。
很有自知之明的我,嚴重懷疑設計者增加了噪音,降低了棋力。讓我赢得很舒服。
但我沒有證據。
怎麼說呢,我就喜歡高情商的AI象棋機器人。
低情商的機器人隻會冷漠地碾壓我:“下不過我,就别廢話。”
仿佛不僅嫌棄我棋臭,還嫌棄我話多。
而高情商的AI象棋機器人,大為不同。
它伸出胳膊,溫柔地擺出“請”的姿勢,它居然有機械臂。
情商和機械臂都不是重點,聊聊它的智商從何而來。
AI象棋機器人是人工智能技術中深度學習與強化學習的成果,擊殺四方。
任何人工智能都離不開數學基礎原理,在此,首先得感謝尊敬的貝爾曼(Bellman)教授。
以他名字命名的貝爾曼方程,在絕大多數強化學習的成果中都會用到,比如象棋AI下棋機器人的遠方表哥,自動駕駛。
它們是親戚,“血緣關系”是“最優決策”。
強化學習是要在多種決策中評價,找出好的決策。
強化學習在象棋中,就是在多種走法中找到最好的走法。
圍觀數學公式的人少,圍觀下象棋的人多。
我們抛開公式,用決策樹表示每一步的輸赢,非常直觀。
一盤三十步的象棋比賽,會是一顆很大的決策樹,有很多枝葉。
計算機下象棋的棋力,早就超越了絕大多數的人。然而,至今沒有任何一款計算機軟件達到全知全能的“棋神”狀态,連AI也不行。
那在下象棋這件事情上,AI這幾年在忙活啥?
那要從幾十年前講起了。
1980到1990年代,深藍計算機是大公司的,小霸王遊戲機是大家的。
假如一個人類象棋高手下一步棋,能看未來八步棋。就好比一下能想到決策樹上的第八層。
傳統象棋軟件說,這我也行。
話是沒有吹牛,傳統象棋軟件确實可以做到。
可是,再往前多算幾步,所耗時間和計算存儲可能都要翻倍。或者說,情況急轉直下。
在舊式象棋軟件的時代,得想辦法減少計算量。所以,有了阿法貝塔剪枝。
這雖然有“偷懶”的嫌疑,但我也沒有證據。
阿法貝塔剪枝的方法,相當于提前知道哪些搜索是沒有意義的,排除錯誤答案,用巧思“偷懶”,相當于省略做題過程。
舊思路在象棋上還能支撐,用在圍棋上力有不逮。
(因為圍棋是19×19的一個矩陣,每步可選擇的走法要比象棋多一個數量級。)
從舊式象棋軟件時代,人們就為棋力算分。這是一個起源很早的好辦法。
那麼得分是怎麼來呢?
用一個數學函數把有利赢棋的因素都考慮進去。
以至于,中國象棋協會也有象棋大師用此來構思好棋。
有了分數,僵化的下象棋,就是“哪步得分高,就走哪步”。
然而,象棋是一個非常講究全局觀的遊戲。
追求最終取勝,不追求每一步占盡優勢。
比如,戰術性丢車保帥。
深度學習模型在象棋面前暴露了“缺點”,它算出當下局面的勝率,但是,并不能估算出後續局面的勝率。
所以,需要一個重要的動作來加持:搜索。
從決策樹上理解,就是考慮的越多越好。
如今,能搜索到決策樹裡非常深的層數,這就意味着,招數更多,棋路更多,對勝利的把握就越大。
談到如何處理搜索量大,就談到了蒙特卡洛樹搜索是學霸特供技能,對大多數人來說,都很難。
甚至可以這樣說,就是題目很困難,算不出來,隻好求助于概率,求助于實驗。
一頓猛如虎的嚴謹分析算不出來。來吧,學霸直接撸起袖子做實驗。
蒙特卡洛方法的做法雖然看起來比較随意,但卻有着堅實的理論基礎:大數定律。
在計算機眼裡,棋子挪動一步,都算一個新的棋局,所以棋局數量何其之多。
一個厮殺正酣的棋局,往後走,可能衍生出10000種棋局。
借助蒙特卡洛樹搜索這一方法,看未來幾步怎麼走。或者說,當AI象棋機器人,有了強化學習,就有了“大局觀”。
我們馬上進入學霸區特供:《AI象棋機器人所用的蒙特卡洛樹搜索》。
這就是深度強化學習,模型收斂的目标是,把勝率估計越準越好。經過多輪訓練,勝率會越來越準。
勝率是AI象棋機器人的KPI,每下一步都估算勝率。每一步,盡量把勝率提高。
常識是,高手勝率高,低手勝率低。
問題來了,高到多少,低到多少。每一步的勝率很難準确估算,隻能估大緻範圍。
而且,把勝率提高的前提是,得把勝率算準确。
在如此模糊的情況下,數據裡會有誤差。因為有誤差,所以AI象棋機器人隻能知道“棋神”的方向是什麼,它想方設法逼近這個方向。
象棋AI機器人的棋力水平的訓練方法是,AI,加上蒙特卡洛樹搜索,然後再教導AI本身。
這個過程類似總結經驗,這樣使得它的棋力飙升。
可以說,AI象棋機器人強大之處得益于蒙特卡洛樹搜索。
超越人類是很早以前的本事了,現在追求棋力絲滑上升,情商在線。
讓棋力水平菜,還有棋瘾的人,也能玩得開心(請不要在我下象棋的時候安裝監控)。
好了,
這回就聊到這吧。
看在象棋AI下棋機器人輸給我的份上,我不妨透露兩個消息。
第一,有一版的AI象棋機器人初級棋力就打敗了全公司的挑戰者。
大勝之際,算法設計工程師們哀嚎遍野:“大事不妙”。
第二,我下赢AI象棋機器人那一局的時候,旁邊有三個AI工程師幫忙出主意。
(哦,第二點是在凡爾賽科技新媒體的日常)
最後隆重介紹一下我們的全文審核專家:
最後,再介紹一下主編自己吧,
我是譚婧,科技和科普題材作者。
為了在時代中發現故事,
我圍追科技大神,堵截科技公司。
偶爾寫小說,畫漫畫。
生命短暫,不走捷徑。
原創不易,多謝轉發
還想看我的文章,就關注“親愛的數據”。
,
更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!