tft每日頭條

 > 圖文

 > 預測算法基本思想

預測算法基本思想

圖文 更新时间:2025-02-15 01:42:41

問耕 發自 LZYY

量子位 報道 | 公衆号 QbitAI

昨天下午,量子位在中關村舉辦了一個技術沙龍,邀請創新工場AI工程院技術VP李天放、聯想智慧醫療CEO林林等,從技術和實戰的角度,對德州撲克人機大戰進行解讀。

嘉賓介紹

預測算法基本思想(解讀冷撲大師背後的AI算法和博弈論)1

李天放

創新工場AI工程院技術負責人,課程格子的創始人,前微軟工程師,以及著名大數據公司Palantir早期成員。德州撲克職業玩家。

以下是李天放對德州撲克AI的技術解讀:

文字版本整理如下:

AI算法和博弈論,這兩個交叉點還是有一點難度的。

先從博弈論開始。

大家需要對GTO/納什平衡有一個初期的理解。在德州撲克,翻硬币,剪刀石頭布這類遊戲裡面,納什平衡點的定義是:如果雙方都在用一個比較好的戰略,任何一方做出調整結果都會更糟糕,也就是存在一個平衡點,使得兩個人都不能再進步。

相比于石頭剪刀布,一對一的德州撲克,是一個複雜度非常高的博弈。如何找到德州撲克的GTO和納什平衡點?這是此類AI算法的核心。

CounterFactual Regret Minimization(CFR,反事實遺憾最小化),這是一個類似強化學習的算法,但是更高效。讓AI之間對戰德撲,采用随機的策略,然後每局過後看看在什麼地方後悔了,然後嘗試不同的戰略,再在決策點上複盤。

這個算法與人類學習德州類似:累積經驗、評判自己的選擇,但需要注意的是,這裡正确的“後悔點”非常重要。德州撲克有很強的随機性,所以很容易陷入錯誤的學習方式。

算法很簡單,問題是無限德州的空間太大了,複雜度是10的160次方。有幾種解決方案:合并簡化 CFR(Claudico),CFR “直覺”(DeepStack),CFR End Game Solver RL(Libratus)。

預測算法基本思想(解讀冷撲大師背後的AI算法和博弈論)2

總結一下:

· CFR類似于強化學習。權重調整基于概率。

· AI的戰略和學習方式和職業牌手相似,但是更準确。

上述内容視頻版本,請前往量子位微信公衆号(ID:QbitAI)查看。

量子位招聘

我們正在招募編譯、編輯、記者、市場、運營等多個崗位,工作地點在北京中關村,期待你的到來,一起體驗人工智能的風起雲湧。

相關細節,請在公衆号對話界面,回複:“招聘”兩個字。

今天AI界還有哪些事值得關注

在量子位(QbitAI)公衆号會話界面回複“今天”,看我們全網搜羅的AI行業和研究動态。筆芯❤~

另外,歡迎加量子位小助手的qbitbot,如果你研究或者從事AI領域,小助手會把你帶入量子位的交流群裡。

,

更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!

查看全部

相关圖文资讯推荐

热门圖文资讯推荐

网友关注

Copyright 2023-2025 - www.tftnews.com All Rights Reserved