tft每日頭條

 > 科技

 > 大數據怎麼可以判斷因果性

大數據怎麼可以判斷因果性

科技 更新时间:2025-01-23 07:39:52

本文刊載于《三聯生活周刊》2020年第15期,原文标題《大數據中的因果關系》,嚴禁私自轉載,侵權必究

《為什麼》一書借助因果關系之梯的三個層級,揭示了因果推理的本質,并據此構建出相應的自動化處理工具和數學分析範式。

文/張留華

大數據怎麼可以判斷因果性(大數據中的因果關系)1

美國計算機科學教授朱迪亞·珀尓

大數據怎麼可以判斷因果性(大數據中的因果關系)2

普林斯頓大學數學博士達納·麥肯齊

美國計算機科學教授朱迪亞·珀爾和普林斯頓大學數學博士達納·麥肯齊在《為什麼》一書中提出:福爾摩斯主要依靠個人的超強記憶或探案藝術去确定原因,如果我們把因果推斷的原理教給計算機,實現“因果推斷”的自動化處理,未來在人工智能的幫助下,人人都可以成為福爾摩斯,甚至比福爾摩斯“算”得更快更準。

這當然是一項創舉,很多科學家和哲學家都曾有過這樣的設想。那麼,我們該如何教會計算機進行“因果推斷”呢?首先,得理清“因果”觀念。因果思維是人類古老的、伴随條件句使用的一種認知方式,而且有層級之分。譬如,當你看到一個人按着頭部難過的樣子,可能想到他頭痛。這種形如“如果我看到A就會想到B”的條件句表達了一種“關聯”,是最初級的因果關系。然後,你打算主動提供阿司匹林給他服用,看他是否還頭痛。于是就有形如“如果我實施行動A,就會有結果B”的條件句。這裡表達的是一種“幹預”,屬于第二層級的因果關系。其中的A不再是被動接受的所觀察之物,而是你主動采取的一種行動。而待他服藥後不再頭痛時,你可能又設想:假若我剛剛沒有及時給他服用阿司匹林,不知道會怎樣?這時的條件句形式為“如果我當時做的是A,結果可能是B”,它所表達的是一種“反事實”,即,其中的A是一種虛拟的、未曾發生或不可能發生的情況。從“關聯”到“幹預”再到“反事實”,三者構成了“因果關系之梯”。它描繪了人類意識進化和個體認知能力提升的三個階段,也代表着機器模拟人類思維(人工智能)的三個台階。當前已出現的人工智能産品,隻停留在“關聯”這個初級階段,連小孩子的因果思維水平也趕不上。要想走向更強的人工智能,必須沿着“因果關系之梯”繼續攀升,讓計算機不隻是被動接受信息,而且能學會更高級的因果思維能力,尤其是“反事實”的因果推斷。隻有把“反事實”的可能性考慮在内,我們才能突破現有觀察數據的局限,去把握一種代表一般性規律的、能靈活應對未來不确定情況的因果關系。對“反事實”可能性的思考是人類區别于類人猿祖先以及地球上其他生物的重要特征。事實上,我們熟知的科學定律很多都是“反事實”條件句,比如牛頓力學第一定律,其精确的表達方式是:任一物體,假若不受外力作用,一定保持靜止或勻速直線運動狀态。這裡的“假若”情形(某一物體不受外力作用)顯然是我們觀察不到的“反事實”。

大數據怎麼可以判斷因果性(大數據中的因果關系)3

《為什麼》

接下去要做的是,借助于因果圖及其背後的主觀概率理論,從既有觀測數據中推算“原因”。要推算一種現象背後的原因,往往要考慮多個可能相關的因素。通過适當的概率計算,我們可以估量各種“因”的相對重要性。在此過程中,我們經常需要試着改變某一變量的狀态值,并預言如此幹預或想象之後會有什麼樣的概率變化。在利用科學界積累的觀察和實驗數據進行模拟計算之後,可能要重新規劃模型,修改原有的因果圖,直至達到關于某一種現象之因果關系的“最佳解釋”。這就是科學邏輯上著名的外展法(Abduction,或譯為“溯因法”)。計算機遵循外展法進行因果推斷并由此反思自身的錯誤,相比基于固定規則而開展的演繹,這毋甯說是更接近了人類的智能。

相比于主流統計學的保守做法,這套“因果關系”理論或顯得有些激進。但此種激進并不等于冒進。它巧妙地把定量的經驗數據和定性的因果模型結合起來,一方面用因果圖來統合和理解數據,反過來又用數據來評估和修改之前的因果判斷。此種策略不僅符合普通人(包括福爾摩斯那樣的偵探)的認知實際和決策路徑,也與邏輯學家對于科學方法實踐的刻畫保持一緻。更為直接的一點是,它能很好地解決統計學方法論中的“混雜因”難題。以上世紀五六十年代科學界關于吸煙是否會導緻肺癌的争論為例,現在看來,這似乎是常識。但何以說服那些嗜煙人士或懷疑論者呢?畢竟,有些人一輩子吸煙卻從未得過肺癌,另一些人從不吸煙卻患上肺癌。為了消除這些混雜因子作為“虛假因”的可能性,我們或許需要更多實驗證據,采取随機對照實驗。但是,這種研究方法在這裡既不可行,也不合乎職業道德。科學家怎能随機挑選一些人作為被試,讓他們連續吸煙30年,隻為了看30年後會否患上肺癌呢?這種排除混雜因子的困難,一直讓很多統計學家焦慮不安。或許也正因為如此,他們甯願隻談“相關”而不講“因果”。然而,如果我們通過因果模型來考慮這個問題,綜合比較各種“因素”的相對重要性,并願意調用(即“遷移”或“融合”)科研人員業已掌握的科學證據(尤其是之前所取得的觀察性和試驗性成果,包括白鼠試驗、煙霧緻癌物成分等等)來計算所需要的條件概率,最後将能嚴密地推斷出:在“長期吸煙”之外沒有任何其他因素更有可能是導緻美國當時“大批肺癌”的主因。

類似這樣為“因果模型”路徑辯護的真實而生動的案例,讀者可以在書中找到很多,透過作者對當代科學前沿中核心概念的曆史溯源和因果圖重釋,你還會懂得為何處決犯人時配置兩人以上的行刑隊可以減輕行刑人員的愧疚感,也會明白計算機程序是如何快速識别遇難者DNA的。

總體來看,作者在哲學上堅信決定論與自由意志之間并無沖突,或許也正因為如此,他似乎相信一切“為什麼”問題都可以轉換為因果推斷。甚至一些通常看來隻關乎理由選擇而不牽涉原因的例子,如一個人問:“你為什麼這麼做?”你回答說:“因為我想打動你。”回答者看似擁有的自由意志被認為是一種幻覺,因而在模拟人的這種思維過程時,我們隻需教會計算機進行反事實的因果推斷并讓其表現出類似自由意志的幻覺即可。這種論調勢必會在人文學者或其他科學家那裡引起一些異議。不過,作者對“因果性”諸多難題的敏感及其在這方面所做出的跨學科探索是令人敬佩的,也可以期待它們會推進當前人工智能的轉型升級。

更多精彩報道詳見本期新刊《重新看待親密關系:被疫情改變的我們》,點擊下方商品卡即可購買 ,

更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!

查看全部

相关科技资讯推荐

热门科技资讯推荐

网友关注

Copyright 2023-2025 - www.tftnews.com All Rights Reserved