導讀:本文帶你了解數據收集的偏差。
作者:徐晟
來源:華章科技
數據收集是一項重要的工作,需要投入大量精力和時間,這是因為數據質量直接關乎分析結論的成敗。然而,錯誤的數據收集方法可能造成結果偏差。
比如統計對象出現錯誤,明明應該統計數據集合A,卻統計了數據集合B。又比如統計對象不全面,隻抽樣了部分數據,卻沒有統計全體,或者忽略了數據分布存在偏斜等。
這些錯誤的數據收集方法會産生兩種常見的數據偏差——幸存者偏差和選擇性偏差。
01 幸存者偏差幸存者偏差指用于統計的數據僅來自幸存者,導緻結論與實際情況存在偏差的情況。
幸存者偏差源自一個真實故事:二戰時期,美軍統計了作戰飛機的受損情況,他們發現,返航飛機各個損傷部位被擊中的彈孔數不同。這些飛機發動機部位的彈孔數最少,機翼的彈孔數量最多。于是有人提出,要趕緊加固飛機機翼,因為這些部位更容易受到敵方炮火的攻擊。
可是,美國哥倫比亞大學的沃德教授立即否決了這個方案。沃德教授是一位統計學專家,他應軍方要求提供相關專業建議。沃德指出,應該強化的不是機翼,而是發動機。從理論上講,飛機各部位的中彈概率應該是相同的。發動機部位的彈孔明顯偏少,隻能說明:那些被擊中引擎的飛機大多沒有返航。
這就是幸存者偏差,軍方隻看到幸存下來的飛機,卻沒有意識到它們隻是一部分數據,不能反映飛機受損的真實情況。
選擇正确的數據樣本非常重要。我們必須保證數據考察是全面的,而非其中的一部分。在很多場合,人們下意識地會做出具有幸存者偏差的選擇。
比如一個粗心的研究者在統計醫學數據時,為圖方便選擇了住院病人為研究對象,卻沒有意識到這種做法可能為研究結果帶來偏差——隻有病人才去醫院。
一些成功學的書中提到,比爾·蓋茨、紮克伯格、喬布斯、埃裡森等成功人士都在大學退學創業,似乎從大學退學更有可能獲得成功。但這隻是幸存者的案例,我們從未聽到失敗者故事,更不能說明大學退學創業就是成功的必需特質。
如果一項研究是通過已有的樣本去研究過去某個規律,那就要當心了,因為它很有可能存在幸存者偏差。當我們選擇已有的樣本時,就隻看到了幸存者,而忽略了沒被統計到的樣本。
比如,查看公司财務報表時,就已經過濾掉了那些經營不善而破産的公司;查看老年人在醫院的診療記錄時,就默認地排除了沒有活到老年的人群;統計某款手機軟件的受歡迎程度,不自覺地排除了那些買不起手機或者從未安裝過該手機軟件的人。這樣的例子比比皆是。
之所以會産生幸存者偏差,是因為很多人從一開始就搞錯了統計樣本,隻看到經過篩選的數據,但沒有意識到篩選的過程。如果隻是人為地選擇部分觀察數據,那就無法保證結論的客觀性。
要獲得“全樣本”數據絕非易事。由于認知局限,很多人隻看見了那些能看見的現象——比如受損的飛機、就醫的病人、成功的企業家、公司的報表,但忽略了沒有看見的真相—未返航的飛機、健康的人、失敗的創業者、破産的公司,而這些被忽略的數據同樣重要,甚至更加重要。
02 選擇性偏差
19世紀初期,人們認為統計就是要追求考察對象的大而全,數據越多,結果就越準。不過,想要考察大而全的總體,有時不具備操作性。于是一些統計學家提出了抽樣的想法,認為隻要方法得當,就算不考察總體,也能通過研究一部分有代表性的随機個體來推斷出總體的特征。
這些從總體中選出來的個體的集合,叫作樣本,随機選擇的動作叫作抽樣。統計學界圍繞“抽樣”這件事争論了好幾十年。直到20世紀30年代,抽樣的科學性才被學術界逐漸認可。
抽樣是一種非常好的了解大量樣本空間分布情況的方法,适用于大樣本。抽樣的對象要盡可能分散和有代表性,這樣才能體現出整個樣本的分布特點。
不過,抽樣畢竟對研究對象做了精簡,因此它很可能存在樣本選擇上的偏差,即選擇性偏差。比如想要調研中年男性的健康程度,抽樣時隻選了亞洲人,這個抽樣對象顯然不夠全面。又或者,調研時隻收集了若幹人的數據,研究樣本過少,因此得到的結論也不具備普适性。
選擇性偏差是在抽樣時出現的一大問題。有時,人們為了證明自己的觀點,傾向于選擇特定的數據來支撐結論,從而忽略了其他證據。采用有偏差的抽樣數據,幾乎可以得到人們想要的任何結論。
假如在調研問卷中問這樣一個情感問題:“假如愛情可以重來,你是否還會選擇和他/她在一起?”結果會如何呢?我想多數會收到“不會”的答案。這并不是真相,隻是那些回複的人群可能是“有偏的”。
因為調查問卷是自願回複,所以對這個話題抱有強烈負面感受的人,更有可能不厭其煩地做出回應,那些生活幸福的人也許随手就将問卷丢進了垃圾桶。
又比如,去高檔的購物場所進行調研,會出現選擇性偏差,因為去那裡消費的人相對富有;而如果去山村調研,則很可能得出完全相反的結論。
在以上的例子中,前者由被調查的人自行決定要不要回應,後者則由調查人員決定如何選取樣本,這兩種調查方法都會人為地影響統計結果。
抽樣的結論若要很好地代表整體,需要具備兩個條件:
采用随機抽樣的方法,可以一定程度上消除對樣本選擇的偏差。
以民意調查為例,我們知道,美國的總統選舉永遠是個熱門話題,網絡和媒體會密切關注,并跟蹤報道一手資料。其中一個熱門話題就是關于選舉結果的預測。由于選票會涉及不同階級、不同種族、不同利益的人和團體,所以要調研民衆意向,抽樣時就應該考慮兼顧各種利益團體的樣本,否則很有可能出現帶有偏差或者歧視的結論。
為了調查民衆的看法、意見和心态,喬治·蓋洛普設計了一種蓋洛普民意測驗。他根據年齡、性别、教育程度、職業、經濟收入、宗教信仰這6個标準,在美國各州進行抽樣問卷調查或電話訪談,然後對統計結果做出分析。此方法産生于20世紀30年代,今天仍會被使用,并且有着相當高的權威性。
總之,抽樣要針對大樣本,保證樣本的随機性。如果抽樣的樣本很少,或由于其他原因導緻了統計不充分,那麼結論很可能是錯誤的。
小結
數據樣本偏差帶來了“以偏概全”的風險,它會得出“差之毫厘,謬以千裡”的錯誤結論。過去,人們擔心小樣本導緻統計誤差;而在大數據時代,這個問題并不會消失,反而變得更加複雜,也更難察覺。
幸存者偏差提醒我們,要考察所有類型的數據。選擇性偏差提醒我們,要客觀地挑選數據。前者是因為沒有準确選擇研究對象而導緻的偏差,後者是由于沒有“公平”地挑選數據導緻的偏差,兩者都未看清數據的全貌。
為了避免幸存者偏差,我們需要擁有全面的數據集合,而不是有意或無意地排除總體中的某個子集。為了避免選擇性偏差,我們應該客觀地考察所有數據,而不是僅僅考慮少量的數據,或者支持既定假設的數據。
關于作者:徐晟,某商業銀行IT技術主管,畢業于上海交通大學,從事IT技術領域工作十餘年,對科技發展、人工智能有自己獨到的見解,專注于智能運維(AIOps)、數據可視化、容量管理等方面工作。
本文摘編自《大話機器智能:一書看透AI的底層運行邏輯》,經出版方授權發布。(ISBN:9787111696193)
《大話機器智能:一書看透AI的底層運行邏輯》
推薦語:AI是什麼?機器如何擁有“智能”?“智能”如何起作用?本書以通俗易懂的方式,勾勒人工智能的全貌,展現AI的底層運行邏輯,即AI是如何工作的。
,更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!