高級數據分析和實戰之統計學-tft每日頭條

高級數據分析和實戰之統計學

科技更新时间:2026-03-01 15:38:09

全文共2848字，預計學習時長8分鐘

高級數據分析和實戰之統計學（數據科學之基石）1

圖源：Google

數據科學是一個跨學科領域，其基石之一是統計學。如果沒有足夠的統計知識，就很難理解或解釋數據。

統計學幫助解釋數據。我們使用統計學方法，根據從某個總體中抽取的樣本，推斷出該總體的結果。此外，機器學習和統計學也有很多交叉。要成為一名數據科學家，就需要學習統計學及其概念。本文将具體解釋10個基本的統計概念。

1.總體與樣本

總體是一個群體中的所有元素。例如，美國的大學生是包括美國所有大學生的總體。在歐洲25歲的人是一個總體，該總體包括所有符合該描述的人。

由于我們不能收集一個總體的所有數據，因此對總體進行分析有時是不可行或不可能的，因此，可以借助樣本進行分析。樣本是總體的一個子集。例如，1000名美國大學生是“美國大學生”總體的一個子集。

2.正态分布

概率分布是表示事件或實驗結果概率的函數。考慮數據幀中的一個特性（即列）。這個特征是一個變量，它的概率分布函數顯示了可以取值的區間。

概率分布函數在預測分析或機器學習中非常有用。我們可以根據某個總體樣本的概率分布函數來預測該總體。

正态（高斯）分布是一個概率分布函數，看起來像一個鐘型。下圖顯示了典型正态分布曲線的形狀。

高級數據分析和實戰之統計學（數據科學之基石）2

曲線的峰值表示變量最可能采用的值。離峰值越遠，取該值的概率就越小。

3.量度集中趨勢

中心趨勢是概率分布的中心值（或典型值）。最常用的中心趨勢度量是平均數、中位數和衆數。

· 平均數是一列數值的平均值。

· 中位數是按升序或降序排序時中間的值。

· 衆數是最常出現的值。

4.方差與标準差

方差是值之間變化的度量。它的計算方法是求每個值和平均值的平方差，然後将這些平方差相加，最後将總和除以樣本數。

高級數據分析和實戰之統計學（數據科學之基石）3

标準差是衡量數值分布的一種方法，它是方差的平方根。

5. 協方差和相關性

協方差是一種定量方法，它表示兩個變量的變化在多大程度上相互匹配。更具體地說，協方差以其平均值（或預期值）來比較兩個變量的偏差。

下圖顯示了随機變量X和Y的一些值。橙色點表示這些變量的平均值。這些值的變化與變量的平均值類似。因此，X和Y之間存在正值協方差。

高級數據分析和實戰之統計學（數據科學之基石）4

兩個随機變量的協方差公式：

高級數據分析和實戰之統計學（數據科學之基石）5

其中E是期望值，µ是平均值。

相關性是通過每個變量的标準差對協方差進行正态化。

高級數據分析和實戰之統計學（數據科學之基石）6

其中σ是标準偏差。

這種正态化消除了單位，相關值始終在0和1之間。請注意，這是絕對值。如果兩個變量之間存在負相關性，則相關性介于-1和0之間。如果比較三個或更多變量之間的關系，最好使用相關性，因為值的範圍或單位可能會導緻其假設錯誤。

6.中心極限定理

随機變量的分布在社會科學的許多領域都鮮為人知，因此正态分布得以廣泛應用。

中心極限定理（CLT）解釋了為什麼正态分布可以用來證明這種極限情況。根據中心極限定理，當我們從一個分布中抽取更多樣本時，無論總體分布如何，樣本平均值都将趨向于正态分布。

思考這樣一個案例：我們需要了解一個國家所有20歲人群的身高分布。收集這些數據幾乎是不可能，也不實際的。所以，我們在全國範圍内抽取了20歲的人群樣本，計算樣本中人群的平均身高。中心極限定理指出，當我們從人群中抽取樣本越多時，樣本分布将越接近正态分布。

為什麼正态分布如此重要？正态分布是用均值和标準差來描述的，可以很容易地計算出來。如果知道正态分布的平均值和标準差，就可以計算出幾乎所有關于它的信息。

7.P值

P值是衡量随機變量取值可能性的量。假設有一個随機變量A和x值，x的p值是A取x值時的概率，或者是取任何其他值時，有相同或更少機會被觀察到的值的概率。

下圖顯示了A的概率分布，很容易就觀察到10左右的值。随着值的增大或減小，概率降低。

高級數據分析和實戰之統計學（數據科學之基石）7

有另一個随機變量B，而且想看B是否大于A。從B中獲得的平均樣本均值為12.5。12.5的p值位于下圖中的綠色區域。綠色區域表示獲得12.5或更大極值的概率（在本例中高于12.5）。

高級數據分析和實戰之統計學（數據科學之基石）8

假設p值是0.11，怎麼解釋呢？p值為0.11意味着我們對結果有89%的把握。換言之，該結果受随機事件影響的可能性有11%。類似地，p值為0.05意味着結果受到随機事件影響的可能性為5%。

如果随機變量B的樣本均值的平均值為15，這是一個更極端的值，p值将低于0.11。

高級數據分析和實戰之統計學（數據科學之基石）9

8.期望值和随機變量

随機變量的期望值是該變量所有可能值的加權平均值。這裡的權重是指随機變量取特定值的概率。對于離散和連續随機變量，期望值的計算是不同的。

· 離散随機變量取有限多或可數無限多的值。一年中的雨天數是一個離散的随機變量。

· 連續随機變量取不可數的無窮多個值。例如，從家到辦公室的時間是一個連續的随機變量。根據你測量它的方式（分、秒、納秒等等），它需要無數個值。

離散随機變量期望值的公式為：

高級數據分析和實戰之統計學（數據科學之基石）10

連續随機變量的期望值用相同的邏輯計算，但方法不同。因為連續的随機變量可以取不可數的無窮多個值，所以我們不能談論取特定值的變量。我們更關注其有價值的範圍。

為了計算值範圍的概率，使用概率密度函數（PDF）。PDF是一個函數，指定随機變量在特定範圍内取值的概率。

高級數據分析和實戰之統計學（數據科學之基石）11

9.條件概率

概率單純是指事件發生的可能性，永遠取0到1（包括0和1）之間的值。事件A的概率表示為p（A），并有期望結果的數量除以所有結果的數量來計算。例如，當擲骰子時，得到小于3的數字的概率是2/6。期望結果數為2（1和2）；總結果數為6。

條件概率是假設與事件A有關的另一個事件已經發生時，事件A發生的可能性。

如下所示，假設有兩個盒子，盒子裡放着6個藍色的球和4個黃色的球。我讓你随便挑一個球。得到藍球的概率是6/10=0,6。如果我讓你從A盒中挑一個球結果會怎樣？

選擇藍色球的概率明顯降低。這裡的條件是從A盒中取球，與之前事件（挑選一個藍色的球）發生的概率相比，發生了明顯改變。給定事件B已經發生的事件A的概率表示為p（A | B）。

高級數據分析和實戰之統計學（數據科學之基石）12

10.貝葉斯定理

根據貝葉斯定理，在給定事件B已經發生的條件下，A發生的概率以及給定事件A已經發生的條件下，事件B發生的概率可以用事件A和事件B的概率來計算。

高級數據分析和實戰之統計學（數據科學之基石）13

這就是所謂的普遍存在的貝葉斯統計定理。在貝葉斯統計定理中，事件或假設事件發生的概率可以作為證據發揮作用。因此，先驗概率和後驗概率因證據而異。

樸素貝葉斯算法是結合貝葉斯定理和一些樸素假設構造的。樸素貝葉斯算法假設特征是相互獨立的，特征之間沒有相關性。

當然，關于統計學還有很多東西要學。從基礎知識開始，你可以穩步地深入到高級主題。

高級數據分析和實戰之統計學（數據科學之基石）14

留言點贊關注

我們一起分享AI學習與發展的幹貨

如轉載，請後台留言，遵守轉載規範

更多精彩资讯请关注tft每日頭條，我们将持续为您更新最新资讯!

查看全部

网友关注

科技 p20pro評測
p20pro評測?2018年，這是一個拍照的元年，華為經過了p9的萊卡方案的結合，猶如當初諾基亞與卡爾蔡司的合作，第二代p20pro橫空出世，就如當初iphone4出來給人驚豔一樣當然可能有點說的過了[呲牙][呲牙][呲牙]，無論如何，當年... 2022-09-30
科技對方通過搜索手機号添加是啥意思
對方通過搜索手機号添加是啥意思?對方通過搜索手機号添加的意思是他手機通訊錄裡面有你，或者是他知道你的手機号碼，然後直接搜索你的手機号碼，剛好你的微信用這個手機号碼注冊綁定了，然後就可以搜到你進行添加了打開手機微信，點擊右上方“+”添加朋友，... 2022-06-25
科技怎麼把手機的軟件推送在電視上去
怎麼把手機的軟件推送在電視上去?很多朋友家裡都有電視，但每次用U盤在電腦上下載apk軟件再安裝到電視上是不是很麻煩呢？不少人都在找一些更加簡單便捷的辦法，最好能擺脫U盤，直接通過我們日常使用的手機就能把軟件或者一些apk文件傳到電視上今天就... 2022-10-18
科技複旦申花淨水機拆機
世界上有一種人是顔值控，總是喜歡收納各種好看的東西，即使自己用不着也要買買買，這種寶寶一般就會被稱為"土豪"，雙十一馬上到了，土豪寶寶又該出來揮霍了。你是顔值控的土豪寶寶嗎？複旦申花垃圾處理器F1，是一類擁有高顔值的廚房電器... 2022-12-02
科技廚房下水管能裝止回閥嗎
廚房下水管能裝止回閥嗎?廚房防反水止回閥原理止回閥是靠水流體流動力量自行開啟或關閉，倒流時候閥闆關閉水壓頂住以防止介質倒流的閥門止回閥隻允許水向一個方向流動，以防止反水發生事故廚房是生活中産生雜質最多的地方，樓上很多層使用一根下水管，總會有... 2022-06-15
科技 win10系統安裝好還需要哪些設置
我在給用戶維修電腦裝win10系統和用戶的使用反饋中，遇到各種各樣的問題！系統誰都可能會安裝，但是系統優化設置的好與壞？才是你系統穩定快速運行的關鍵。建議裝安裝版win10系統，安裝完系統需要做的設置：一、激活系統。用相關軟件激活，或者購買... 2022-11-18
科技為什麼電信卡插上手機後沒反應?
為什麼電信卡插上手機後沒反應?電信卡插在電信手機上沒反應的原因是因為“prl”沒有進行更新更新“prl”的具體操作步驟如下：，我來為大家科普一下關于為什麼電信卡插上手機後沒反應?以下内容希望對你有幫助!為什麼電信卡插上手機後沒反應電信卡插在... 2022-06-19
科技怎麼注銷注冊的各種app
怎麼注銷注冊的各種app?部分手機應用可以實現注銷注冊的功能，當我們決定不使用某款軟件的時候，就直接在app相應選項中注銷，現在小編就來說說關于怎麼注銷注冊的各種app?下面内容希望能幫助到你，我們來一起看看吧!怎麼注銷注冊的各種app部分... 2022-06-09
科技微信智能存包安裝
微信智能存包安裝?你手機裡占内存最多的APP是什麼？相信很多人的答案都是一樣的：微信如今，微信已經成為國民級的超級APP，幾乎是國人的裝機必備軟件随之而來的，是微信越來越臃腫了，動辄占用手機幾十個G的存儲空間近日，“微信安裝包11年膨脹57... 2022-09-30
科技斑馬系統的合資車
3月12日，在位于上海虹橋機場附近的阿裡巴巴集團大樓裡，上汽斯柯達與斑馬網絡正式簽約，雙方将合作為斯柯達打造斑馬智行車載系統，而上汽斯柯達也成為繼神龍汽車後第二家與中國本土車機系統供應商合作的合資品牌。其實在12日雙方簽約的前一周左右，上汽... 2022-12-04
科技 iphone錄音轉文字功能快捷方式
在職場工作中，開會是在所難免的，最怕的就是會議結束之後，還要寫一份會議紀要。這時候很多人都想到了用錄音筆記錄，但不是每個人都有錄音筆的，而且價格也挺貴的。其實我們使用的iPhone手機，就自帶錄音轉文字功能，堪稱會議記錄黑科技。一、鍵盤聽寫... 2022-11-18
科技适合窮人使用的手機
現在的生活節奏越來越快，對于我們這種普普通通的打工人來說，買手機要便宜好用才是王道。今天就為大家推薦三款，性能強勁、價格還不貴的手機，至少流暢使用三五年。一、vivoiQOONeo6搭載骁龍8Gen1旗艦處理器，該芯片采用三星4nm工藝制程... 2022-12-06
科技電子技術應用是什麼
電子技術應用是什麼?電子技術應用專業學生主要學習電工技術、電子技術、信息控制、計算機技術等方面較寬廣的工程技術基礎和一定的專業知識電子技術應用專業主要特點是強弱電結合、電工技術與電子技術相結合、軟件與硬件結合、元件與系統結合，學生受到電工電... 2022-06-09
科技公認最好的十款沐浴露男士
快來看看你的膚質适合什麼樣的沐浴露想要幹淨肌膚，好用的沐浴露必不可少！特别是男生，夏天出油出汗那麼多，所以對于洗澡這件事必須重視起來要根據不同的肌膚選擇适合自己的沐浴露當然了，好用的沐浴露一定是适合所有肌膚的，今天就分享下我整理的男士沐浴露... 2022-11-09
科技 excel如何自定義單元格格式
在excel中，單元格格式中的自定義學會了，能讓你的錄入工作事半功倍，學excel必須學會的一項技能。單元格自定義的作用是指為選中的單元格設定既定的格式，當你錄入相應的數據時自動顯示為自定義設置的單元格格式。其在日常工作中單元格自定義應用非... 2022-11-20
科技智能汽車可用性測試
現代公司的電動汽車在其車載系統使用教程上的示例密鑰一位開發者發帖稱，他想要修改汽車上的車載信息娛樂系統，他的汽車是現代公司2021款的“全新未來移動生活概念的電動汽車IONIQ”。在試圖找出如何為汽車更新定制固件時發現，其中用來為某些部分簽... 2022-12-01
科技安卓拍一拍在哪設置
雙十一剛結束，各家廠商就開始曬起戰報來了。什麼xx價位的銷量冠軍、xx時段的銷量冠軍，隻要我的定語夠多，我的每款産品都是No.1。其中最耀眼的定語冠軍，還得數AGM。不過要說最能引起我注意的戰報，其實是早些時候天貓發出的這張圖。根據天貓的數... 2022-11-23
科技 windows系統下鍵盤失靈
鍵盤是我們向電腦傳輸信息最關鍵的工具，當我們在使用筆記本的過程中偶爾會遇到按鍵錯亂現象（對應鍵無法按出對應的字母），今天小編就分享下該問題的解決辦法。操作失誤&鍵盤故障有些鍵盤是按鍵有兩種輸出标識，類似于筆記本F1-F12隻有組合鍵可以按出... 2022-10-23
科技網站安全證書已過期或不可信是否繼續浏...
網站安全證書已過期或不可信是否繼續浏覽?訪問的目标網站存在安全隐患，經過網友舉報、百度識别後确定為非法網站，因此百度會在用戶浏覽時進行提示如果你在訪問網站的時候彈出手機網站安全證書已過期或不可信的窗口，你所訪問的網站很可能是惡意網站，或非法... 2022-06-19
科技學生火車票可以直接刷身份證嗎
随着鐵路電子客票不斷推廣實施，湖北、上海、天津、江蘇、四川、重慶、山東、雲南、廣東、廣西、河南等地增設上百個電子客票試點車站。作為未來票務領域的發展趨勢，電子客票将原紙質車票承載的旅客運輸合同、乘車、報銷三個憑證功能分離，實現運輸合同憑證電... 2022-11-09
科技沒有智能手機的時代是什麼
最近受疫情影響，進入靜默狀态，每天在家就是玩手機，刷刷抖音，刷刷微信朋友圈，時間就過去了，以前我不玩抖音的時候，還有時間看看微信讀書，看看電視劇，聽聽歌。自從有了抖音，這種碎片化的時間完全被占用，我們能短暫的感受到快樂，但是快樂之後，我們學... 2023-01-16
科技手機怎麼投屏到win10電腦上
不知道大家的電腦系統是Win幾？小編一直多年來都堅持用Win7，因為個人覺得Win7無論從哪方面來說，都真的很好用，直到前陣子電腦陣亡，換了個Win10的新電腦，媽耶，一臉懵逼，一時間有些難以接受。不過經過這一陣子的适應，已經漸漸上手啦！今... 2022-12-29
科技 ip地址與網絡上的其他系統有沖突
ip地址與網絡上的其他系統有沖突?修改IP地址：點擊開始，選擇“控制面闆”，今天小編就來說說關于ip地址與網絡上的其他系統有沖突?下面更多詳細答案一起來看看吧!ip地址與網絡上的其他系統有沖突修改IP地址：點擊開始，選擇“控制面闆”。然後點... 2022-07-16
科技 OPPO新平闆将發布
在手機圈，除了激烈的競争之外，我們能夠經常看到各品牌高管化身段子手與網友頻頻互動，神回複幾乎天天都有，言談間給你如同和隔壁老王唠嗑的親切感，有效拉近用戶和品牌之間的距離。6月28日，OPPO高管劉波在其個人微博發布解答網友問題的視頻，并表示... 2022-11-19
科技把手機設置成代碼壁紙
Reno8系列上市有一段時間了，不知道有木有小夥伴已經安排上了呢？如果有的話，上手後記得要這樣設置，讓我們的手機桌面變得更加美觀，更具個性。Ⅰ更換桌面主題/壁紙雖然新手機默認的主題及壁紙也很不錯，但不一定就是我們所喜愛的，所以在新機入手時我... 2022-10-23
科技千元暢玩原神的手機
原神這款遊戲放在手機遊戲中是讓人比較驚豔的，同時也對手機的性能提出了較高的要求，于是原神成為了不少媒體評測時常用的“跑分軟件”，但對于想要用手機遊玩原神的玩家來說，性能成為了手機最重要的選擇标準，預算不高又想要高性能手機的同學可以來看下面這... 2022-12-17
科技筆記本電腦哪些值得升級
筆記本的硬件升級是小白用戶比較關心的問題之一，在買電腦之前我們會琢磨筆記本的性能夠不夠用，買到機器後又會琢磨如果性能不行怎樣才能讓它行呢？雖然筆記本的硬件擴展性不如台式機豐富，但是依然可以通過一些基本的硬件升級來提升它的性能。各方面都會有提... 2022-11-20
科技報廢手機維修老式
大家還有沒有留着很久以前的舊手機呢？既然會留到現在，無非是那隻手機曾經伴随你創造許多的回憶，甚至裡面可能還存有懷念的照片或是影音檔吧！日本電信公司KDDI就為此在日本各地不定期開設「急救站」，替民衆複活舊手機，取出裡面充滿回憶的檔案。最近急... 2022-10-25
科技華為nfc模拟門禁卡怎麼搞
現在手機不僅是一個通訊工具，還是生活中的好幫手！就比如華為手機中NFC功能，除了可以刷公交卡，還能模拟小區門禁卡哦。可以說是非常方便實用，下面筆者就分享制作NFC門禁卡的詳細方法！NFC普及度還不高，目前支持NFC功能都是旗艦機，所以這裡先... 2022-11-16
科技 c語言求50-100之間的所有素數
先給出素數的定義：素數是隻能被1和自身整出的整數。1不是素數算法思考：判斷一個數是不是素數，隻需要判斷它是不能隻能被1和自身整除。那怎麼判斷一個數不能被除1和自身之外的其他數整除呢？想法是寫一個循環，循環裡依次除以從2到這個數減1的所有的整... 2023-02-14

tft每日頭條

> 科技

> 高級數據分析和實戰之統計學

高級數據分析和實戰之統計學

相关科技资讯推荐

热门科技资讯推荐

网友关注