統計學從概念到數據分析-tft每日頭條

統計學從概念到數據分析

科技更新时间:2025-04-06 05:13:34

01寫在前面

數據分析師的必備技能棧裡，除了熟悉業務、掌握業務分析思維和工具外，還有一個特别重要的知識點，就是統計學，無論在簡曆的技能描述中還是實際的面試過程中，統計學都是必備的基礎知識。

為什麼對于數據分析師來說統計學那麼重要？其實答案顯而易見，數據分析的價值就是通過數據去洞察業務背後的信息，避免之前的“一拍腦袋決定，二拍胸脯保證，三拍屁股走人”的主觀誤判，一切用數據說話！數據怎麼能說話呢，算出一個數據，怎麼知道這個數據是好還是壞？有多好有多壞？兩組數據呈現在你面前，怎麼判斷這兩組數據是否有明顯差異？要回答這些問題，就必須要用到統計學知識，而不是相信自己的眼睛，因為眼睛有時候也會說謊，你看到的“好”不一定是好，你看到的“沒有差異”不代表沒有差異。

但是很多剛入門的數據分析師在學習統計學知識時都很頭疼（也包括我哈哈哈），因為統計學的書籍裡都是寫晦澀難懂的公式，真不是一般人能看懂的。其實，對于大部分數據分析師來說，我們并不需要掌握的那麼全面和深入，我們隻需要掌握部分知識點，理論看不懂，但是知道在什麼場景下用就行，用起來你才會慢慢地搞懂！

所以為了讓大家更容易學習掌握統計學的基礎知識，這裡整理了數據分析工作中最常見的一些統計學基礎知識，盡量用簡單白話的形式去解釋，這樣無論是在面試中還是以後的工作中，都能把統計學的知識用起來！

統計學從概念到數據分析（數據分析必備的統計學知識）1

統計學從概念到數據分析（數據分析必備的統計學知識）2

02數據分析中的統計學

Q1、如何理解假設檢驗中的P值和顯著性水平α?

講顯著性水平α我們就得提到前面文章中提到的第一類錯誤和第二類錯誤，可以翻看系列文章：【數分面試寶典】數據分析必備的統計學知識（一）

我們還是舉之前談戀愛的栗子，面前有一個男生，我們有2個假設:

H0:一個真心愛你的男生H1:一個不是真心愛你的男生

如果H0實際上成立，而你憑經驗拒絕了H0，也就是說，你拒絕了一個你認為不愛你而實際上真心愛你的男生，那麼你就犯了第一類“棄真”錯誤，也稱為α風險，錯殺了好人；

如果H0實際上不成立，而你接受了H0，同樣的道理，你接受了一個你感覺愛你而實際上并不愛你的男生，那麼你就犯了第二類“納僞”錯誤，也稱為β風險，放走了壞人。

第一類錯誤和第二類錯誤這兩個錯誤概率互相制約，你大我就會變小，你小我就會變大，基于保護零假設的原則，我們一般把一類錯誤概率固定住，讓第一類錯誤概率不超過某個閥值（也就是α值），也就是我們常說的“顯著性水平α”，即代表好人被冤枉的概率。通常情況下，我們不希望好人被冤枉，所以顯著性水平α通常比較小。

顯著性水平α是你冤枉好人的可能性，然而，每個人在這一點上是有分歧的，有的人希望α大一點兒，有的人希望α小一點兒（α越大，意味着檢驗越嚴格，我們冤枉好人的概率就越大）。

在這種情況下，我們就期望回答一個問題：對于面前的這個男生，我們不會冤枉他的最嚴格的檢驗水平，即最大的α是多少呢？得到了這個問題的答案，我們就可以輕松完成在任意嚴格程度上的檢驗了，即如果α大于這個值，那麼我們就認為該男生不喜歡你，反之亦可。

而這個最大的α，就是我們的P值。隻是這2個概念是有明顯的區别的。顯著性水平α是在每次統計檢驗之前人為規定的，通常取α＝0.05或α＝0.01。這表明，當做出拒絕原假設的決定時，其犯錯誤的可能性為α＝0.05或α＝0.01，而P值是根據實驗結果計算得出的。如果計算出來的概率（P值）小于這個标準（顯著性水平α），就說明拒絕原假設錯誤的可能性很小，那就可以放心地拒絕原假設，認為這個男生确實是不愛你的；反之，大于這個标準則說明拒絕原假設錯誤的可能性較大，那還是接受原假設，也就是沒有充足的證據，認為這個男生還是愛你的。

Q2、如何理解置信度與置信區間？

置信區間是我們所計算出的變量存在的範圍，置信水平就是我們對于這個數值存在于我們計算出的這個範圍的可信程度。

舉例來講，如果我們有95%的把握，讓真正的數值在我們所計算的範圍裡，那麼在這裡，95%是置信水平，而計算出的範圍，就是置信區間。

如果置信度為95%，則抽取100個樣本來估計總體的均值，由100個樣本所構造的100個區間中，約有95個區間包含總體均值。

Q3、如何理解極大似然估計？

利用已知的樣本結果，反推最有可能（最大概率）導緻這樣結果的參數值。“似然”是“像這個樣子”的意思。

極大似然估計，通俗理解來說，就是利用已知的樣本結果信息，反推最具有可能（最大概率）導緻這些樣本結果出現的模型參數值！換句話說，極大似然估計提供了一種給定觀察數據來評估模型參數的方法，即：“模型已定，參數未知”。

假如有一個黑箱子，裡面有黑白兩種顔色的球，數目多少不知，兩種顔色的比例也不知。我們想知道箱子中白球和黑球的比例，但我們不能把箱子中的球全部拿出來數。現在我們可以每次任意從已經搖勻的箱子中拿一個球出來，記錄球的顔色，然後把拿出來的球再放回箱中。這個過程可以重複，我們可以用記錄的球的顔色來估計箱中黑白球的比例。假如在前面的一百次重複記錄中，有70次是白球，請問箱子中白球所占的比例最有可能是多少？

很多人馬上就有答案了：70%。而其後的理論支撐是什麼呢？

我們假設罐中白球的比例是p，那麼黑球的比例就是1-p。因為每抽一個球出來，在記錄顔色之後，我們把抽出的球放回了罐中并搖勻，所以每次抽出來的球的顔色服從同一獨立分布。

這裡我們把一次抽出來球的顔色稱為一次抽樣。題目中在一百次抽樣中，70次是白球的,30次為黑球事件的概率是P(樣本結果|Model)。

如果第一次抽象的結果記為x1,第二次抽樣的結果記為x2....那麼樣本結果為(x1,x2.....,x100)。這樣，我們可以得到如下表達式：

P(樣本結果|Model)

　　= P(x1,x2,…,x100|Model)

　　= P(x1|Model)P(x2|Model)…P(x100|Model)

　　= p^70(1-p)^30.

好的，我們已經有了觀察樣本結果出現的概率表達式了。那麼我們要求的模型的參數，也就是求的式中的p。

那麼我們怎麼來求這個p呢？

不同的p，直接導緻P（樣本結果|Model）的不同。

好的，我們的p實際上是有無數多種分布的。如下：

統計學從概念到數據分析（數據分析必備的統計學知識）3

那麼求出 p^70(1-p)^30為 7.8 * 10^(-31)

p的分布也可以是如下：

統計學從概念到數據分析（數據分析必備的統計學知識）4

那麼也可以求出p^70(1-p)^30為2.95* 10^(-27)

那麼問題來了，既然有無數種分布可以選擇，極大似然估計應該按照什麼原則去選取這個分布呢？

答：采取的方法是讓這個樣本結果出現的可能性最大，也就是使得p^70(1-p)^30值最大，那麼我們就可以看成是p的方程，求導即可！

那麼既然事情已經發生了，為什麼不讓這個出現的結果的可能性最大呢？這也就是最大似然估計的核心。

我們想辦法讓觀察樣本出現的概率最大，轉換為數學問題就是使得：

p^70(1-p)^30最大，這太簡單了，未知數隻有一個p，我們令其導數為0，即可求出p為70%，與我們一開始認為的70%是一緻的。其中蘊含着我們的數學思想在裡面。

Q4、詳細介紹一種非參數統計方法，并叙述其優缺點

非參數統計：對總體的分布不作假設或僅作非常一般性假設條件下的統計方法。

機器學習：決策樹，随機森林，SVM；

假設檢驗：符号，符号秩，秩和檢驗

優點：

非參數統計方法要求的假定條件比較少，因而它的适用範圍比較廣泛。

多數非參數統計方法要求的思想與運算比較簡單，可以迅速完成計算取得結果。

缺點：

由于方法簡單，用的計量水準較低，因此，如果能與參數統計方法同時使用時，就不如參數統計方法敏感。若為追求簡單而使用非參數統計方法，其檢驗功效就要差些。這就是說，在給定的顯著性水平下進行檢驗時，非參數統計方法與參數統計方法相比，第Ⅱ類錯誤的概率β要大些。

對于大樣本，如不采用适當的近似，計算可能變得十分複雜。

Q5、如何簡單理解過拟合？如何防止過拟合？

好比你想找個女朋友。

你可能會先找你表妹問她喜歡什麼，表妹說她喜歡陽光幹淨的男生，還說她喜歡王力宏，喜歡火鍋，喜歡日料，七七八八合計一百個愛好。你規規矩矩地按照這個标準學訓練自己，終于符合表妹的一切要求，完美零誤差，訓練完成，超級自信準備出去試試追個妹子。

可是換了個妹子，發現學到的完全沒用。第二個妹子隻要你陽光幹淨。剩下的她都不care，她甚至讨厭王力宏，那後面的那些隻會增加誤差。這就事過拟合了。

怎麼防止過拟合呢？應該用cross validation，交叉比對。解釋起來就是，你在你表妹那兒學到的東西，在你表姐那兒測試一下對不對。在你表姐那兒學到的，在你女同學那測試一下。來來回回用不同的測試對象和訓練對象做交叉比對。這樣學到規律就不會過拟合啦。

以上就是【數分面試寶典】系列—統計學基礎知識第3篇文章的内容，部分曆史文章請回翻公衆号，更多數據分析面試筆試的文章持續更新中，敬請期待，如果覺得不錯，也歡迎分享、點贊和點在看哈~

更多精彩资讯请关注tft每日頭條，我们将持续为您更新最新资讯!

查看全部

网友关注

科技 win10系統移動熱點無法使用
win10系統移動熱點無法使用?首先找到桌面的網絡圖标然後鼠标右鍵點擊該圖标選擇屬性選項，下面我們就來聊聊關于win10系統移動熱點無法使用?接下來我們就一起去了解一下吧!win10系統移動熱點無法使用首先找到桌面的網絡圖标。然後鼠标右鍵點... 2022-06-13
科技 twitter沒有響應
Twitter似乎對數百萬用戶來說是不可用的。但有趣的是這個世界上最大的微博客服務可以通過其App訪問，但在電腦上仍然無法使用。一些Twitter用戶今天早些時候抱怨說，該社交媒體平台無法使用。具有諷刺意味的是，有幾十條推文聲稱Twitte... 2022-12-07
科技 csgo官方服務器連不上
csgo官方服務器連不上?第1種：部分是防火牆導緻的，下面以win10為例講解連接成功的方法，首先對我的電腦點反鍵選擇電腦--屬性，我來為大家講解一下關于csgo官方服務器連不上?跟着小編一起來看一看吧!csgo官方服務器連不上第1種：部分... 2022-06-15
科技電容器在電力系統中的作用
電容器在電力系統中的作用?耦合作用：耦合電路中的電容稱為耦合電容，在交流放大器和其他電容耦合電路中，通過耦合電容連接前、後級，起着隔直流通交流的作用，現在小編就來說說關于電容器在電力系統中的作用?下面内容希望能幫助到你，我們來一起看看吧!電... 2022-05-31
科技蘋果手機不能拍照了是什麼原因
蘋果手機不能拍照了是什麼原因?照相機打不開的話，可以先嘗試通過連續二次按下主屏Home鍵來打開後台，然後把相機從後台退出，看是否可以解決，今天小編就來說說關于蘋果手機不能拍照了是什麼原因?下面更多詳細答案一起來看看吧!蘋果手機不能拍照了是什... 2022-06-11
科技電腦進了f1怎麼啟動
電腦進了f1怎麼啟動?今天裝機，華碩的主闆，開機顯示：，我來為大家科普一下關于電腦進了f1怎麼啟動?以下内容希望對你有幫助!電腦進了f1怎麼啟動今天裝機，華碩的主闆，開機顯示：CPUFUNERROR！請按F1進入為何新買的主闆會出現這樣的情... 2022-10-15
科技西門子plc怎麼接線與設置
1.熱電偶的概述1.1熱電偶的工作原理熱電偶和熱電阻一樣，都是用來測量溫度的。熱電偶是将兩種不同金屬或合金金屬焊接起來，構成一個閉合回路，利用溫差電勢原理來測量溫度的，當熱電偶兩種金屬的兩端有溫度差，回路就會産生熱電動勢，溫差越大，熱電動勢... 2022-11-19
科技 vivo怎麼在設置中确認應用
vivo怎麼在設置中确認應用?在安裝完成APP後，會彈出在設置中确認，我來為大家科普一下關于vivo怎麼在設置中确認應用?以下内容希望對你有幫助!vivo怎麼在設置中确認應用在安裝完成APP後，會彈出在設置中确認。首先，進入手機主界面，點擊... 2022-06-20
科技如何清理電腦c盤的空間
如何清理電腦c盤的空間?首先，打開資源管理器，查看一下C盤的空間是不是已經不多了，如果是不多的情況，則會顯示紅色如果顯示紅色，你需要對你的磁盤進行清理，今天小編就來聊一聊關于如何清理電腦c盤的空間?接下來我們就一起去研究一下吧!如何清理電腦... 2022-07-04
科技蘋果平闆18款型号
新人求關注，如果您覺得有用，麻煩點個關注，謝謝，本人也會定期更新，分享心得，幹貨, 2022-10-31
科技手機手寫寫不出來字怎麼辦
手機手寫寫不出來字怎麼辦?重新設置手寫輸入關機重啟更換自帶輸入法嘗試，今天小編就來聊一聊關于手機手寫寫不出來字怎麼辦?接下來我們就一起去研究一下吧!手機手寫寫不出來字怎麼辦重新設置手寫輸入。關機重啟更換自帶輸入法嘗試。若無效，請備份手機中數... 2022-06-13
科技卡巴斯基手機安全軟件
卡巴斯基手機安全軟件?【PConline資訊】對于個人用戶而言，下面這個動态無疑是個好消息卡巴斯基今天放出了個人免費版本，也是卡巴斯基在PC個人平台上的首次免費對此，卡巴斯基表示免費版采用了與付費個人産品相同的技術，包含所有重要的安全防護功... 2022-10-08
科技手機降級方法
手機降級方法?這裡以蘋果手機為例，具體操作技巧如下：，下面我們就來說一說關于手機降級方法?我們一起去了解并探讨一下這個問題吧!手機降級方法這裡以蘋果手機為例，具體操作技巧如下：第一步要下載相應版本的ios系統。建議大家最好到蘋果官網上去下載... 2022-06-19
科技戴爾筆記本電腦鍵盤為什麼不亮
戴爾筆記本電腦鍵盤為什麼不亮?大家都知道筆記本鍵盤是一個很容易出現問題的部件，一旦筆記本鍵盤燈不亮或者筆記本鍵盤出現失靈就會導緻筆記本鍵盤打不出字，影響工作和學習，那麼筆記本鍵盤燈不亮原因及解決方法有哪些呢？想了解就随着重慶戴爾維修站小編一... 2022-10-16
科技一張excel如何彙總數據
今天跟大家分享一下excel怎麼彙總數據？1.首先我們打開演示文件2.接着選中數據單元格區域3.接着我們點擊如下圖選項4.點擊【彙總拆分】-【彙總多表】5.将區域樣式設置為【二維表】6.最後點擊【确定】即可完成7.完成效果如下圖, 2022-11-17
科技公司電腦裝了安全防護軟件
公司電腦裝了安全防護軟件?前兩天，一個網絡專業的學生（小岩）找電聯小編，說電腦特别慢老師推薦讓小編給瞧瞧行吧，既然獲得了老師的加持，那就義不容辭小岩同學的本拿來後，先驗機确保電腦是沒有硬件故障的，我來為大家科普一下關于公司電腦裝了安全防護軟... 2022-10-08
科技簡單的剪輯可用哪些軟件
随着短視頻行業的快速發展，越來越多的人湧入了視頻剪輯行業，有些小夥伴也會經常在各種社交媒體上分享自己剪輯的作品，那麼市面上可以剪輯視頻的軟件有哪些呢？根據不同的剪輯需求，我們今天來分享一下幾個實用的剪輯方法，希望對剛接觸視頻剪輯的你能帶來些... 2022-12-04
科技蘋果手機怎麼截長屏
蘋果手機怎麼截長屏?蘋果手機沒有全局截長圖功能，隻有在使用Safari浏覽器時，擁有自帶的長截屏功能，現在小編就來說說關于蘋果手機怎麼截長屏?下面内容希望能幫助到你，我們來一起看看吧!蘋果手機怎麼截長屏蘋果手機沒有全局截長圖功能，隻有在使用... 2022-06-01
科技買手機殼怎麼選
買手機殼怎麼選?最近喜歡上買手機殼，大家買手機殼主要看中手感還是好看啊，我來為大家科普一下關于買手機殼怎麼選?下面希望有你要的答案，我們一起來看看吧!買手機殼怎麼選最近喜歡上買手機殼，大家買手機殼主要看中手感還是好看啊。因為最近我和同學都開... 2022-10-15
科技 magic ui6.0處于什麼水平
【手機中國新聞】衆所周知，衡量一款手機的優秀與否，不僅在乎于硬件堆料，更側重于系統體驗的舒适度。目前，各大手機廠商大力優化、完善UI系統，市面上諸多系統如MIUI、ONEUI、OriginOSOcean、MagicUI等體驗都備受用戶稱贊。... 2022-11-16
科技汽車行業數字化意義
汽車行業數字化意義?作者/劉曉明、謝冬冬、魏來“軟件定義汽車”已逐漸成為行業共識，但概念的趨同是否意味着産品價值的趨同？在軟件對汽車産品性能、用戶體驗影響逐漸深入的趨勢下，支撐企業、品牌以及産品價值的核心要素是什麼？，我來為大家講解一下關于... 2022-10-15
科技
自古以來一直流傳着人死後就會轉世投胎，魂魄經過六道輪回再次重生。很多人都非常相信這樣的說法，在這一生的時候就開始為下一輩子做着準備。不少地方還傳言有人突然記起了上輩子的事情，很多傳言都有闆有眼。人死後真能轉世投胎嗎?在東方宗教中，有關于六道... 2022-11-20
科技 ps筆刷教程完整版
ps筆刷教程完整版?PS筆刷是photoshop軟件中畫筆的筆頭形狀，通過photoshop筆刷的載入功能，就能刷出各種不同的效果來，如眼睫毛,天使翅膀，墨迹等，今天小編就來說說關于ps筆刷教程完整版?下面更多詳細答案一起來看看吧!ps筆刷... 2022-10-07
科技寶雞市科技館在哪
寶雞市科技館在哪?位于陝西省寶雞市渭濱區寶雞古稱陳倉、雍城，譽稱“炎帝故裡、青銅器之鄉”，是關中平原城市群重要節點城市、關中——天水經濟區副中心城市地處關中平原西部，下轄3區9縣，總面積1.81萬平方公裡2018年末常住人口377.1萬人寶... 2022-06-05
科技吃芒果怎麼處理幹淨
吃芒果怎麼處理幹淨?可以用刀把芒果切幹淨吃，首先我們要将芒果簡單清洗幹淨，現在小編就來說說關于吃芒果怎麼處理幹淨?下面内容希望能幫助到你，我們來一起看看吧!吃芒果怎麼處理幹淨可以用刀把芒果切幹淨吃，首先我們要将芒果簡單清洗幹淨。将芒果豎立在... 2022-07-28
科技安卓程序鎖推薦
如果你不希望他人随便翻看你的郵件、照片、或某個APP時，LockdownPro中文版就能幫你解決這個問題。LockdownPro是一款小巧綠色的應用程序，沒有廣告，可以對手機中的任意應用程序添加密碼鎖，可以是數字，也可以是圖形。Lockdo... 2022-12-04
科技壓縮文件怎麼解壓
壓縮文件怎麼解壓?首先單擊鼠标左鍵，選擇壓縮包，今天小編就來聊一聊關于壓縮文件怎麼解壓?接下來我們就一起去研究一下吧!壓縮文件怎麼解壓首先單擊鼠标左鍵，選擇壓縮包。單擊鼠标右鍵，單擊“解壓文件”進行文件解壓。選擇文件解壓到的位置，方便文件被... 2022-07-22
科技好看的壁紙微信專用潮圖
, 2022-11-17
科技 excel快速入門最好教程
其實不管是财務人員，還是辦公室的其他工作，隻要你的工作需要電腦，就一定會多多少少的用到Excel！但是很多人對Excel的操作還停留在CtrlC和CtrlV上，其實Excel不僅可以幫我們記錄數據，更是一個強大的數據分析合成工具！尤其是财務... 2023-03-17
科技瑞風s3腳踏闆安裝步驟
瑞風s3腳踏闆安裝步驟?帶擋泥闆踏闆安裝時，首先要把車身前輪側裙處的一顆内六角自攻螺絲松掉，若是安裝不帶擋泥闆的一款，則無需松自攻螺絲，接下來我們就來聊聊關于瑞風s3腳踏闆安裝步驟?以下内容大家不妨參考一二希望能幫到您!瑞風s3腳踏闆安裝步... 2022-06-19

tft每日頭條

> 科技

> 統計學從概念到數據分析

統計學從概念到數據分析

相关科技资讯推荐

热门科技资讯推荐

网友关注