tft每日頭條

 > 科技

 > 統計學從概念到數據分析

統計學從概念到數據分析

科技 更新时间:2024-07-06 22:22:03

01寫在前面

數據分析師的必備技能棧裡,除了熟悉業務、掌握業務分析思維和工具外,還有一個特别重要的知識點,就是統計學,無論在簡曆的技能描述中還是實際的面試過程中,統計學都是必備的基礎知識。

為什麼對于數據分析師來說統計學那麼重要?其實答案顯而易見,數據分析的價值就是通過數據去洞察業務背後的信息,避免之前的“一拍腦袋決定,二拍胸脯保證,三拍屁股走人”的主觀誤判,一切用數據說話!數據怎麼能說話呢,算出一個數據,怎麼知道這個數據是好還是壞?有多好有多壞?兩組數據呈現在你面前,怎麼判斷這兩組數據是否有明顯差異?要回答這些問題,就必須要用到統計學知識,而不是相信自己的眼睛,因為眼睛有時候也會說謊,你看到的“好”不一定是好,你看到的“沒有差異”不代表沒有差異。

但是很多剛入門的數據分析師在學習統計學知識時都很頭疼(也包括我哈哈哈),因為統計學的書籍裡都是寫晦澀難懂的公式,真不是一般人能看懂的。其實,對于大部分數據分析師來說,我們并不需要掌握的那麼全面和深入,我們隻需要掌握部分知識點,理論看不懂,但是知道在什麼場景下用就行,用起來你才會慢慢地搞懂!

所以為了讓大家更容易學習掌握統計學的基礎知識,這裡整理了數據分析工作中最常見的一些統計學基礎知識,盡量用簡單白話的形式去解釋,這樣無論是在面試中還是以後的工作中,都能把統計學的知識用起來!

統計學從概念到數據分析(數據分析必備的統計學知識)1

統計學從概念到數據分析(數據分析必備的統計學知識)2

02數據分析中的統計學

Q1、如何理解假設檢驗中的P值和顯著性水平α?

講顯著性水平α我們就得提到前面文章中提到的第一類錯誤和第二類錯誤,可以翻看系列文章:【數分面試寶典】數據分析必備的統計學知識(一)

我們還是舉之前談戀愛的栗子,面前有一個男生,我們有2個假設:

H0:一個真心愛你的男生H1:一個不是真心愛你的男生

如果H0實際上成立,而你憑經驗拒絕了H0,也就是說,你拒絕了一個你認為不愛你而實際上真心愛你的男生,那麼你就犯了第一類“棄真”錯誤,也稱為α風險,錯殺了好人;

如果H0實際上不成立,而你接受了H0,同樣的道理,你接受了一個你感覺愛你而實際上并不愛你的男生,那麼你就犯了第二類“納僞”錯誤,也稱為β風險,放走了壞人。

第一類錯誤和第二類錯誤這兩個錯誤概率互相制約,你大我就會變小,你小我就會變大,基于保護零假設的原則,我們一般把一類錯誤概率固定住,讓第一類錯誤概率不超過某個閥值(也就是α值),也就是我們常說的“顯著性水平α”,即代表好人被冤枉的概率。通常情況下,我們不希望好人被冤枉,所以顯著性水平α通常比較小。

顯著性水平α是你冤枉好人的可能性,然而,每個人在這一點上是有分歧的,有的人希望α大一點兒,有的人希望α小一點兒(α越大,意味着檢驗越嚴格,我們冤枉好人的概率就越大)。

在這種情況下,我們就期望回答一個問題:對于面前的這個男生,我們不會冤枉他的最嚴格的檢驗水平,即最大的α是多少呢?得到了這個問題的答案,我們就可以輕松完成在任意嚴格程度上的檢驗了,即如果α大于這個值,那麼我們就認為該男生不喜歡你,反之亦可。

而這個最大的α,就是我們的P值。隻是這2個概念是有明顯的區别的。顯著性水平α是在每次統計檢驗之前人為規定的,通常取α=0.05或α=0.01。這表明,當做出拒絕原假設的決定時,其犯錯誤的可能性為α=0.05或α=0.01,而P值是根據實驗結果計算得出的。如果計算出來的概率(P值)小于這個标準(顯著性水平α),就說明拒絕原假設錯誤的可能性很小,那就可以放心地拒絕原假設,認為這個男生确實是不愛你的;反之,大于這個标準則說明拒絕原假設錯誤的可能性較大,那還是接受原假設,也就是沒有充足的證據,認為這個男生還是愛你的

Q2、如何理解置信度與置信區間?

置信區間是我們所計算出的變量存在的範圍,置信水平就是我們對于這個數值存在于我們計算出的這個範圍的可信程度。

舉例來講,如果我們有95%的把握,讓真正的數值在我們所計算的範圍裡,那麼在這裡,95%是置信水平,而計算出的範圍,就是置信區間。

如果置信度為95%, 則抽取100個樣本來估計總體的均值,由100個樣本所構造的100個區間中,約有95個區間包含總體均值。

Q3、如何理解極大似然估計?

利用已知的樣本結果,反推最有可能(最大概率)導緻這樣結果的參數值。“似然”是“像這個樣子”的意思。

極大似然估計,通俗理解來說,就是利用已知的樣本結果信息,反推最具有可能(最大概率)導緻這些樣本結果出現的模型參數值!換句話說,極大似然估計提供了一種給定觀察數據來評估模型參數的方法,即:“模型已定,參數未知”

假如有一個黑箱子,裡面有黑白兩種顔色的球,數目多少不知,兩種顔色的比例也不知。我們想知道箱子中白球和黑球的比例,但我們不能把箱子中的球全部拿出來數。現在我們可以每次任意從已經搖勻的箱子中拿一個球出來,記錄球的顔色,然後把拿出來的球再放回箱中。這個過程可以重複,我們可以用記錄的球的顔色來估計箱中黑白球的比例。假如在前面的一百次重複記錄中,有70次是白球,請問箱子中白球所占的比例最有可能是多少?

很多人馬上就有答案了:70%。而其後的理論支撐是什麼呢?

我們假設罐中白球的比例是p,那麼黑球的比例就是1-p。因為每抽一個球出來,在記錄顔色之後,我們把抽出的球放回了罐中并搖勻,所以每次抽出來的球的顔色服從同一獨立分布。

這裡我們把一次抽出來球的顔色稱為一次抽樣。題目中在一百次抽樣中,70次是白球的,30次為黑球事件的概率是P(樣本結果|Model)。

如果第一次抽象的結果記為x1,第二次抽樣的結果記為x2....那麼樣本結果為(x1,x2.....,x100)。這樣,我們可以得到如下表達式:

P(樣本結果|Model)

  = P(x1,x2,…,x100|Model)

  = P(x1|Model)P(x2|Model)…P(x100|Model)

  = p^70(1-p)^30.

好的,我們已經有了觀察樣本結果出現的概率表達式了。那麼我們要求的模型的參數,也就是求的式中的p。

那麼我們怎麼來求這個p呢?

不同的p,直接導緻P(樣本結果|Model)的不同。

好的,我們的p實際上是有無數多種分布的。如下:

統計學從概念到數據分析(數據分析必備的統計學知識)3

那麼求出 p^70(1-p)^30為 7.8 * 10^(-31)

p的分布也可以是如下:

統計學從概念到數據分析(數據分析必備的統計學知識)4

那麼也可以求出p^70(1-p)^30為2.95* 10^(-27)

那麼問題來了,既然有無數種分布可以選擇,極大似然估計應該按照什麼原則去選取這個分布呢?

答:采取的方法是讓這個樣本結果出現的可能性最大,也就是使得p^70(1-p)^30值最大,那麼我們就可以看成是p的方程,求導即可!

那麼既然事情已經發生了,為什麼不讓這個出現的結果的可能性最大呢?這也就是最大似然估計的核心。

我們想辦法讓觀察樣本出現的概率最大,轉換為數學問題就是使得:

p^70(1-p)^30最大,這太簡單了,未知數隻有一個p,我們令其導數為0,即可求出p為70%,與我們一開始認為的70%是一緻的。其中蘊含着我們的數學思想在裡面。

Q4、詳細介紹一種非參數統計方法,并叙述其優缺點

非參數統計:對總體的分布不作假設或僅作非常一般性假設條件下的統計方法。

機器學習:決策樹,随機森林,SVM;

假設檢驗:符号,符号秩,秩和檢驗

優點:

非參數統計方法要求的假定條件比較少,因而它的适用範圍比較廣泛。

多數非參數統計方法要求的思想與運算比較簡單,可以迅速完成計算取得結果。

缺點:

由于方法簡單,用的計量水準較低,因此,如果能與參數統計方法同時使用時,就不如參數統計方法敏感。若為追求簡單而使用非參數統計方法,其檢驗功效就要差些。這就是說,在給定的顯著性水平下進行檢驗時,非參數統計方法與參數統計方法相比,第Ⅱ類錯誤的概率β要大些。

對于大樣本,如不采用适當的近似,計算可能變得十分複雜。

Q5、如何簡單理解過拟合?如何防止過拟合?

好比你想找個女朋友。

你可能會先找你表妹問她喜歡什麼,表妹說她喜歡陽光幹淨的男生,還說她喜歡王力宏,喜歡火鍋,喜歡日料,七七八八合計一百個愛好。你規規矩矩地按照這個标準學訓練自己,終于符合表妹的一切要求,完美零誤差,訓練完成,超級自信準備出去試試追個妹子。

可是換了個妹子,發現學到的完全沒用。第二個妹子隻要你陽光幹淨。剩下的她都不care,她甚至讨厭王力宏,那後面的那些隻會增加誤差。這就事過拟合了。

怎麼防止過拟合呢?應該用cross validation,交叉比對。解釋起來就是,你在你表妹那兒學到的東西,在你表姐那兒測試一下對不對。在你表姐那兒學到的,在你女同學那測試一下。來來回回用不同的測試對象和訓練對象做交叉比對。這樣學到規律就不會過拟合啦。

以上就是【數分面試寶典】系列—統計學基礎知識第3篇文章的内容,部分曆史文章請回翻公衆号,更多數據分析面試筆試的文章持續更新中,敬請期待,如果覺得不錯,也歡迎分享、點贊和點在看哈~

,

更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!

查看全部

相关科技资讯推荐

热门科技资讯推荐

网友关注

Copyright 2023-2024 - www.tftnews.com All Rights Reserved