高級數據分析理論和實戰之統計學-tft每日頭條

高級數據分析理論和實戰之統計學

科技更新时间:2025-08-13 02:11:36

數據分析師的必備技能棧裡，除了熟悉業務、掌握業務分析思維和工具外，還有一個特别重要的知識點，就是統計學，無論在簡曆的技能描述中還是實際的面試過程中，統計學都是必備的基礎知識。

為什麼對于數據分析師來說統計學那麼重要？其實答案顯而易見，數據分析的價值就是通過數據去洞察業務背後的信息，避免之前的“一拍腦袋決定，二拍胸脯保證，三拍屁股走人”的主觀誤判，一切用數據說話！數據怎麼能說話呢，算出一個數據，怎麼知道這個數據是好還是壞？有多好有多壞？兩組數據呈現在你面前，怎麼判斷這兩組數據是否有明顯差異？要回答這些問題，就必須要用到統計學知識，而不是相信自己的眼睛，因為眼睛有時候也會說謊，你看到的“好”不一定是好，你看到的“沒有差異”不代表沒有差異。

但是很多剛入門的數據分析師在學習統計學知識時都很頭疼（也包括我哈哈哈），因為統計學的書籍裡都是寫晦澀難懂的公式，真不是一般人能看懂的。其實，對于大部分數據分析師來說，我們并不需要掌握的那麼全面和深入，我們隻需要掌握部分知識點，理論看不懂，但是知道在什麼場景下用就行，用起來你才會慢慢地搞懂！

所以為了讓大家更容易學習掌握統計學的基礎知識，這裡整理了數據分析工作中最常見的一些統計學基礎知識，盡量用簡單白話的形式去解釋，這樣無論是在面試中還是以後的工作中，都能把統計學的知識用起來！

高級數據分析理論和實戰之統計學（數據分析必備的統計學知識）1

高級數據分析理論和實戰之統計學（數據分析必備的統計學知識）2

數據分析中的統計學Q1、什麼是辛普森悖論?為什麼會出現？

細分的結果和整體的結果相悖，這就是我們常說的辛普森悖論。辛普森悖論主要是因為2組樣本不均衡，抽樣不合理。正确的試驗實施方案裡，除被測試的變量外，其他可能影響結果的變量的比例都應該保持一緻，這就需要對流量進行均勻合理的分割。例如：

如原來男性20人，點擊1人；女性100人，點擊99人，總點擊率100/120。

現在男性100人，點擊6人；女性20人，點擊20人，總點擊率26/120。

男生和女生的點擊率雖然都增加了，但是由于點擊率更高的女生所占的比例過小，未能拉動整體的點擊率上升。

Q2、協方差與相關系數的區别和聯系

協方差：

協方差表示的是兩個變量的總體的誤差，這與隻表示一個變量誤差的方差不同。如果兩個變量的變化趨勢一緻，也就是說如果其中一個大于自身的期望值，另外一個也大于自身的期望值，那麼兩個變量之間的協方差就是正值。如果兩個變量的變化趨勢相反，即其中一個大于自身的期望值，另外一個卻小于自身的期望值，那麼兩個變量之間的協方差就是負值。

相關系數：

研究變量之間線性相關程度的量，取值範圍是[-1,1]。相關系數也可以看成協方差：一種剔除了兩個變量量綱影響、标準化後的特殊協方差。

Q3、AB測試統計顯著但實際不顯著是什麼原因？

這個可能的原因是我們在AB測試當中所選取的樣本量過大，導緻和總體數據量差異很小，這樣的話即使我們發現一個細微的差别，它在統計上來說是顯著的，在實際的案例當中可能會變得不顯著了。

舉個栗子，對應到我們的互聯網産品實踐當中，我們做了一個改動，APP的啟動時間的優化了0.001秒，這個數字可能在統計學上對應的P值很小，也就是說統計學上是顯著的，但是在實際中用戶0.01秒的差異是感知不出來的。那麼這樣一個顯著的統計差别，其實對我們來說是沒有太大的實際意義的。所以統計學上的顯著并不意味着實際效果的顯著。

Q4、怎麼理解中心極限定理？

中心極限定理定義：

（1）任何一個樣本的平均值将會約等于其所在總體的平均值。

（2）不管總體是什麼分布，任意一個總體的樣本平均值都會圍繞在總體的平均值周圍，并且呈正态分布。

中心極限定理作用：

（1）在沒有辦法得到總體全部數據的情況下，我們可以用樣本來估計總體。

（2）根據總體的平均值和标準差，判斷某個樣本是否屬于總體。

Q5、怎麼給小孩子講解正态分布？

拿出小朋友班級的成績表，每隔2分統計一下人數（因為小學一年級大家成績很接近），畫出鐘形。然後說這就是正态分布，大多數的人都集中在中間，隻有少數特别好和不夠好，拿出隔壁班的成績表，讓小朋友自己畫畫看，發現也是這樣的現象，然後拿出班級的身高表，發現也是這個樣子的。

大部分人之間是沒有太大差别的，隻有少數人特别好和不夠好，這是生活裡普遍看到的現象，這就是正态分布。

Q6、什麼是聚類？聚類算法有哪幾種？選擇一種詳細介紹

（1）聚類分析是一種無監督的學習方法，根據一定條件将相對同質的樣本歸到一個類（俗話說人以類聚，物以群分）。

正式一點的：聚類是對點集進行考察并按照某種距離測度将他們聚成多個“簇”的過程。聚類的目标是使得同一簇内的點之間的距離較短，而不同簇中點之間的距離較大。

（2）聚類方法主要有：

a. 層次聚類

層次法（hierarchical methods），這種方法對給定的數據集進行層次似的分解，直到某種條件滿足為止。。具體又可分為“自底向上”和“自頂向下”兩種方案。

b. 劃分聚類：（經典算法為kmeans）

劃分法（parTITIoning methods），給定一個有N個元組或者記錄的數據集，分裂法将構造K個分組，每一個分組就代表一個聚類。

c. 密度聚類

基于密度的方法（density-based methods），基于密度的方法與其它方法的一個根本區别是：它不是基于各種各樣的距離的，而是基于密度的。這樣就能克服基于距離的算法隻能發現“類圓形”的聚類的缺點。

經典算法：DBSCAN:DBSCAN算法是一種典型的基于密度的聚類算法，該算法采用空間索引技術來搜索對象的鄰域，引入了“核心對象”和“密度可達”等概念，從核心對象出發，把所有密度可達的對象組成一個簇。

d. 網格聚類

基于網格的方法（grid-based methods），這種方法首先将數據空間劃分成為有限個單元（cell）的網格結構，所有的處理都是以單個的單元為對象的。這麼處理的一個突出的優點就是處理速度很快，通常這是與目标數據庫中記錄的個數無關的，它隻與把數據空間分為多少個單元有關。

經典算法：STING：利用網格單元保存數據統計信息，從而實現多分辨率的聚類。

（3）k-means比較好介紹，選k個點開始作為聚類中心，然後剩下的點根據距離劃分到類中；找到新的類中心；重新分配點；叠代直到達到收斂條件或者叠代次數。優點是快；缺點是要先指定k，同時對異常值很敏感。

Q7、線性回歸和邏輯回歸的區别是什麼？

線性回歸針對的目标變量是區間型的，邏輯回歸針對的目标變量是類别型的，

線性回歸模型的目标變量和自變量之間的關系假設是線性相關的，邏輯回歸模型中的目标變量和自變量是非線性的。

線性回歸中通常會用假設，對應于自變量x的某個值，目标變量y的觀察值是服從正太分布的。邏輯回歸中目标變量y是服從二項分布0和1或者多項分布的

邏輯回歸中不存在線性回歸中常見的殘差。

參數估值上，線性回歸采用最小平方法，邏輯回歸采用最大似然法。

Q8、為什麼說樸素貝葉斯是“樸素”的？

樸素貝葉斯是一種簡單但極為強大的預測建模算法。之所以稱為樸素貝葉斯，是因為它假設每個輸入變量是獨立的。這是一個強硬的假設，實際情況并不一定，但是這項技術對于絕大部分的複雜問題仍然非常有效。

Q9、K-Means 和 KNN 的區别是什麼？

首先，這兩個算法解決的是數據挖掘中的兩類問題。

K-Means 是聚類算法，KNN 是分類算法。其次，這兩個算法分别是兩種不同的學習方式。K-Means 是非監督學習，也就是不需要事先給出分類标簽，而 KNN 是有監督學習，需要我們給出訓練數據的分類标識。最後，K 值的含義不同。K-Means 中的 K 值代表 K 類。KNN 中的 K 值代表 K 個最接近的鄰居。

Q10、邏輯回歸和線性回歸的區别？

線性回歸要求因變量必須是連續性數據變量；邏輯回歸要求因變量必須是分類變量，二分類或者多分類的；比如要分析性别、年齡、身高、飲食習慣對于體重的影響，如果這個體重是屬于實際的重量，是連續性的數據變量，這個時候就用線性回歸來做；如果将體重分類，分成了高、中、低這三種體重類型作為因變量，則采用logistic回歸。兩者的區别還體現在以下方面：

一、性質不同

1、邏輯回歸：是一種廣義的線性回歸分析模型。

2、線性回歸：利用數理統計中回歸分析，來确定兩種或兩種以上變量間相互依賴的定量關系的一種統計分析方法。

二、應用不同

1、邏輯回歸：常用于數據挖掘，疾病自動診斷，經濟預測等領域。

2、線性回歸：常運用于數學、金融、趨勢線、經濟學等領域。

以上就是【數分面試寶典】系列—統計學基礎知識第1篇文章的内容，部分曆史文章請回翻公衆号，更多數據分析面試筆試的文章持續更新中，敬請期待，如果覺得不錯，也歡迎分享、點贊和收藏哈~

更多精彩资讯请关注tft每日頭條，我们将持续为您更新最新资讯!

查看全部

网友关注

科技工具鋼是什麼材質
1、工具鋼（Toolsteel），是用以制造切削刀具、量具、模具和耐磨工具的鋼。工具鋼具有較高的硬度... 2023-07-02
科技電腦開機停留在主闆logo界面如何解...
1、一般是bios設置的問題，我們隻要找到相應的設置項就能解決問題了。先按bios啟動鍵，然後我們可以選擇中文模式，在底下點擊高級模式。2、在bios菜單欄中點擊啟動”，找到若出現錯誤等待按下f1鍵”，在對應的右邊選項中選擇關閉”。3、按f10保存，重啟計算機即可，開機停留在主闆logo問題就解決了。 2023-07-02
科技手機殼發黃怎麼辦
1、最實效的方法是用清水沖洗，矽膠套上有油脂的要塗肥皂水，用軟布擦去污漬，然後用清水沖幹淨，用餐巾紙... 2023-07-02
科技高鐵上手機能充電嗎
1、有的。老式高鐵每節車廂的兩頭會設置一個充電插座。2、新式高鐵一等座、二等座的座位下面都有的。就是... 2023-07-02
科技小米電視55寸4a和4c和4x的區别
1、外形區别小米電視4A、小米電視4C和小米電視4X均采用了超窄邊設計，在揚聲器的設計上，小米電視4... 2023-07-02
科技華為手機使用投屏的方法
1、手機投屏可以是手機屏幕上的内容同步到電腦上，當手機上的内容想要給多數人同時觀看的時候，投屏就是有... 2023-07-02
科技學挖機要多久
1、如果學習能力強、掌握好的話，兩個月左右能夠學成，但并不是說是高手了，就是一般能幹活。要是想磨煉成... 2023-07-02
科技燃氣表壞了誰出錢維修
1、如果是用戶使用不當造成損壞，則由用戶掏錢，由天然氣公司來更換；如果是表本身的問題造成損壞，則由天... 2023-07-02
科技海爾熱水器排污口在哪
1、關閉電熱水器的總電源。2、關閉電熱水器的進冷水開關。3、把放水歧管打開，順時針開到最大。放水歧管... 2023-07-02
科技蘋果id密碼加密怎麼辦
密碼不存在加密的說法，如果ID對應的密碼忘記了，可以用以下方法找回：1、可以登錄蘋果官網，依次點擊技... 2023-07-02
科技線程是什麼
1、線程（thread）是操作系統能夠進行運算調度的最小單位。它被包含在進程之中，是進程中的實際運作... 2023-07-02
科技支付寶怎麼叫外賣
1、打開你的手機支付寶軟件，輸入手勢密碼。2、點擊淘點點”。3、等待加載。4、自動匹配你的地點附近的外賣店。5、選擇你感興趣的外賣進入，添加你要點的東西。6、填完信息之後，立即下單，要線上支付。7、輸入支付密碼即可等待美食到來。 2023-07-02
科技屏幕錄制為什麼會黑屏
1、可能是你沒有設置好。2、你可以用下面的操作方法試下：你可以在桌面，點擊右鍵，在彈出來的菜單對話框... 2023-07-02
科技支付寶的錢怎麼轉到銀行卡
1、打開手機,點擊下支付寶登錄進入。2、進入支付寶界面後,點擊下轉賬進入。3、進入界面後,點擊下轉到... 2023-07-02
科技小兒多動症有哪些表現呢
第一、注意力不集中，一般來說有這種病的小孩往往注意力方面不集中，容易出現分散的情況，比如說在學習的過程中就比較容易走神，甚至是不安分，而且容易被外界的一些事情所影響。第二、感知異常，就是在小孩子平時的一些動作之類的，看起來特别的笨拙，不能夠很好的做好一件簡單的事情，比如說走路的時候不能夠走直線，其實這是非常明顯的一個小兒多動症的表現。第三、情緒特别的不穩定，有這種病的小孩往往心神不定，而且感情特别 2023-07-02
科技蘋果手機打不出去電話怎麼回事
1、撥打電話時蘋果手機處在運營商信号薄弱地方，手機信号不通暢導緻的。2、所使用的蘋果手機是有鎖的版本... 2023-07-02
科技電池不耐用怎麼辦
1、打開電池檢測軟件，查看電池是否健康。2、檢查電池容量電壓及溫度等。3、及時關閉WiFi、GPS等... 2023-07-02
科技爸爸對待孩子嚴格過度會對孩子造成哪些...
第一、不太容易結識新朋友。爸爸平常在教育孩子的時候，如果對孩子嚴格過度的話，可能會造成孩子不太容易結識新朋友。因為爸爸對孩子特别的嚴格，孩子擔心自己做不好某些事情的時候會讓爸爸失望，爸爸一旦失望了，就會批評自己。所以在成長的過程中，結識朋友的時候，如果某個朋友特别的優秀，自己就會擔心别人這麼優秀會不會發現自己的某些不足之處，一旦這些朋友發現了自己不足之處，可能就會認為自己有各種各樣的缺點，認為自己 2023-07-02
科技路由器管理員密碼多少
1、一般無線路由器管量員密碼有三種。就是老式的哪種無線路由器：管理員賬号和密碼都是一樣的，都是adm... 2023-07-02
科技時間繼電器的作用
1、擴大控制範圍，繼電器是一種具有隔離功能的自動開關元件，因此用多觸點繼電器控制信号達到某一程度的時... 2023-07-02
科技螞蟻莊園如何雇傭好友小雞
1、打開螞蟻莊園，點擊界面下方的小鏟子圖标。2、界面底部會彈出“小雞肥料廠”，點擊“雇傭小雞”。3、... 2023-07-02
科技表格如何做修剪平均分
1、首先制作一個表格，在操作界面上面找到表格菜單。2、在下面的菜單裡找到插入選項，彈出插入表格對話框... 2023-07-02
科技三星手機怎麼拍月亮
1、以三星s8手機舉例子，先打開s8的專業模式，拍照界面左邊往右滑，選擇專業模式即可。2、把手機固定在三腳架上，對準你要拍攝的物體，為什麼要固定三腳架，是因為夜晚要拍照需要長曝光，手拿着抖一下就會糊了。3、開始調節參數，iso調最低50即可，利用三腳架50的iso是最佳的，幾乎沒有噪點，拍出來的照片十分純淨。4、調節對焦：夜晚自動對焦有時候對不上，可以選擇MF手動對焦，特别是對于拍攝較遠的物體采用 2023-07-02
科技字體怎麼安裝
1、方法一：選擇想要安裝的字體文件并雙擊打開。然後點擊上方的“安裝”按鈕。2、方法二：打開“此電腦”... 2023-07-02
科技如何查自己的ip地址
1、方法一：首先點擊開始菜單，找到運行程序。其次，輸入cmd進入命令提示窗口。最後，輸入ipconf... 2023-07-02
科技電腦出現pxe-mof解決方法
1、電腦開機的時候按下del鍵進入到bios設置界面中，或者這裡按下F2也是可以的。bios設置界面... 2023-07-02
科技怎麼群發消息
1、如何群發短信：打開手機短信，點擊右上角編輯短信，在收件人旁點擊+，根據需要選定發送短信的對象，在... 2023-07-02
科技硬盤存檔方法
1、【電腦硬盤保存】首先比較方便的還是保存在本地電腦的硬盤上，注意要建立一個醒目的文件夾，歸類保存。... 2023-07-02
科技新移動硬盤用前應該如何處理
1、先把你買的移動硬盤，與筆記本或者是台式機連接好。2、到網上下載分區工具，點擊工具的程序，點擊左側... 2023-07-02
科技魅族藍牙耳機是哪國産的
1、魅族藍牙耳機是中國生産的，這款耳機作為國産品牌是非常的不錯的，魅族藍牙耳機是和蘋果耳機同代工廠的... 2023-07-02

tft每日頭條

> 科技

> 高級數據分析理論和實戰之統計學

高級數據分析理論和實戰之統計學

相关科技资讯推荐

热门科技资讯推荐

网友关注