數據分析師的必備技能棧裡,除了熟悉業務、掌握業務分析思維和工具外,還有一個特别重要的知識點,就是統計學,無論在簡曆的技能描述中還是實際的面試過程中,統計學都是必備的基礎知識。
為什麼對于數據分析師來說統計學那麼重要?其實答案顯而易見,數據分析的價值就是通過數據去洞察業務背後的信息,避免之前的“一拍腦袋決定,二拍胸脯保證,三拍屁股走人”的主觀誤判,一切用數據說話!數據怎麼能說話呢,算出一個數據,怎麼知道這個數據是好還是壞?有多好有多壞?兩組數據呈現在你面前,怎麼判斷這兩組數據是否有明顯差異?要回答這些問題,就必須要用到統計學知識,而不是相信自己的眼睛,因為眼睛有時候也會說謊,你看到的“好”不一定是好,你看到的“沒有差異”不代表沒有差異。
但是很多剛入門的數據分析師在學習統計學知識時都很頭疼(也包括我哈哈哈),因為統計學的書籍裡都是寫晦澀難懂的公式,真不是一般人能看懂的。其實,對于大部分數據分析師來說,我們并不需要掌握的那麼全面和深入,我們隻需要掌握部分知識點,理論看不懂,但是知道在什麼場景下用就行,用起來你才會慢慢地搞懂!
所以為了讓大家更容易學習掌握統計學的基礎知識,這裡整理了數據分析工作中最常見的一些統計學基礎知識,盡量用簡單白話的形式去解釋,這樣無論是在面試中還是以後的工作中,都能把統計學的知識用起來!
數據分析中的統計學Q1、什麼是辛普森悖論?為什麼會出現?
細分的結果和整體的結果相悖,這就是我們常說的辛普森悖論。辛普森悖論主要是因為2組樣本不均衡,抽樣不合理。正确的試驗實施方案裡,除被測試的變量外,其他可能影響結果的變量的比例都應該保持一緻,這就需要對流量進行均勻合理的分割。例如:
如原來男性20人,點擊1人;女性100人,點擊99人,總點擊率100/120。
現在男性100人,點擊6人;女性20人,點擊20人,總點擊率26/120。
男生和女生的點擊率雖然都增加了,但是由于點擊率更高的女生所占的比例過小,未能拉動整體的點擊率上升。
Q2、協方差與相關系數的區别和聯系協方差:
協方差表示的是兩個變量的總體的誤差,這與隻表示一個變量誤差的方差不同。 如果兩個變量的變化趨勢一緻,也就是說如果其中一個大于自身的期望值,另外一個也大于自身的期望值,那麼兩個變量之間的協方差就是正值。 如果兩個變量的變化趨勢相反,即其中一個大于自身的期望值,另外一個卻小于自身的期望值,那麼兩個變量之間的協方差就是負值。
相關系數:
研究變量之間線性相關程度的量,取值範圍是[-1,1]。相關系數也可以看成協方差:一種剔除了兩個變量量綱影響、标準化後的特殊協方差。
Q3、AB測試統計顯著但實際不顯著是什麼原因?這個可能的原因是我們在AB測試當中所選取的樣本量過大,導緻和總體數據量差異很小,這樣的話即使我們發現一個細微的差别,它在統計上來說是顯著的,在實際的案例當中可能會變得不顯著了。
舉個栗子,對應到我們的互聯網産品實踐當中,我們做了一個改動,APP的啟動時間的優化了0.001秒,這個數字可能在統計學上對應的P值很小,也就是說統計學上是顯著的,但是在實際中用戶0.01秒的差異是感知不出來的。那麼這樣一個顯著的統計差别,其實對我們來說是沒有太大的實際意義的。所以統計學上的顯著并不意味着實際效果的顯著。
Q4、怎麼理解中心極限定理?中心極限定理定義:
(1)任何一個樣本的平均值将會約等于其所在總體的平均值。
(2)不管總體是什麼分布,任意一個總體的樣本平均值都會圍繞在總體的平均值周圍,并且呈正态分布。
中心極限定理作用:
(1)在沒有辦法得到總體全部數據的情況下,我們可以用樣本來估計總體。
(2)根據總體的平均值和标準差,判斷某個樣本是否屬于總體。
Q5、怎麼給小孩子講解正态分布?拿出小朋友班級的成績表,每隔2分統計一下人數(因為小學一年級大家成績很接近),畫出鐘形。然後說這就是正态分布,大多數的人都集中在中間,隻有少數特别好和不夠好,拿出隔壁班的成績表,讓小朋友自己畫畫看,發現也是這樣的現象,然後拿出班級的身高表,發現也是這個樣子的。
大部分人之間是沒有太大差别的,隻有少數人特别好和不夠好,這是生活裡普遍看到的現象,這就是正态分布。
Q6、什麼是聚類?聚類算法有哪幾種?選擇一種詳細介紹(1)聚類分析是一種無監督的學習方法,根據一定條件将相對同質的樣本歸到一個類(俗話說人以類聚,物以群分)。
正式一點的:聚類是對點集進行考察并按照某種距離測度将他們聚成多個“簇”的過程。聚類的目标是使得同一簇内的點之間的距離較短,而不同簇中點之間的距離較大。
(2)聚類方法主要有:
a. 層次聚類
層次法(hierarchical methods),這種方法對給定的數據集進行層次似的分解,直到某種條件滿足為止。。具體又可分為“自底向上”和“自頂向下”兩種方案。
b. 劃分聚類:(經典算法為kmeans)
劃分法(parTITIoning methods),給定一個有N個元組或者記錄的數據集,分裂法将構造K個分組,每一個分組就代表一個聚類。
c. 密度聚類
基于密度的方法(density-based methods),基于密度的方法與其它方法的一個根本區别是:它不是基于各種各樣的距離的,而是基于密度的。這樣就能克服基于距離的算法隻能發現“類圓形”的聚類的缺點。
經典算法:DBSCAN:DBSCAN算法是一種典型的基于密度的聚類算法,該算法采用空間索引技術來搜索對象的鄰域,引入了“核心對象”和“密度可達”等概念,從核心對象出發,把所有密度可達的對象組成一個簇。
d. 網格聚類
基于網格的方法(grid-based methods),這種方法首先将數據空間劃分成為有限個單元(cell)的網格結構,所有的處理都是以單個的單元為對象的。這麼處理的一個突出的優點就是處理速度很快,通常這是與目标數據庫中記錄的個數無關的,它隻與把數據空間分為多少個單元有關。
經典算法:STING:利用網格單元保存數據統計信息,從而實現多分辨率的聚類。
(3)k-means比較好介紹,選k個點開始作為聚類中心,然後剩下的點根據距離劃分到類中;找到新的類中心;重新分配點;叠代直到達到收斂條件或者叠代次數。 優點是快;缺點是要先指定k,同時對異常值很敏感。
Q7、線性回歸和邏輯回歸的區别是什麼?線性回歸針對的目标變量是區間型的, 邏輯回歸針對的目标變量是類别型的,
線性回歸模型的目标變量和自變量之間的關系假設是線性相關的 ,邏輯回歸模型中的目标變量和自變量是非線性的。
線性回歸中通常會用假設,對應于自變量x的某個值,目标變量y的觀察值是服從正太分布的。邏輯回歸中目标變量y是服從二項分布0和1或者多項分布的
邏輯回歸中不存在線性回歸中常見的殘差。
參數估值上,線性回歸采用最小平方法,邏輯回歸采用最大似然法。
Q8、為什麼說樸素貝葉斯是“樸素”的?樸素貝葉斯是一種簡單但極為強大的預測建模算法。之所以稱為樸素貝葉斯,是因為它假設每個輸入變量是獨立的。這是一個強硬的假設,實際情況并不一定,但是這項技術對于絕大部分的複雜問題仍然非常有效。
Q9、K-Means 和 KNN 的區别是什麼?首先,這兩個算法解決的是數據挖掘中的兩類問題。
K-Means 是聚類算法,KNN 是分類算法。其次,這兩個算法分别是兩種不同的學習方式。K-Means 是非監督學習,也就是不需要事先給出分類标簽,而 KNN 是有監督學習,需要我們給出訓練數據的分類标識。最後,K 值的含義不同。K-Means 中的 K 值代表 K 類。KNN 中的 K 值代表 K 個最接近的鄰居。
Q10、邏輯回歸和線性回歸的區别?線性回歸要求因變量必須是連續性數據變量;邏輯回歸要求因變量必須是分類變量,二分類或者多分類的;比如要分析性别、年齡、身高、飲食習慣對于體重的影響,如果這個體重是屬于實際的重量,是連續性的數據變量,這個時候就用線性回歸來做;如果将體重分類,分成了高、中、低這三種體重類型作為因變量,則采用logistic回歸。兩者的區别還體現在以下方面:
一、性質不同
1、邏輯回歸:是一種廣義的線性回歸分析模型。
2、線性回歸:利用數理統計中回歸分析,來确定兩種或兩種以上變量間相互依賴的定量關系的一種統計分析方法。
二、應用不同
1、邏輯回歸:常用于數據挖掘,疾病自動診斷,經濟預測等領域。
2、線性回歸:常運用于數學、金融、趨勢線、經濟學等領域。
以上就是【數分面試寶典】系列—統計學基礎知識第1篇文章的内容,部分曆史文章請回翻公衆号,更多數據分析面試筆試的文章持續更新中,敬請期待,如果覺得不錯,也歡迎分享、點贊和收藏哈~
,更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!