從事質量行業的朋友一定經常需要對數據進行分析,這也是一項最基礎的技能。那麼你知道幾種數據相關性分析的方法呢?
做數據分析時,為了提煉觀點,相關性分析是必不可少,而且尤為重要的一個環節。但是,對于不同類型的數據,相關性分析的方法都各不相同。本文,主要按照不同的數據類型,來對各種相關性分析方法進行梳理總結。
相關性分析是指對兩個或多個具備相關性的變量元素進行分析,相關性不等于因果性。
卡方檢驗是一種用途很廣的計數資料的假設檢驗方法。它屬于非參數檢驗的範疇,主要是比較兩個及兩個以上樣本率( 構成比)以及兩個分類變量的關聯性分析。其根本思想就是在于比較理論頻數和實際頻數的吻合程度或拟合優度問題。
它在分類資料統計推斷中的應用,包括:兩個率或兩個構成比比較的卡方檢驗;多個率或多個構成比比較的卡方檢驗以及分類資料的相關分析等。
(1)假設,多個變量之間不相關
(2)根據假設計算得出每種情況的理論值,根據理論值與實際值的差别,計算得到卡方值 及 自由度
df=(C-1)(R-1)
(3)查卡方表,求p值
卡方值越大,P值越小,變量相關的可能性越大,當P<=0.05,否定原假設,認為變量相關。
在介紹信息增益之前,先來介紹兩個基礎概念,信息熵和條件熵。
信息熵,就是一個随機變量的不确定性程度。
條件熵,就是在一個條件下,随機變量的不确定性。
(1)信息增益:熵 - 條件熵
在一個條件下,信息不确定性減少的程度。
Gain(Y,X)=H(Y)-H(Y|X)
信息增益越大,表示引入條件X之後,不純度減少得越多。信息增益越大,則兩個變量之間的相關性越大。
(2)信息增益率
假設,某個變量存在大量的不同值,例如ID,引入ID後,每個子節點的不純度都為0,則信息增益減少程度達到最大。所以,當不同變量的取值數量差别很大時,引入取值多的變量,信息增益更大。因此,使用信息增益率,考慮到分支個數的影響。
Gain_ratio=(H(Y)-H(Y|X))/H(Y|X)
協方差,表達了兩個随機變量的協同變化關系。如果兩個變量不相關,則協方差為0。
Cov(X,Y)=E{[X-E(X)],[Y-E(Y)]}
當 cov(X, Y)>0時,表明 X與Y 正相關;
當 cov(X, Y)<0時,表明X與Y負相關;
當 cov(X, Y)=0時,表明X與Y不相關。
協方差隻能對兩組數據進行相關性分析,當有兩組以上數據時就需要使用協方差矩陣。
協方差通過數字衡量變量間的相關性,正值表示正相關,負值表示負相關。但無法對相關的密切程度進行度量。當我們面對多個變量時,無法通過協方差來說明那兩組數據的相關性最高。要衡量和對比相關性的密切程度,就需要使用下一個方法:相關系數。
也叫Pearson相關系數, 主要衡量兩個變量線性相關的程度。
r=cov(X,Y)/(D(X)D(Y))
相關系數是用協方差除以兩個随機變量的标準差。相關系數的大小在-1和1之間變化。再也不會出現因為計量單位變化,而數值暴漲的情況了。
線性相關系數必須建立在因變量與自變量是線性的關系基礎上,否則線性相關系數是無意義的。
将連續變量離散化,然後,使用離散與離散變量相關性分析的方法來分析相關性。
使用畫箱形圖的方法,看離散變量取不同值,連續變量的均值與方差及取值分布情況。
如果,離散變量取不同值,對應的連續變量的箱形圖差别不大,則說明,離散變量取不同值對連續變量的影響不大,相關性不高;反之,相關性高。
-----文章轉自微信公衆号《品質人生質量開講》
-----盈飛無限實時SPC軟件解決方案提供商。
,更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!