影響關系研究是所有研究中最為常見的。我們都知道當Y是定量數據時,線性回歸可以用來分析影響關系。如果現在想對某件事情發生的概率進行預估,比如一件衣服的是否有人想購買?這裡的Y是“是否願意購買”,屬于分類數據,所以不能使用回歸分析。
如果Y為定類數據,研究影響關系,正确做法是選擇Logistic回歸分析。
概念
Logistic回歸分析也用于研究影響關系,即X對于Y的影響情況。Y為定類數據,X可以是定量數據或定類數據。
Logistic回歸和線性回歸最大的區别在于,Y的數據類型。線性回歸分析的因變量Y屬于定量數據,而Logistic回歸分析的因變量Y屬于分類數據。
Logistic回歸分類
Logistic回歸在進一步細分,又可分為二元Logit(Logistic)回歸、多分類Logit(Logistic)回歸,有序Logit(Logistic)回歸。
SPSSAU整理
如果Y值僅兩個選項,分别是有和無之類的分類數據,選擇二元Logistic回歸分析。
Y值的選項有多個,并且選項之間沒有大小對比關系,則可以使用多元Logistic回歸分析。
Y值的選項有多個,并且選項之間可以對比大小關系,選項具有對比意義,應該使用多元有序Logistic回歸分析。
Logistic回歸的使用場景
Logistic回歸分析可用于估計某個事件發生的可能性,也可分析某個問題的影響因素有哪些。
醫學研究中,Logistic回歸常用于對某種疾病的危險因素分析。像是分析年齡、吸煙、飲酒、飲食情況等是否屬于2型糖尿病的危險因素。
問卷研究中,Logistic回歸常被用在分析非量表題上,像是将樣本基本背景信息作為X,購買意願作為Y,分析性别、年齡、家庭條件是否會影響購買意願。
其中,二元Logistic回歸分析的使用頻率最高,使用簡單方便容易理解和描述,下面以二元Logistic回歸為例,對操作步驟,及結果解讀進行說明。
案例應用
(1)背景
有一份關于大學生對某商品購買意願的調查問卷。共收集到468份問卷數據,研究者要将“性别”、“年齡”、“專業”、“月生活費”四個變量作為潛在的影響因素,購買意願為Y,做二元Logistic回歸分析。
這些自變量中,性别和文化程度是定類數據,需要設定對照參考項,這裡将女生和醫學專業作為對比參照項。年齡和月收入為定量數據直接放入。
(2)分析步驟
①數據預處理
首先将定類數據做啞變量處理,SPSSAU要求Logistic回歸Y值隻可為1和0,不能取其他數字。所以在正式分析前,還要處理下Y值。操作示意圖如下:
定類數據啞變量處理
Y值編碼
②二元Logistic回歸分析
将全部分析項(設成啞變量的要少放一項)放入分析框内,點擊開始二元Logit回歸。
使用路徑:SPSSAU → 進階方法 → 二元Logit
(3)結果分析
SPSSAU共輸出四個結果表格,分别是基本彙總表、似然比檢驗表、二元Logit回歸分析表、預測準确率表。
表1 基本信息彙總
表1為基礎彙總表,主要用來彙總數據信息,查看Y值的分布比例以及是否有缺失數據。如果缺失數據過多,或者Y值分布非常不均勻,可能會導緻模型質量較差。
從上表可知,将性别, 年齡, 專業, 月生活費作為自變量,而将new_購買意願作為因變量進行二元Logit回歸分析,從上表可以看出,總共有468個樣本參加分析,并且沒有缺失數據。
表2 二元Logit回歸模型似然比檢驗結果
表2為模型似然比檢驗結果,用于分析整體是否有效。主要關注P值,AIC和BIC值用于多次分析時的對比;兩個值越低越好;如果多次進行分析,可對比此兩個值的變化情況,說明模型構建的優化過程。
從上表可知:此處模型檢驗的原定假設為:是否放入自變量(性别_男, 理工類, 文科類, 藝體類, 年齡, 月生活費)兩種情況時模型質量均一樣;這裡P值小于0.05,因而說明拒絕原定假設,即說明本次構建模型時,放入的自變量具有有效性,本次模型構建有意義。
表3 二元Logit回歸分析結果彙總
表3為二元Logistic回歸分析結果,用于分析模型整體情況,以及每個X對Y的影響情況(顯著性、影響程度等)。
其中主要關注P值,回歸系數,OR值和R Pseudo R。
P值:判斷X對Y是否呈現出顯著性的影響,P<0.05說明X會對Y産生影響關系。
回歸系數:回歸系數值,當P小于0.05時有意義。
OR值:優勢比,值與1作比較,越接近1影響程度越小,反之影響程度越大。
Pseudo R:用于說明模型整體情況。
從上表可知,模型僞R平方值(Pseudo R平方)為0.089,意味所有變量能解釋購買意願的8.9%變化原因。根據P值及OR值取值可知,理工類、藝體類、年齡對購買意願有顯著性的正向影響,意味着相比醫學專業學生,理工、藝體專業學生的購買意願更大;以及購買意願随着年齡增長而提高。
其他說明
1、注意因變量的賦值和啞變量參考項的選擇。Y對應的數字一定隻能為0和1;如果不是,可以使用‘數據編碼’功能設置。啞變量選擇不同的選項作為參考項,其結果意義不相同。
2、如果X的個數非常多(比如超過10個),需要先進行甄别選擇出有意義的X,比如使用方差分析或者卡方分析,選出X與Y有顯著差異的X放入二元logit回歸模型中。
,更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!