tft每日頭條

 > 科技

 > 怎麼用spss進行logistic回歸

怎麼用spss進行logistic回歸

科技 更新时间:2025-01-15 10:35:06

影響關系研究是所有研究中最為常見的。我們都知道當Y是定量數據時,線性回歸可以用來分析影響關系。如果現在想對某件事情發生的概率進行預估,比如一件衣服的是否有人想購買?這裡的Y是“是否願意購買”,屬于分類數據,所以不能使用回歸分析。

如果Y為定類數據,研究影響關系,正确做法是選擇Logistic回歸分析。

概念

Logistic回歸分析也用于研究影響關系,即X對于Y的影響情況。Y為定類數據,X可以是定量數據或定類數據。

Logistic回歸和線性回歸最大的區别在于,Y的數據類型。線性回歸分析的因變量Y屬于定量數據,而Logistic回歸分析的因變量Y屬于分類數據

Logistic回歸分類

Logistic回歸在進一步細分,又可分為二元Logit(Logistic)回歸、多分類Logit(Logistic)回歸,有序Logit(Logistic)回歸。

怎麼用spss進行logistic回歸(SPSSAU數據分析)1

SPSSAU整理

  • 如果Y值僅兩個選項,分别是有和無之類的分類數據,選擇二元Logistic回歸分析。

  • Y值的選項有多個,并且選項之間沒有大小對比關系,則可以使用多元Logistic回歸分析。

  • Y值的選項有多個,并且選項之間可以對比大小關系,選項具有對比意義,應該使用多元有序Logistic回歸分析。

Logistic回歸的使用場景

Logistic回歸分析可用于估計某個事件發生的可能性,也可分析某個問題的影響因素有哪些。

醫學研究中,Logistic回歸常用于對某種疾病的危險因素分析。像是分析年齡、吸煙、飲酒、飲食情況等是否屬于2型糖尿病的危險因素。

問卷研究中,Logistic回歸常被用在分析非量表題上,像是将樣本基本背景信息作為X,購買意願作為Y,分析性别、年齡、家庭條件是否會影響購買意願。

其中,二元Logistic回歸分析的使用頻率最高,使用簡單方便容易理解和描述,下面以二元Logistic回歸為例,對操作步驟,及結果解讀進行說明。

案例應用

(1)背景

有一份關于大學生對某商品購買意願的調查問卷。共收集到468份問卷數據,研究者要将“性别”、“年齡”、“專業”、“月生活費”四個變量作為潛在的影響因素,購買意願為Y,做二元Logistic回歸分析。

這些自變量中,性别和文化程度是定類數據,需要設定對照參考項,這裡将女生和醫學專業作為對比參照項。年齡和月收入為定量數據直接放入。

(2)分析步驟

①數據預處理

首先将定類數據做啞變量處理,SPSSAU要求Logistic回歸Y值隻可為1和0,不能取其他數字。所以在正式分析前,還要處理下Y值。操作示意圖如下:

怎麼用spss進行logistic回歸(SPSSAU數據分析)2

定類數據啞變量處理

怎麼用spss進行logistic回歸(SPSSAU數據分析)3

Y值編碼

②二元Logistic回歸分析

将全部分析項(設成啞變量的要少放一項)放入分析框内,點擊開始二元Logit回歸。

怎麼用spss進行logistic回歸(SPSSAU數據分析)4

使用路徑:SPSSAU → 進階方法 → 二元Logit

(3)結果分析

SPSSAU共輸出四個結果表格,分别是基本彙總表、似然比檢驗表、二元Logit回歸分析表、預測準确率表。

怎麼用spss進行logistic回歸(SPSSAU數據分析)5

表1 基本信息彙總

表1為基礎彙總表,主要用來彙總數據信息,查看Y值的分布比例以及是否有缺失數據。如果缺失數據過多,或者Y值分布非常不均勻,可能會導緻模型質量較差。

從上表可知,将性别, 年齡, 專業, 月生活費作為自變量,而将new_購買意願作為因變量進行二元Logit回歸分析,從上表可以看出,總共有468個樣本參加分析,并且沒有缺失數據。

怎麼用spss進行logistic回歸(SPSSAU數據分析)6

表2 二元Logit回歸模型似然比檢驗結果

表2為模型似然比檢驗結果,用于分析整體是否有效。主要關注P值,AIC和BIC值用于多次分析時的對比;兩個值越低越好;如果多次進行分析,可對比此兩個值的變化情況,說明模型構建的優化過程。

從上表可知:此處模型檢驗的原定假設為:是否放入自變量(性别_男, 理工類, 文科類, 藝體類, 年齡, 月生活費)兩種情況時模型質量均一樣;這裡P值小于0.05,因而說明拒絕原定假設,即說明本次構建模型時,放入的自變量具有有效性,本次模型構建有意義。

怎麼用spss進行logistic回歸(SPSSAU數據分析)7

表3 二元Logit回歸分析結果彙總

表3為二元Logistic回歸分析結果,用于分析模型整體情況,以及每個X對Y的影響情況(顯著性、影響程度等)。

其中主要關注P值,回歸系數,OR值和R Pseudo R。

  • P值:判斷X對Y是否呈現出顯著性的影響,P<0.05說明X會對Y産生影響關系。

  • 回歸系數:回歸系數值,當P小于0.05時有意義。

  • OR值:優勢比,值與1作比較,越接近1影響程度越小,反之影響程度越大。

  • Pseudo R:用于說明模型整體情況。

從上表可知,模型僞R平方值(Pseudo R平方)為0.089,意味所有變量能解釋購買意願的8.9%變化原因。根據P值及OR值取值可知,理工類、藝體類、年齡對購買意願有顯著性的正向影響,意味着相比醫學專業學生,理工、藝體專業學生的購買意願更大;以及購買意願随着年齡增長而提高。

其他說明

1、注意因變量的賦值和啞變量參考項的選擇。Y對應的數字一定隻能為0和1;如果不是,可以使用‘數據編碼’功能設置。啞變量選擇不同的選項作為參考項,其結果意義不相同。

2、如果X的個數非常多(比如超過10個),需要先進行甄别選擇出有意義的X,比如使用方差分析或者卡方分析,選出X與Y有顯著差異的X放入二元logit回歸模型中。

,

更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!

查看全部

相关科技资讯推荐

热门科技资讯推荐

网友关注

Copyright 2023-2025 - www.tftnews.com All Rights Reserved