作者:丁點helper
來源:丁點幫你
前文我們已經講解了相關與回歸的基礎知識,并且重點讨論了多重線性回歸的應用與診斷分析。今天的文章,我們來看看日常學習和科研中應用同樣廣泛的另一類回歸分析——Logistic回歸。
Logisti回歸與多重線性回歸的區别
多重線性回歸,一般是指有多個自變量X,隻有一個因變量Y。前面我們主要是以簡單線性回歸為例在介紹,兩者的差距主要在于自變量X的數量,在隻有一個X時,就稱簡單線性回歸。
讀過我們前面“線性回歸”系列文章的同學,肯定已經知道,采用線性回歸的第一準則:因變量Y需要是“定量變量”。
例如得分、收入等連續型的,可以計算均數和标準差的變量。而Logistic回歸最大的不同在于:Y是分類變量。
Logistic回歸的Y是分類變量(這句話希望大家在心裡默讀三遍)這是進行Logistic回歸最基本的條件。
什麼是分類變量呢?大家最常見的可能是:發病與不發病。
比如我們用Y來表示“是否患有糖尿病”,用Y=1表示“患病”;用Y=0,表示“不患病”,這裡的Y就是一個典型的二分類變量。
此時,當我們希望通過回歸分析的方法來探讨“糖尿病患病與否的影響因素”,則應該選擇“Logistic回歸分析”。
同多重線性回歸一緻,對進行Logistic回歸分析的自變量X并沒有限制,可以是定量變量,如年齡,也可以是分類變量,如性别等等。
所以,按照我們前面文章所強調的,進行研究前首先要找XYZ(自變量、因變量和控制變量),當考慮是進行多重線性回歸,還是Logistic回歸時,原則上隻需看Y(即因變量、或稱反應變量)的類型:
定量變量就用多重線性回歸,分類就用Logistic回歸。
線性概率模型
多重線性回歸,一般是指有多個自變量X,隻有一個因變量Y。前面我們主要是以簡單線性回歸為例在介紹,兩者的差距主要在于自變量X的數量,在隻有一個X時,就稱簡單線性回歸。
理清了Logistic回歸與一般線性回歸的區别後,我們再來看看Logistic回歸是如何構造出來的。
在這之間,我們要先介紹一個新詞:線性概率模型。什麼叫線性概率模型,它與Logistic回歸有什麼關系?我們一一道來。
首先,既然大家都叫“回歸”,Logistic回歸與線性回歸當然存在聯系的。
實際上,Logistic回歸僅僅隻是對線性回歸的因變量進行了一個變換,模型的主體結構仍然屬于“線性回歸”。
仍然以“糖尿病患病的影響因素”為例進行說明。
某研究團隊想要探讨某地區糖尿病患病的影響因素,收集了如下數據:
上述數據的賦值說明如下:
本研究的目的是獲得“影響因素”,因此,除變量Y(是否患病)以外,其他所有因素都可以作為潛在的影響因素(即自變量X納入)模型。如上表,Y屬于二分類變量,其取值模式是“0、0、0…1、1、1”,其中“1”表示“是”;“0”表示“否”,所以符合進行Logistic回歸的基本條件。
在Logistic回歸誕生之前,人們首先考慮的是按照“多重線性回歸”的方法,忽略變量Y的變量類型,直接将Y與各個X強行進行多重線性回歸。
在前文,我們講過Y上面添加一個“^”符号,表示Y的估計值。結合本例,如果我們将是否患有糖尿病與各個X進行回歸,也會得到Y的估計值。可是如何解釋這個估值值呢?人們想出一個辦法:概率。
概率是我們在中學就接觸過的内容,表示的是“某個事件發生可能性的大小”,比如某人患糖尿病的概率是80%,意味着他的患病風險比較高。
當我們從概率的角度進行線性回歸時,得到的模型特稱為“線性概率模型”。
如上式,我們用P來表示Y的估計值,專門代表患病概率。什麼意思呢?我們現在構造的模型是用來研究各個影響因素與糖尿病患病概率的相關關系,不再是是否發病。
也就是說,通過模型,我們可以計算出預測值,此時的預測值代表該對象患糖尿病的可能性大小。
這個地方需要特别理清的是,每一個研究對象是否患有糖尿病我們提前已經知曉。如上表,變量Y=0,意味着“沒有患病”,Y=1,表示“患病”。
可是現在又說預測值代表他患病的可能性大小,都已經患病了,再算患病可能性還有意義嗎?
當然是有的,這就是回歸分析,或者整個統計學的思想,用已經發生的事情作為樣本來推測事物間的規律。
這裡的預測值是根據模型(即根據X所計算的),雖然并非實際情況,但我們可以推測:如果模型預測效果好,那對于某一名已經患病的對象而言,其預測值(即患病概率)應該接近于1,表明患糖尿病概率很高。
反之,對于沒有患病的人群(即Y=0),根據模型計算的患病概率則應該接近0,即患病概率低。
确實如此,上述線性概率模型并非理論假想,而是存在實際應用,它與多重線性回歸的思路和操作方法完全相同。
唯一特殊的是,這裡“Y”的預測值專門由“P”表示,指代概率。這種方法在經濟學等社會科學領域十分廣泛,常與Logistic回歸結合使用。
Logistic回歸的由來
多重線性回歸,一般是指有多個自變量X,隻有一個因變量Y。前面我們主要是以簡單線性回歸為例在介紹,兩者的差距主要在于自變量X的數量,在隻有一個X時,就稱簡單線性回歸。
但是,這個“線性概率模型”有一個很嚴重或者說“緻命”的問題。根據模型來看,Y的估計值(即這裡的P)理論上可以取所有實數。可是,對于大于1或者小于0的預測值,該做何種解釋呢?
常識告訴我們,概率(即可能性)不會大于“1”或者小于“0”,可是通過模型計算出來的預測概率幾乎一定會出現大于1或小于0的情形。
為了解決這個問題,人們就考慮對P進行變換。數學上發現,通過對P進行如下變換即可解決問題:logit (P) = ln (P/1-P),(其中ln為自然對數函數)。
這個變換即所謂的“logit”變換,通過對P進行變換之後再次納入回歸模型,得到的模型即為“Logistic回歸模型”:
在實際應用中,這些變換當然不再需要我們手動操作,隻需要把數據整理成上述上述表格中的形式,SPSS軟件會進行完整的分析過程。
但我們需要特别明确的是,進行Logistic回歸後,軟件輸出的“預測值”,就是這裡的“P”,即概率,均是0-1的數字。
所以,如果從整體來看(将logit(P)看做一個整體),Logistic回歸模型仍然是一個線性回歸模型,一般稱作“廣義線性回歸”。
,更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!