OR
邏輯回歸
邏輯回歸的名稱雖然裡面有“回歸”二字,但它實際上是一種分類學習方法。常見的使用場景有兩種:一是預測,二是尋找因變量的影響因素。
1
線性回歸與Logistic回歸
線性回歸和邏輯回歸都是廣義線性模型的一種特殊情況。
假設有一個因變量y和一組自變量x1, x2, x3, ... , xn,當y為連續變量時,不難拟合一個線性方程:
然後采用最小二乘法估計這個方式當中的各個系數β的值。
但是,如果 y 是一個隻能取 0 或 1 值的二元變量,則線性回歸方程會遇到困難。方程的右邊是一個從負無窮到正無窮範圍内的連續值,但左邊的值則屬于[0,1],兩邊的值不匹配。
為了克服這一阻礙進行線性回歸,統計學家想出了一種變換方法,即:将等式右邊的值變換為[0,1]。最後,選擇采用logistic函數進行變換。
logistic函數為:
它是一個取值範圍為(0,1)的s型函數,可以将任意值映射到(0,1),并且具有無窮導數等優良的數學性質。
在變化以後,回歸方程就變為:
這樣,等式兩邊的取值範圍就都處于0和1之間了!
再進行一下Logit變換,得到:
在上面這個公式裡,可以将y看作y取值為1的時候的概率p(y=1),那麼1-y便是y取值為0的時候的概率p(y=0)。
從而能夠進一步得到:
處理變換到這裡,我們就可以回到最初的思路,通過最小二乘法估計β的值了。
2
odds與OR的含義
Odds:稱為暴露比值,也稱為幾率、比值、比數,是指某事件發生的可能性(概率)與不發生的可能性(概率)之比。用p表示事件發生的概率,則:odds = p/(1-p)。
OR:稱作“優勢比”(odds ratio),也稱“比值比”,為實驗組的事件發生幾率(odds1)/對照組的事件發生幾率(odds2),反映的是某種暴露與結局的關聯強度。
3
怎麼理解OR值
上面的描述在新手看來簡直“不明覺厲”:什麼優勢?啥又是優勢比?關聯強度又是啥?
為了加深了解,讓我們結合例子來細細體會。
假設一下,如果我們想要探讨熬夜是否會導緻肥胖的發生,應該怎麼辦?
回憶一下我們初中學的做生物實驗的思路,很容易便想到:找兩組人,一組是肥胖人群,另一組則是不肥胖人群,然後,分别調查這兩組人群哪些人熬夜、哪些人不熬夜。
如果我們調查得到的情況是下面這樣的:
可以看到,肥胖組一共有40人,其中24人熬夜,16人不熬夜。我們就稱“熬夜”是一種“暴露”。
不難看出,“暴露”指代的内容非常廣泛。一般來說,有我們感興趣的元素的研究對象就可以被稱為“暴露組”;而沒有這些因素的研究對象就可以被稱為“非暴露組”。感興趣的元素可以包括各種特征(性别、年齡、教育程度等)、某個特定行為(飲酒、運動、吸煙),或接觸某個特定的物質(PM2.5等)。
至于“暴露與結局的關聯強度”,在假設的例子當中,所謂的“結局”便是“是否肥胖”,也可以理解為“因變量Y”。
那“暴露比值”在假設的例子當中意味着什麼呢?
其中,對于患有肥胖的對象,暴露比值為:熬夜的比例除以不熬夜的比例,即為:25/15 = 1.67;
同樣,在不肥胖的人群中,也可以計算一個熬夜的比例除以不熬夜的比例,即為:19/21 = 0.90。
把這兩個比例相除,就得到了熬夜與肥胖相關關系的OR值,即OR = 1.67/0.90= 1.86>1。
由此可以進行初步的推斷:熬夜會增加肥胖的風險。
總的來說,當結果出現記為1,不出現記為0時,OR值的含義可以總結為:
OR = 1,暴露與結局之間沒有相關性;
OR> 1,暴露可能會促進結局的出現;
OR<1,曝光會阻礙結局的出現。
而Logistic回歸很重要的一點在于可以直接輸出OR值,這一值甚至比直接的回歸系數(β)還更有意義。
OR值與回歸系數β的數量關系為:OR = eβ
,更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!