tft每日頭條

 > 生活

 > logistic回歸算法原理與特點

logistic回歸算法原理與特點

生活 更新时间:2024-09-07 13:18:35
序曲

歸雁

【唐】錢起

潇湘何事等閑回,水碧沙明兩岸苔。

二十五弦彈夜月,不勝清怨卻飛來。

【譯文】

你為何如此輕易的從潇水湘水那樣美麗的地方回來呢?那裡溪水澄澈,沙石明淨,岸邊還有青苔可以供你覓食,你何故不肯呆了呢?

大雁答道:湘靈之神在月夜彈的瑟曲調太傷感了,我忍受不了那悲怨欲絕的曲調,不得不離開潇湘飛回到北方來。

【賞析】

這首《歸雁》,雖寫于北方,所詠卻是從南方歸來的春雁。

詩詠“歸雁”,雁是候鳥,深秋飛到南方過冬,春暖又飛回北方。古人認為,秋雁南飛,不越過湖南衡山的回雁峰,它們飛到峰北就栖息在湘江下遊,過了冬天再飛回北方。作者依照這樣的認識,從歸雁想到了它們歸來前的栖息地──湘江,又從湘江想到了湘江女神善于鼓瑟的神話,再根據瑟曲有《歸雁操》進而把鼓瑟同大雁的歸來相聯系,這樣就形成了詩中的奇思妙想。

短短四句詩,構思新穎,想象豐富。詩中的潇湘夜景和瑟聲雖都是想象之詞,但通過這樣一問一答,卻把雁寫成了通曉音樂和富于情感的生靈了。這首詩表面上寫大雁,實際上是寫詩人在春夜的感受。詩中沒有直接說這種感受是什麼。正因為沒有明白說出,才留給讀者無限的想象空間。

《歸雁》中的“不勝清怨卻飛來”一句,原來是這首七言絕句構思巧妙新穎,想象豐富,筆法空靈,抒情婉轉,意趣含蘊。它以獨特的藝術特色,而成為引人注目的詠雁名篇之一

Logistics回歸分析簡介

在上一章節介紹的回歸模型中,因變量為連續性變量,并且理論上要求服從正态分布等LINE(線性、獨立、正态、方差齊性)假設條件。但在很多場景下,因變量多為二分類數據或者多分類數據,特别是在醫學場景下,分析死亡與否的概率與病人生理狀況、疾病嚴重程度之間的關系;研究對某種疾病易感性的概率與個體性别、年齡、免疫水平之間的關系等。此時就會用到Logistics回歸,可以預測一個分類變量每一個分類所發生的概率,應變量為分類變量(二分類或者多分類),自變量可以是連續變量,也可以是分類變量,還可以是兩種變量的混合。

分類變量可以分為有序分類變量無序分類變量;而無序分類變量也稱之為名義變量,分為二項分類變量多項分類變量兩種。如經過某種方案處理後,病人的質量結果分為生存與死亡,有效與無效(二項分類);本科畢業生對大學生活的滿意程度分為很不滿意、不滿意、滿意、很滿意,結果變量滿意程度為有序分類變量;不同人群選擇不同品牌的數碼相機,這種結果變量相機品牌為無序多分類變量。

Logit變換

在曲線回歸中,往往要采用變量變化,使得曲線直線化,然後再進行直線回歸方程的拟合。在分類變量中回歸中,能否考慮對所預測的因變量加以變化,解決相應問題呢?在1970年,Cox引入以前用于人口領域的Logit變換成功解決了上述問題。

什麼是Logit變換呢?即把出現某種結果的概率與不出現的概率之比稱為優勢比(odds),odds=P/(1-P),取對數ln(odds),這就是Logit變換。應用在分類變量上,則:

首先是因變量取值區間的變化,概率是以0.5為對稱點,分布在0~1的範圍内,相應的LogitP的大小為:

logistic回歸算法原理與特點(Logistics回歸分析之簡介)1

由上看出,當P 取值0~1時,LogitP取值-∞~ ∞,而實踐證明LogitP往往與自變量X 呈現線性關系。于是我們就用LogitP為因變量,構建線性回歸模型,即Logistic回歸模型。構建模型的表達式為:logitP=a β 1 ×x 1 β 2 ×x 2 … β m ×x m 。當x 每增加1個單位時,方程由LogitP0 變為LogitP1。

二元Logistics回歸分析

很顯然,二元Logistics回歸分析,因變量僅有2個分類,自變量可以是任何形式的資料。其适用條件,包括:

  • 因變量為二分類的分類變量或某事件的發生率。需要注意的是,流行病學中的發病率(或社區衛生服務研究中的兩周患病率)等存在對一個研究對象重複技術現象的指标并不适用于Logistics回歸,因為此時因變量不服從二項分布。
  • 殘差合計為0,且服從二項分布
  • 自變量和Logistic概率是線性關系
  • 各樣本量相互獨立

由于因變量為二分類,所以Logistics模型的誤差項應服從二項分布,而不是正态分布。因此,該模型實際上不應當使用之前的最小二乘法進行參數估計,目前均使用最大似然法來解決方差的估計和檢驗問題。

Logistics回歸分析對樣本量有嚴格的要求,可以使用經驗方法估計:首先選擇因變量中較少的那一類,然後該數值除以10,這就是模型中可以分析的自變量數。如有100條記錄,其中患病為70條,30條為未患病,則模型中可分析的自變量數為30/10=3。若希望分析4個自變量,則需要增加樣本;相對而言,樣本量越大越好。

後續章節将對不同類型的Logistics回歸進行介紹。

,

更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!

查看全部

相关生活资讯推荐

热门生活资讯推荐

网友关注

Copyright 2023-2024 - www.tftnews.com All Rights Reserved