廣義估計方程(generalized estimating equation, GEE)用于估計廣義線性模型的參數(其中線性模型的結果之間可能存在未知的相關性)。于1986年由Liang和Zeger首次提出,是在廣義線性模型和重複測量數據中,運用準似然估計方法估計參數的一種用于分析相關性數據的回歸模型。
簡介對于觀察值是連續性變量的重複測量資料,一般可以采用單變量方差分析(ANOVA)或多元方差分析(MANOVA)的方法(最好是連續性變量滿足正态性、方差齊性以及各時間點組成的協方差具有球形性);但對于離散型重複測量資料(如變量為二分類變量),一般采用廣義估計方程GEE進行統計分析。
單變量方差分析(單因素方差分析,ANOVA),就是傳統的普通方差分析,将p個時間點類比成p個處理組(這種類比有些拗口),則對應為完全随機設計(總變異=處理變異+誤差),可用于單組重複測量資料分析;若本身就存在多個處理組(多組重複測量資料),可再将m個處理組類比成m個區組(拗口的類比方式),則可采用随機區組的單因素方差分析設計(總變異=處理變異+區組變異+誤差)。[ 注意:ANOVA要求p個處理組之間相互獨立,因此要求滿足球形檢驗(各時間點的測量值之間互相獨立,或者稱滿足“獨立結構”);若不滿足球形檢驗,則需進行校正,否則容易增大第I類錯誤的風險 ]
多元方差分析(MANOVA),是将p個時間點看成p維向量,而不是看成一個時間變量的p個水平(不再将其類比為p個處理水平)。由于ANOVA要求的球形檢驗(各時間點測量值之間互相獨立)前提,在很多情況下無法滿足,而MANOVA不需要滿足球形檢驗(正好适合處理存在相關性的問題,Hotelling's T2檢驗的拓展形式)。MANOVA的要求是服從多元正态分布。
這部分内容摘自《高級醫學統計學》。
注意:重複測量資料,指的是結局變量是重複測量數據,而自變量(因素)是固有特性(分組、幹預等等)。各時間點的測量值存在相關性也是針對結局變量而言。筆者模糊感覺,類似于重複測量的問題說不定也可用這類方法建模分析(可能需适當修改一下方法),如同時測量身高和體重作為結局變量,研究飲食、經濟水平、運動狀況等對結局變量的影響。
廣義估計方程是在廣義線性模型的基礎上發展起來的, 專門用于處理縱向數據等重複測量資料的統計模型, 包括不均衡的縱向數據(縱向數據中研究對象重複測量次數、重複測量間隔時間可能有不同, 使得縱向數據不均衡, 如隊列研究中途研究對象失訪。而重複測量方差分析常需滿足球形檢驗)。除了正态分布, GEE利用連接函數将二項分布、Poisson分布、Gamma分布等多種分布的應變量拟合為相應的統計模型, 解決了重複測量數據非獨立性問題, 可得到穩健的參數。(本段摘自:顧劉金.應用廣義估計方程分析縱向數據[J].預防醫學,2018,30(01):106-107)
一般線性模型——局限性:隻能拟合因變量服從正态分布的資料,不适用于分類資料。如果說方差分析做的事情本質上和線性回歸一樣,那麼GEE做的事情本質上和廣義線性回歸是一樣的(回歸任務推廣到分類任務)。
廣義線性模型——廣義估計方程是廣義線性模型的延展。其借助線性模型的分析思路解決模型構造、參數估計和模型評價等一系列問題。廣義線性模型要求有個聯接函數
,以便把因變量的期望值和線性預測值
關聯起來。基本結構為:
。聯接函數的作用就是對應變量作變換使之符合正态分布,變量變換的類型依應變量的分布不同而不同。優點:用于拟合應變量服從正态分布的模型,拟合服從二項分布、poisson分布、負二項分布的等指數分布族模型。通過指定不同的聯接函數,把指數分布族的衆多模型統一到一個模型框架中,具有極大的靈活性。
廣義估計方程處理重複測量縱向資料的優勢:很好地解決了縱向數據的相關性問題,利用了縱向數據中每次測量的結果,大大減少了信息的損失。對于臨床試驗重複測量資料,廣義估計方程能有效地考慮組内相關性,處理有缺失值的資料,可以獲得中心效應的參數及其标準誤的估計值。以及在考慮了中心效應之後,可以有效估計處理因素有無作用及其作用大小。采用廣義估計方程對臨床試驗重複測量資料進行統計分析,可以使藥物療效評價更為客觀。
作業相關矩陣作業相關矩陣是廣義估計方程中的一個重要概念,表示的是應變量的各次重複測量值兩兩之間相關性的大小。作業相關矩陣的形式常有以下幾種:
(1)等相關,又稱可交換的相關(exchangeable correla-tion),或複對稱相關(compound symmetry correlation)。假設任意兩次觀測之間的相關是相等的。這種假設常用于不依時間順序的重複測量資料。
(2)相鄰相關,即隻有相鄰的兩次觀察值間有相關。
(3)自相關(autocorrelation),即相關與間隔次數有關,相隔次數越長,相關關系越小。
(4)不确定型相關(unstructured correlation),即不預先指定相關的形式,讓模型根據資料特征自己估計。
(5)獨立(independent),即不相關(uncorrelated),就是假設應變量之間不相關(多次觀察值互相獨立)。即獨立結構或球形結構。
隻要聯接函數正确,總觀測次數足夠大,作業相關矩陣對參數估計的影響不大。
模型的基本構成假設
為第 i 個個體的第 j 次測量的變量(結果變量),
協變量:
(比如處理因素(分組)就是一個協變量
;簡單問題中往往隻有一個自變量,如分組), 為對應于
的p*1維解釋變量向量。各觀察對象間是獨立的,但同一觀察對象内的各次觀察值間存在相關。
1. 建立結果變量與協變量之間的函數關系指定
的邊際期望(marginal expectation)是協變量
線性組合的已知函數。
,
式中: g(.)稱為聯接函數,通過它把yij的邊際期望表達成協變量的線性組合; β=(β1…βp)為模型需要估計的參數向量。
2. 建立Yij的方差與平均值之間的函數關系指定
邊際方差(marginal variance)是邊際期望的已知函數。
式中: V(.)為已知函數; Ф為尺度參數(scale parameter),表示Y的方差不能被
解釋的部分。這個參數也是需要模型估計的,對二項分布和Poisson分布而言, Ф=1。
3. 對
構建一個P*P維作業相關矩陣
, 用以表示因變量的各次重複測量值之間的相關性大小。
4.求參數β的估計值及其協方差矩陣令Ai是一個P*P維對角矩陣,其作業協方差矩陣為
據此得到的β估計方程為(拟似然函數法通過叠代解方程)
模型求解過程
(1) 假設重複測量值獨立,按照廣義線性模型計算出β,作為β的初始值,相當于普通最小二乘法估計。
(2) 基于标準化殘差gij和假設的相關結構R,計算作業相關矩陣和作業協方差陣。
(3) 根據當前的作業協方差陣,修正β的估計。
(4) 重複(2)、(3)過程直至收斂。
廣義估計方程的特點(1)隻要聯接函數g(.)正确, 總觀測次數足夠大,即使作業相關矩陣Ri(α)指定不完全正确, β的可信區間和模型的其他統計量仍然漸近正确。
(2)廣義估計方程采用準似然估計法估計參數,計算比最大似然法簡單,并且對多元分布也沒有要求,當樣本量較大時, 甚至相關矩陣選擇的不合适也對估計的影響不大。 特别是當資料中有缺失值,每個觀測對象的觀測次數不同,觀察時間間隔不同等條件下,都可選用 GEE進行分析。
(3)廣義估計方程應用條件較寬,可适用于多種類型的反應變量,如定量變量、分類變量、等級變量等,同時也可納入多種類型的自變量,因而在重複測量設計資料統計分析中應用廣泛。
一些思考GEE 與LR 比較
- Logistic回歸方程通常假定所有觀察值是相互獨立;
- 廣義估計方程可輸出作業相關矩陣,分析各時間點的相關參數,從而比較不同時間點的差異;
- 廣義估計方程還可以探讨各因素的交互作用及對自變量作用的分解,即檢驗自變量對于不同時間點的影響大小是否相同。
至此,應該理解了重複測量資料為什麼不能直接進行Logistic回歸建模分析。
方差分析與回歸的關系
那麼,對于非重複測量資料,方差分析解決的問題,能否都采用回歸建模進行解決呢?
之前已經知道,t 檢驗和線性回歸是完全對應的。那麼方差分析中情況如何呢?以下為個人看法,如有纰漏,煩請指教。
先看最簡單的單因素方差分析,其實就是讓處理效應(或分組因素,即所謂的單因素,對應于回歸中的單個自變量)理解成多分類變量(3個處理組,理解為自變量X的3種取值),據此可以建立線性回歸模型。但注意到,自變量不是連續性變量,而是分類變量(有時候為有序分類變量,大多時候為無序分類變量),有兩種處理方式:一種是進行啞變量化,第二種是采用最優尺度回歸(比啞變量法更有優勢的處理技巧)。同樣的,在多因素方差分析中,将各個因素轉換成各個自變量,并進行最優尺度變換,可以建立線性回歸。好像有這麼個說法,方差分析其實就是線性回歸的特例(所有自變量都是分類變量,并且都進行啞變量化),Wikipedia中有這麼一句話:ANOVA is considered to be a special case of linear regression which in turn is a special case of the general linear model. 另外,對于R2這種指标,在ANOVA和線性回歸中是等價的。
知乎上一個回答可以印證我的觀點:方差分析和回歸分析的異同是什麼?
另外值得注意的是,還有個叫含協變量的方差分析(協方差分析),需與多因素方差分析進行區分(把影響觀測值的其他變量當作協變量而不是“因素”,因為這個協變量是連續性變量,無法當成因素處理)。這種情況需先利用回歸的方法(将“因素”和“協變量”一起作為自變量,以觀測值作為結局變量,進行線性回歸建模)消除組間不平衡的協變量的影響,再對校正後的因變量均數進行處理組間比較的方差分析(校正方法是采用回歸模型截距進行校正)。
[ 注意用詞:方差分析中的因素對應回歸模型中的自變量,方差分析中的變量對應回歸模型中的因變量。單因素單變量方差分析對應單自變量單因變量模型;多因素多變量方差分析對應多自變量多因變量模型 ]
如何理解協變量的校正 adjusted ?比如在Cox回歸、LR中,如何理解對協變量進行了校正?
如何理解分層 stratified ?
若某變量(次要變量,一般為連續性變量或有序分類變量)與結局變量之間存在線性回歸關系的,則該變量常被稱為協變量,将其納入考慮稱為 adjusted;
若某變量(次要變量,一般為有序或無序分類變量)與結局變量之間關系不明确,但是其不同取值可能造成自變量與結局變量之間回歸關系發生變化(不存在線性回歸關系,但與主要自變量之間存在交互作用),則該變量常被稱為分層變量,将其納入考慮稱為 stratified。有時候也會将協變量作為分層變量考慮。另外,RCT設計中的分層随機,所謂的分層因素其實有可能是協變量,我們此時也經常将其作為分層變量考慮。
在建模上的區别:協變量校正是先将自變量和協變量一起線性建模,然後用截距值對最終模型(因變量與主要自變量的模型)進行校正。分層分析是對于不同層分别進行建模(得到的系數值不同),如果分層變量和主要變量之間的交互作用弱,可以進一步對模型進行合并。
如何理解自變量與協變量?(摘自自變量與協變量)
自變量是指研究者主動操縱,而引起因變量發生變化的因素或條件,因此自變量被看作是因變量的原因。協變量:在實驗的設計中,協變量是一個獨立變量(解釋變量),不為實驗者所操縱,但仍影響響應。同時,它指與因變量有線性相關并在探讨自變量與因變量關系時通過統計技術加以控制 的變量。常用的協變量包括因變量的前測分數、人口統計學指标以及與因變量明顯不同的個人特征等。
協變量應該屬于控制變量的一種。有些控制變量可以通過實驗操作加以控制(如照明、室溫等),也稱為無關變量;而另一些控制變量由于受實驗設計等因素的限制,隻能借助統計技術來加以控制,即成了統計分析中的協變量,因而屬于統計概念。
如何理解交互作用與共線性?
交互作用是指兩個變量共同作用對于結局變量的影響,不等于二者分别作用時的影響的加和(類似于生物學中的協同作用和拮抗作用)。對于交互作用明顯的,可以采用分層的策略,分别建模,也可以添加交互項進行建模。
共線性是指兩個或多個變量之間本來就存在線性相關關系(實際自由度小于表面上的自由度)。對于共線性明顯的,可以先進行變量的篩選。
回歸建模的最佳實踐1、回歸應該關注“因果關系”,但是很多數據分析中忽略了這個内在邏輯。有的人把“果”當初因變量,把“因”當初自變量,這樣随意建模時存在問題的,一般表現為建模效果不理想。根源在于,很多自變量共同作用導緻了因變量,但是因變量和其他自變量共同作用難以導緻某個自變量。因此有些大佬建模時會慎重考慮因果關系。
2、因果互相影響的情況。現實中,存在因變量對自變量也有影響的情況,比如“住院費越多,療效越好;病人知道這個規律後,為了達到更好的療效,而增加住院費”。這種情況可以采用兩階段最小二乘回歸。
3、回歸分析中普通最小二乘法有LINE要求,在違背這些情況時,有不同的應對策略。當自變量類型不滿足要求時,可以采用最優尺度回歸;當方差不齊時,可以考慮加權最小二乘回歸;當自變量之間存在共線性時,可以考慮嶺回歸或LASSO回歸。
GEE在R語言中,可以使用geepack、gee 或multgee等工具包進行分析。
拓展知識:趨勢分析( trend analysis)采用正交多項式( polynomial)分析某處理因素的均數随時間的變化情況正交多項式變換的對比方法:将兩組資料轉變為兩條正交多項式曲線,檢驗這兩條曲線參數是否來自同一總體。
① 首先檢查最高階次的參數在兩對比組之間是否具有統計學意義。 ② 如果組間差異具有統計學意義,則可以認為包括本階次及其餘各階次之間都具有不同的趨勢。否則,應繼續對次高階次的參數作評價。 ③ 如果在任何階次上差異都不具有統計學意義,說明這兩條曲線的變化趨勢是一緻的。
Wikipedia中對GEE的描述:
GEEs belong to a class of regression techniques that are referred to as semiparametric because they rely on specification of only the first two moments. They are a popular alternative to the likelihood–based generalized linear mixed model which is more sensitive to variance structure specification. They are commonly used in large epidemiological studies, especially multi-site cohort studies, because they can handle many types of unmeasured dependence between outcomes.
重複測量資料分析方法的對比1、ANOVA
當重複測量數據符合球形檢驗、各次測量數據分布滿足正态分布時,可以采用ANONA。
2、MANOVA
重複測量數據對球形檢驗不做要求,但需滿足多元正态分布。
相關介紹可參考高級統計學教材
R分析方法:基礎包的manova()。
3、ASCA
ASCA全稱是 ANOVA-simultaneous component analysis。該方法尚不了解,筆者估計也需要滿足正态分布。據說可以分析主要趨勢(結合了ANOVA和PCA的思想)。
可參考:
Bioinformatics 上的篇論文 ANOVA-Simultaneous component analysis (ASCA): a new tool for analyzing designed metabolomics data
Bioinformatics 上的篇論文 Discovering gene expression patterns in time course microarray experiments by ANOVA-SCA.
4、GEE
對數據分布和獨立性不作要求(連接函數有多種可選,作業矩陣也有多種可選)。
R包:geepack、gee 或multgee等。
5、LMM 與 GLMM
LMM需各次測量數據分布滿足正态分布,GLMM則對數據分布不作要求。
R包:lmm、glmm等。
可參考:廣義線性混合模型GLMM
6、MEBA
MEBA全稱為:Multivariate Empirical Bayes Analysis。雖然模型的假設是基于數據服從多元正态分布,但是MEBA的論文作者提到,隻要是橢圓分布(elliptical distribution,簡單理解就是多元分布的水平切面呈橢圓狀,包括多元正态分布、Hotelling分布、Laplace分布等)就都有效。可以嘗試下吧。
MEBA計算出每個變量的 MB-statistic 或 Hotelling T2-statistic(這裡的Hotelling T2-statistic 嚴格來說是
-statistic
,文獻認為其作用與 MB-statistic 等價),并以此進行排序。
MEBA使用方法:MEBA論文作者寫了一個R包:timecourse(可通過 bioconductor 下載安裝)。另外,MetaboAnalyst 也集成了MEBA。
注意timecourse包的使用方法,mb.long是用于單組或兩組(包括配對)樣本的時間序列分析(筆者注:Hotelling's T2的經驗貝葉斯校正版,本質上還是Hotelling's T2),mb.MANOVA是用于多組樣本的時間序列分析(筆者注:MANOVA的經驗貝葉斯校正版,本質上還是MANOVA)。
筆者最開始沒找到這個R包,幸虧根據關鍵字在Google裡搜索到了這個網頁:
https://rdrr.io/bioc/timecourse/man/mb.MANOVA.html
MEBA可參考:
Ann. Stat 上的一篇論文A multivariate empirical Bayes statistic for replicated microarray time course data.
Bioinformatics 上的篇論文 MetATT: a web-based metabolomics tool for analyzing time-series and two-factor datasets
(MetATT 就是 MetaboAnalyst 的前身,是Xia Lab(Jianguo Xia 教授團隊)開發的工具,集成了ASCA 和 MEBA,在此之前僅有MATLAB中有MEBA的工具包)
關于模型的分析效能,一般要求越嚴格的方法,其分析效能越高(适用範圍和分析效能很難兼得)。
懲罰廣義估計方程(pGEE)本部分參考自:曹紅豔,曾平,李治, 等.懲罰廣義估計方程在縱向數據基因關聯分析中的應用[J].中國衛生統計,2017,34(4):534-537.
Wang等人2012年在論文Penalized Generalized Estimating Equations for High‐Dimensional Longitudinal Data Analysis中提出了pGEE的方法,将GEE推廣到了高維數據分析中。
Oracle性質:一個好的懲罰函數估計值應具備無偏性、稀疏性和連續性,即Oracle性質。
SCAD懲罰能保留較大的系數,同時将較小的系數收縮為0,具有Oracle性質。其懲罰函數的導數如下:
,其中,I為指示函數,a為預先選擇的常數(往往推薦a=3.7)。
對GEE的得分函數進行SCAD懲罰,得到pGEE的懲罰表達式為:
,其中:
采用minofization-maximization算法和Newton-Raphson算法進行簡化和叠代,可以計算出pGEE的參數估計值。pGEE估計值依賴于懲罰參數λ,因此往往采用交叉驗證(cross validation,CV)選擇最優λ。
最終的建模,可以根據AIC或BIC等進行變量選擇。
對于這類問題,還可以使用基于Lasso的LMM(linear mixed model)或基于SCAD的LMM對結果進行驗證和比較(都可以嘗試下),之後有空可以總結下高通量縱向數據的統計分析方法。
pGEE在R語言中,可以使用PGEE這個包進行分析。
注意:pGEE的适用場景需注意,重複測量的指标是唯一的,比如動态體重,這将作為因變量,而不可以将需要篩選的特征作為重複測量的變量(比如代謝物等),也就是說,需要篩選的特征是不随時間變化的特征。因此pGEE不适用于縱向代謝組學篩選代謝物的情形。
另外,GEE和GMM廣義矩方法之間存在密切的關系。詳情請參考:廣義矩方法(GMM)和廣義估計方程(GEE)到底有什麼區别
本文章雖注明為轉載,但其實是整合統計書和幾篇論文的内容所得,原出處請參考如下參考文獻。
參考文獻
萬崇華等. 高級醫學統計學. 科學出版社.
李雪原,張雪雷,仇麗霞.廣義估計方程處理重複測量數據的參數解釋[J].中國藥物與臨床,2015,(2):167-170.
顧劉金.應用廣義估計方程分析縱向數據[J].預防醫學,2018,30(01):106-107
田小龍,陳圓圓,朱笑笑,胡靜靜,趙文娟.廣義估計方程[PPT]
小結本文原創作者FarmerJohn,請支持原創。
感謝大家耐心看完,自己的文章都寫的很細,代碼都在原文中,希望大家都可以自己做一做,請關注後私信回複“數據鍊接”獲取所有數據和本人收集的學習資料。如果對您有用請先收藏,再點贊轉發。
也歡迎大家的意見和建議,大家想了解什麼統計方法都可以在文章下留言,說不定我看見了就會給你寫教程哦。
如果你是一個大學本科生或研究生,如果你正在因為你的統計作業、數據分析、論文、報告、考試等發愁,如果你在使用SPSS,R,Python,Mplus, Excel中遇到任何問題,都可以聯系我。因為我可以給您提供好的,詳細和耐心的數據分析服務。
如果你對Z檢驗,t檢驗,方差分析,多元方差分析,回歸,卡方檢驗,相關,多水平模型,結構方程模型,中介調節,量表信效度等等統計技巧有任何問題,請私信我,獲取詳細和耐心的指導。
If you are a student and you are worried about you statistical #Assignments, #Data #Analysis, #Thesis, #reports, #composing, #Quizzes, Exams.. And if you are facing problem in #SPSS, #R-Programming, #Excel, Mplus, then contact me. Because I could provide you the best services for your Data Analysis.
Are you confused with statistical Techniques like z-test, t-test, ANOVA, MANOVA, Regression, Logistic Regression, Chi-Square, Correlation, Association, SEM, multilevel model, mediation and moderation etc. for your Data Analysis...??
Then Contact Me. I will solve your Problem...
猜你喜歡廣義線性模型觀點:回歸分析的基本原理與結構
R數據分析:混合效應模型實例
從“我醜到我自己了”說起——混合效應模型續
R數據分析:混合效應模型的可視化解釋,再不懂就真沒辦法
重複測量數據分析系列:混合效應模型基礎
R數據分析:潛增長模型LGM的做法和解釋,及其與混合模型對比
,更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!