斷點回歸是一種‘準自然實驗’式研究,其思想在于存在一個連續變量(驅動變量X,或分組變量,或處理變量),該變量某臨界點cutoff處可拆分成左側和右側,進而研究該變量對于另一變量(結果變量Y,或因變量)的影響。比如高考時本科線為500分,那麼有的學生好低于500分,有的弱高于500,但正是由于500這個cutoff斷點值,導緻學生是否能上本科,進而最終影響到學生以後的收入情況,此處高考成績即為驅動變量X,收入則為結果變量Y。
上述的500分是一個非常明确的斷點cutoff值,如果低于500分一定不能上本科,高于500分一定可以上本科,那麼此類RDD模型則稱為‘精确斷點’(sharp regression discontinuity design, 簡稱SRD)。如果說有的學生有着‘特長加分項’,分數小于500分但正由于其有着‘特長加分項’因而上了本科,也或者有的學生高于500分但是其更願意讀了優秀的專科,此類情況時的斷點回歸研究,稱作為‘模糊斷點回歸’(fuzzy regression discontinuity, 簡稱FRD),多數情況下研究均使用精确斷點SRD;除此之外,RDD斷點回歸模型時有時還會加入到控制變量。上述涉及幾個關鍵術語,彙總如下表:
背景
一般來講美國民主黨更傾向于更多的聯邦支出,案例研究是否民主黨獲選對于聯邦支出的影響。通常情況下如果得票率大于50%即會獲選,反之小于50%則會落選。因而得票率則為驅動變量X,此處0.5則可作為斷點cutoff值(研究中為了方便使用,因而将得票率 – 0.5)作為驅動變量,即最終cutoff值為0,大于0則應該獲選,小于0則應該落選)。結果變量Y為聯邦支出。而且還包括另外2個控制變量。除此之外,還包括另外一個變量‘是否獲選’作為判斷是否模糊斷點。本案例數據使用Stata軟件的votex.sta數據,各數據的定義如下:
理論
RDD斷點回歸的分析知識點相對較多,從分析步驟包括,具體可精确斷點或模糊斷點的選擇,模型選擇,模型基本假定分析,模型分析,模型穩健性檢驗等。具體分為以下5步。
第一步、精确斷點和模糊斷點判斷
判斷精确斷點或模糊斷點的思路在于處理變量X被cutoff分為左右兩側後,是否真正決定‘實驗走向’,比如本案例中cutoff值分成兩組後即認為‘民主黨是否當選’(命名為new_x),而fuzzy模糊項即真實是否當選項,如果與new_x與fuzzy項沒有特别明顯的不一緻,甚至完全一樣,此時則應該使用精确斷點。反之如果new_x與fuzzy項有着明顯的差異,此時使用模糊斷點較為适合。
第二步、模型選擇,通常指模型階數的判斷
研究X對于Y的影響時,二者的關系是線性關系(一階),還是曲線二階關系,也或者三階關系。可首先通過圖示直觀查看,并且得出結論。待定模型階數後,後續分析基于該階數進行分析使用。至于‘帶寬值’或者‘核函數’,通常默認即可,SPSSAU會自動找出最優帶寬值,默認使用triangular三角核函數。
第三步、模型基本假定分析
RDD模型通常包括着一定的假設,通常包括‘斷點适用性檢驗’和‘局部平滑性檢驗’。如下所述:
第四步、模型分析
在上述确認好精确或模糊斷點,并且确定好模型階數,并且模型适合時,則開始分析X對于Y的影響關系情況。
第五步、模型穩健性檢驗
模型分析後,還需要對模型穩健性進行檢驗。模型穩健性檢驗有多種方式,包括更換核函數法、更換斷點值法,是否加入控制變量法,更換帶寬值法,更換階數,改變樣本選擇法,如下表格所述。
操作
第一步、精确斷點和模糊斷點判斷
将X按cutoff值0分為兩組,并且與fuzzy項進行交叉卡方分析。操作截圖分别如下:
使用SPSSAU數據處理->數據編碼功能,并且選擇‘範圍編碼’,将x按cutoff值0分為兩組(可通過描述分析得到x的最小值為-0.276,最大值0.470)。系統會自動生成一個新标題‘New_x’,将該項與fuzzy項進行交叉卡方,得到如下結果:
New_x代表x分為兩組後的新變量,0代表cutoff值左側(落選),1代表cutoff值右側(當選)。而fuzzy項裡面的0和1代表真實情況下‘是否當選’(0為落選,1為當選)。從上表格可以看到:二者數據完全一緻,按cutoff值得到的131個‘落選’樣本真實情況下也是‘落選’,按cutoff值得到的218個‘當選’樣本真實情況下也是‘當選’。即意味着應該使用精确斷點。
提示:
實際研究中,如果數據的gap較小,此時也可直接使用精确斷點回歸。
确認好為精确斷點模型之後,接着進行第二步。
第二步、模型階數判斷
模型階數判斷時使用直觀圖示法。即首先進行模型分析,通過圖示查看模型應該是一階、二階或三階更加适合。首先操作如下圖:
首先放入結果變量y,驅動變量x,2個控制變量。以及設置好斷點值為0(默認不設置即為0),選中‘繪圖’複選框。至于另外4個參數(帶寬值、核函數、階數和穩健性檢驗)默認即可。此步驟主要查看繪圖,用于确認‘階數’。得到圖形如下:
從上圖可以看到,最左側‘線性拟合’即一階時或者中間‘二次型拟合’即二階時,模型拟合相對較好。可能‘二次型拟合’相對更适合。因而确定模型為二階。并且後續以二階為準進行分析。另外從上面三個圖可以看到,斷點值左右兩側附近的樣本量基本均勻,即說明斷點值選擇适合沒有受到人為操縱。
第三步、模型基本假定分析
模型基本假定分析時,通常包括‘斷點适用性檢驗’和‘局部平滑性檢驗’。關于‘斷點适用性檢驗’如果說cutoff值兩側附近的斷點樣本量基本均勻則說明斷點選擇适合,不受人為操縱。從第二步中得到的圖形也可以看出,斷點值附近兩側的點基本差不多,說明當前案例設置的斷點值準确,并沒有受到人為操縱幹擾。
除此之外,還需要查看‘局部平滑性檢驗’,即分别将控制變量作為驅動變量X進行斷點回歸,通過圖示法查看斷點值是否在控制變量身上也起效果,即‘同樣的斷點值不應該在控制變量身上也起作用’,此檢驗通常并不完全需要。并且有時候控制變量并不能被當前斷點cutoff值區分為兩側因而不能進行分析,本案例即是此類情況,本案例不進行‘局部平滑性檢驗’。
第四步、模型分析
第一步确認好模型為精确斷點,并且第二步确定為二階模型最優,而且滿足基本模型假定。因而進行操作,準備得到最終結果。操作如下圖所示:
分别設置結果變量y,驅動變量x,2個控制變量。以及設置好斷點值為0(默認不設置即為0),設置為‘二階’,選中‘穩健性檢驗’複選框。至于另外2個參數(帶寬值、核函數)默認即可,并且将‘繪圖’複選框取消(因為已經不再需要通過圖示查看階數)。此步驟為了得到最終結果。見‘SPSSAU輸出結果’部分說明。
第五步、模型穩健性檢驗
在得到模型最終結果時,選中‘穩健性檢驗’複選框,系統默認提供不同帶寬值(0.25倍、0.5倍、0.75倍、1倍、1.25倍、1.5倍、1.75倍和2倍共8個不同帶寬值)時的結果,便于進行穩健性檢驗查看,實際研究中,可能并不需要8個不同帶寬值情況下的結果對比,通常隻需要1倍帶寬值附近(比如0.75倍、1倍和1.25倍)共3項帶寬值時結果對比,如果結論基本穩定即說明模型具有穩健性。
模型穩健性檢驗并沒有固定的做法,隻要可以證明模型具有穩健性(不同情況下模型結論基本一緻則說明具有穩健性),具體穩健性方式上有很多種,一般使用1種或2種即可并沒有固定标準。
至于其它的方式,比如‘更換核函數’法,‘更換斷點’法,‘是否加入控制變量’法,‘更換階數’法和‘樣本選擇法’。研究者可自行更換模型進行結果對比研究。尤其是‘更換核函數’法,‘是否加入控制變量’法和‘更換階數’這3種方式,其操作簡單方便,隻需要在SPSSAU系統中下拉選擇下參數更換即可進行,建議研究者嘗試使用查看對比即可。比如‘更換核函數法’,操作截圖如下所示:
SPSSAU默認是使用‘triangular三角核函數’,可選為‘Epanechnikov核函數’和‘Uniform核函數’,來回切換另外兩個核函數,将結果進行彙總對比即可,如果結論基本一緻則說明模型具有穩健性。
SPSSAU輸出結果針對本案例結果,即‘精确斷點’且‘二階模型’時結果,SPSSAU共輸出表格和圖形,具體說明如下:
文字分析
本案例得到最終結果,包括RDD基本情況、RDD參數情況、RDD樣本數據情況、RDD斷點回歸結果彙總,穩健性檢驗結果和穩健性檢驗coefplot圖,分别說明如下:
從上表格可以看到結果變量、處理變量、控制變量或fuzzy項對應的項名稱,本案例中有兩個控制變量,另本案例最終為精确斷點,因而沒有設置fuzzy模糊項。
從上表可以看到,斷點值為0,并且沒有設置過帶寬值,模型自動計算出‘最優帶寬值’為0.096,并且默認使用三角triangular核函數,模型設定為2階。以及選中‘穩健性檢驗’,SPSSAU自動會提供不同帶寬值時模型彙總結果。
上表格可以看到,斷點值為0,斷點值左側樣本量為131個,右側為218個,總共分析樣本量為349個。
上表格可模型結果核心表格,從上表格可以看到,p值均大于0.05,但是小于0.1,也即意味意味着如果以0.1作為顯著性水平,那麼回歸系數呈現出顯著性,如果以0.05作為标準,則說明沒有顯著性。無論是Conventional法,也或者校正bias法(Bias-Corrected),也或者穩健法檢驗robust時。
提示:
斷點回歸時對于回歸系數的檢驗共提供3種方式,分别是Conventional法、Bias- Corrected和Robust法,三種方式并沒有優劣之分。通常使用其中一種即可,比如Conventional法。下述基于不同帶寬穩健性檢驗時默認彙總Conventional法。
由于本案例時選擇‘穩健性’檢驗,因而SPSSAU提供上表格展示不同帶寬值(0.25倍、0.5倍、0.75倍、1倍、1.25倍、1.5倍、1.75倍和2倍共8個不同帶寬值)時回歸系數顯著性檢驗結果,默認彙總Conventional法的顯著性檢驗結果。從上表格可以看到,8種情況下時,隻有其中4種帶寬下呈現出0.1水平顯著性,另外遠離1倍較遠的帶寬時并沒有呈現出顯著性。
整體上看,如果模型以0.1作為顯著性水平,那麼模型具有一定的穩健性(如果是0.05作為标準,則穩健性非常強,因為全部p值均大于0.05)。建議還可進一步通過其它方式,比如‘更換核函數’法,‘是否加入控制變量’法和‘更換階數’等進一步查看。本案例中如果使用‘更換核函數’,‘是否加入控制變量’或者‘更換階數’,也會有出現0.1水平顯著的結論(但并不完全是),但全部均會出現0.05水平不顯著的結論,即意味着如果模型以0.1作為顯著性标準,此時模型穩健性較弱,而模型以0.05水平作為标準,此時模型穩健性非常強,無論如何顯著性值均大于0.05,最終模型以0.05作為顯著性水平,即意味着模型并不顯著,即‘民主黨當選對于聯邦支出并沒有實際性影響’,并且此結論非常穩健。
上圖為基于不同帶寬時,模型回歸系數95%置信區間進行展示的coefplot圖,從圖中可以看到,8種不同帶寬時,95%置信區間均包括數字0,即明顯的可以看到,模型在0.05水平上不顯著,此結論穩定。
剖析涉及以下幾個關鍵點,分别如下:
RDD斷點回歸時,分析步驟較多,建議逐步進行,且在判斷時盡量多的對比綜合分析,而不能隻查看某一個模型基礎上得到最終結論;
多數情況下使用精确斷點,如果确實有非常強的理由證明應該使用模糊斷點,也可使用模糊斷點;
模型階數判斷上結合圖示進行,但帶有一定的主觀性,建議對比選擇;
模型假定分析時,圖示直觀上滿足即可,不太可能模型完美的滿足;
模型分析時有3種顯著性檢驗方式,選擇其中一種即可;
模型穩健性檢驗有很多種方式,通常選中一個或者兩個即可。
更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!