估計缺失值常用方法
1、均值插補。如果數據是有規律的(遞增或遞減,定序的),用均數補全,如果數據是随機的,用衆數補全。
2、最小二乘法補全,這是基于最小二乘法的原理,補全數據,使補全後的數據整體的離差平方和最小,這一般是方差分析中處理缺失值的一般方法。
3、基于REML的方法估計,REML混線性模型本身可以處理非平衡數據,它也可以作為估計缺失值的一種,它估計出來的缺失值比最小二乘法要準确,應用比較廣泛。
處理不平衡數據的方法
✦ unbalanced anova,這可以對不平衡數據進行方差分析
✦ REML的混線性模型,它可以處理不平衡數據,應用比較廣泛
數據案例
數據是3個品種在3個區組的品種表現,其中第3個區組的第3個品種觀測值缺失,分析3個品種間是否存在差異。數據如下:
分析方法一:方差分析(可估計缺失值)
數據處理:*代替缺失值
分析方法:GenStat ANOVA
分析結果如下:
特點:“*”代替缺失值後,GenStat可估算出缺失值數值,并進行方差分析
分析方法 2:REML分析(可估計缺失值)
數據處理1:删除缺失值
分析方法:GenStat Linear Mixed Models
分析結果如下:
數據處理2:”*”代替缺失值
除上述分析結果外,還可估算缺失值,
結果如下:
特點:删除缺失值或者”*”代替缺失值,REML分析都可以很好地比較品種間的差異。但是”*”代替缺失值時,可很好地估算出缺失值,有利于進行其他分析。
分析方法 3:GenStat unbalanced ANOVA
數據處理:删除缺失值
分析方法:GenStat unbalanced ANOVA
分析結果如下:
特點:數據為非平衡數據,删除缺失值後,方差分析報錯将會出錯,所以采用GenStat unbalanced anova 分析。因為缺失值已删除,所以就不存在缺失值估計了。
結論
※ 如果想要估計缺失值,用REML混線性模型進行估計,這個比方差分析的最小二乘法估計的更加準确。
※ 如果想要分析不平衡數據,用REML的混線性模型分析,這個比GenStat的unbalanced anova模型更高級,适用範圍也更廣泛,更重要的是它可以估算BLUE值和BLUP值。
,更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!