tft每日頭條

 > 圖文

 > 生物信息學需要生物統計的基礎嗎

生物信息學需要生物統計的基礎嗎

圖文 更新时间:2024-12-12 19:37:09

生物信息學需要生物統計的基礎嗎?單因素方差分析?多因素方差分析?協方差分析?,我來為大家講解一下關于生物信息學需要生物統計的基礎嗎?跟着小編一起來看一看吧!

生物信息學需要生物統計的基礎嗎(生物信息學中常用的統計學知識)1

生物信息學需要生物統計的基礎嗎

單因素方差分析?多因素方差分析?協方差分析?

單樣本t檢驗?配對樣本t檢驗?獨立樣本t檢驗?

皮爾遜相關性檢驗?斯皮爾曼相關性檢驗?肯德爾相關性檢驗?

……

統計、分組,傻傻分不清楚!

導讀:

每次做統計,都得找“谷哥”、“度娘”;不管學多久,就是記不住。但是,統計學是我們通向真理的大門,現代生信人不能缺乏基本的數理統計基礎。小編在本文将簡要回顧目前生物信息學中常用的統計學知識。

假設檢驗

假設檢驗(hypothesis test)又稱顯著性檢驗(significance test),就是根據總體的理論分布和小概率原理,對未知或不完全知道的總體提出兩種彼此對立的假設,然後由樣本的實際結果,經過一定的計算,作出在一定概率意義上應該接受的那種假設的推斷。

假設檢驗的一般步驟:提出原假設H0和備擇假設H1,确定适當的檢驗統計量和規定顯著性水平α (一般為0.05),然後計算檢驗統計量的值,查出臨界值,确定拒絕域和接受域,最後作出統計決策包括參數假設檢驗和非參數假設檢驗,計算出抽樣的P值,如果P值很小(一般阈值為0.01或0.05),則拒絕H0接受H1。

參數檢驗:指對參數平均值、方差進行的統計檢驗。參數檢驗是推斷統計的重要組成部分。當總體分布已知(如總體為正态分布),根據樣本數據對總體分布的統計參數進行推斷。

非參數檢驗:是在總體方差未知或知道甚少的情況下,利用樣本數據對總體分布形态等進行推斷的方法。由于非參數檢驗方法在推斷過程中不涉及有關總體分布的參數,因而得名為“非參數”檢驗。

方差分析

方差分析是一種特殊的假設檢驗,是判斷多組數據之間平均數差異是否顯著的。

  • 單因素方差分析:某些研究中,需要研究的因素隻有一個,這一因素可以有幾個不同的水平,我們的目标就是要看看那這些水平的影響是否相同。為了在有随機誤差的情況下進行比較,各水平都應有一定數量的重複。一個因素,一個因變量。

  • 多因素方差分析:實驗研究中,受試對象可能同時接受多個不同的處理因素。多個因素,一個因變量。

  • 協方差分析:研究方差分析模型與回歸模型的一種線性模型。有多個變量同時對因變量(y)産生影響,我們想分析其中的幾個對因變量的影響,就需要排除另外變量造成的影響。協方差分析就是把另外的變量作為協變量(covariate,連續變量),其他的作為自變量(independent,分類變量);把協變量轉換成相等的(排除其影響),看自變量對因變量是否還有顯著影響。

    相關性分析

    相關性分析是研究現象之間是否存在某種依存關系,對具體有依存關系的現象探讨相關方向及相關程度。

    皮爾森相關性分析:是一種參數方法,是測量線性相關變量之間關系程度的最廣泛使用的相關統計量。适用條件為所有變量都是連續型變量、觀察值匹配、數據在變量之間需要匹配對應、待檢驗的樣本分布接近滿足正态分布、無異常值、兩個變量之間是直線關系。

    斯皮爾曼相關性分析:通常也叫斯皮爾曼秩相關系數。“秩”,可以理解成就是一種順序或者排序,那麼它就是根據原始數據的排序位置進行求解。它是一種非參數方法,對數據分布沒有要求,用于測量兩個變量之間的關聯程度。

    肯德爾相關分析:是一個非參數檢驗,用于衡量兩個變量之間依賴的強度,對數據分布沒有要求,需要滿足的假定和斯皮爾曼秩相關系數相同。

    适用性來說,肯德爾>斯皮爾曼>皮爾森,在考察兩兩變量間相關關系時,應了解兩變量的變量類型以及是否有正态性,然後決定使用哪個系數。比如,當X1和X2都是連續性數值變量,如果數據具有正态性,此時首選肯德爾相關系數,如果數據不服從正态分布,此時可選擇斯皮爾曼和肯德爾系數。

    回歸分析

    回歸分析(regression analysis)指的是确定兩種或兩種以上變量間相互依賴的定量關系的一種統計分析方法。回歸分析按照涉及的變量的多少,分為一元回歸和多元回歸分析;按照因變量的多少,可分為簡單回歸分析和多重回歸分析;按照自變量和因變量之間的關系類型,可分為線性回歸分析和非線性回歸分析。

    聚類分析

    聚類分析是根據在數據中發現的描述對象及其關系的信息,将數據對象分組。目的是,組内的對象相互之間是相似的(相關的),而不同組中的對象是不同的(不相關的)。組内相似性越大,組間差距越大,說明聚類效果越好。

    降維分析

    我們在研究某些問題時,需要處理帶有很多變量的數據。變量和數據很多,但是可能存在噪音和冗餘,因為這些變量中有些是相關的,那麼就可以從相關的變量中選擇一個,或者将幾個變量綜合為一個變量,作為代表。用少數變量來代表所有的變量,用來解釋所要研究的問題,就能從化繁為簡,抓住關鍵,這也就是降維的思想。目前生物信息常用的三種方法為PCA、LDA和t-SNE。

    生存分析

    生存分析是對生存資料的分析,是研究生存時間的分布規律,以及生存時間和相關因素之間關系的一種統計分析方法。

    生存分析中我們不僅關心是否發生結局,還會關心結局發生的時間,是否發生結局及時間這兩個數據共同組成了生存分析的因變量(Y)。

    對于結局,有兩種情況:發生和未發生。一般把發生結局事件标為1,未發生結局事件标為0;未發生結局事件的數據又稱為删失數據或截尾數據。

    對于時間,當發生結局時,時間一列應是結局發生的時間,而未發生結局時,時間就是最後一次随訪成功的時間。

    生存分析使用的方法:

    Kaplan-Meier:根據生存時間分布,估計生存率以及中位生存時間,以生存曲線方式展示,從而分析生存特征,一般用Kaplan-Meier法,還有壽命法。

    Log-rank:通過比較兩組或者多組之間的的生存曲線,一般是生存率及其标準誤差,從而研究之間的差異,一般用log rank檢驗。

    Cox proportional hazards regression:用Cox風險比例模型來分析變量對生存的影響,可以兩個及兩個以上的因素,很常用。

    所以一般做生存分析,可以用KM(Kaplan-Meier)方法估計生存率,做生存曲線,然後可以根據分組檢驗一下多組間生存曲線是否有顯著的差異,最後用Cox風險比例模型來研究下某個因素對生存的影響。

    敲黑闆劃重點—舉例總結

    “紙上得來終覺淺”,大家還是要多加練習與應用~

    更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!

    查看全部
  • 相关圖文资讯推荐

    热门圖文资讯推荐

    网友关注

    Copyright 2023-2024 - www.tftnews.com All Rights Reserved