幾乎現在的套路性文章在做完差異表達分析後,都會去做GO和KEGG富集分析。那麼GO和KEGG都是什麼?富集分析又是個什麼東西呢?
在我們進行差異表達分析的時候,我們會得到很多的差異表達基因。這些基因如果隻是按照基因名放到哪裡的話,我們很難找到一個規律說這些有基因之間有什麼關系的。例如下圖,我們把這些差異基因平鋪來了之後,就是這麼一個情況。
高通量的數據的分析,可以讓我們得到很多候選的結果。但是如果隻是把結果這樣的平鋪開的話,反正不利于我們去發現事情的本質。所以為了更情況的看清楚這些基因的功能,我們就使用了富集分析。我們可以把富集分析理解為在把很零零碎碎的東西,通過一個整體來反應出來,類似于從微觀到宏觀的變化。
利用富集分析,我們就可以把很多看着雜亂的差異基因總結出一個比較整體反應事件發生的概述性的句子。例如:TP53信号通路和胃癌的發生有關。而不是說BAX、BID、ABL1、ATM、BCL2、BOK、CDKN1A這7個基因和胃癌的發生有關系。
就算沒有做過富集分析,但是也肯定見過公司或者一些文章裡面寫到他們做了GO分析和KEGG pathway分析。那麼這兩個東西到底是什麼?
對于每個基因而言,其基本的功能基于他們的蛋白結構域以及研究的文獻已經可以大緻的知道一個基因具有什麼樣子的功能了。GO和KEGG就是基于不同的分類思想而儲存的基因相關功能的數據庫。
通過上面的解釋,我們知道,其實GO和KEGG是兩個數據庫,裡面有每個基因相關的功能信息,而富集分析就是一個把這些功能進行進行整合計算的算法。
GO和KEGG是基礎,而富集是過程,最後得到的結果就是整合後的宏觀的結果。
對于GO和KEGG基本上就是這些。但是對于富集分析,還是有不同的算法的。有時間我們就來簡單的介紹一下基本的一些富集分析的算法。
,更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!