tft每日頭條

 > 生活

 > go語言數據分析展示

go語言數據分析展示

生活 更新时间:2024-11-30 08:29:01

幾乎現在的套路性文章在做完差異表達分析後,都會去做GO和KEGG富集分析。那麼GO和KEGG都是什麼?富集分析又是個什麼東西呢?

1 為什麼做富集分析?

在我們進行差異表達分析的時候,我們會得到很多的差異表達基因。這些基因如果隻是按照基因名放到哪裡的話,我們很難找到一個規律說這些有基因之間有什麼關系的。例如下圖,我們把這些差異基因平鋪來了之後,就是這麼一個情況。

go語言數據分析展示(GO分析和KEGG分析都是啥)1

高通量的數據的分析,可以讓我們得到很多候選的結果。但是如果隻是把結果這樣的平鋪開的話,反正不利于我們去發現事情的本質。所以為了更情況的看清楚這些基因的功能,我們就使用了富集分析。我們可以把富集分析理解為在把很零零碎碎的東西,通過一個整體來反應出來,類似于從微觀到宏觀的變化。

利用富集分析,我們就可以把很多看着雜亂的差異基因總結出一個比較整體反應事件發生的概述性的句子。例如:TP53信号通路和胃癌的發生有關。而不是說BAX、BID、ABL1、ATM、BCL2、BOK、CDKN1A這7個基因和胃癌的發生有關系。

go語言數據分析展示(GO分析和KEGG分析都是啥)2

2 GO和KEGG是什麼?

就算沒有做過富集分析,但是也肯定見過公司或者一些文章裡面寫到他們做了GO分析和KEGG pathway分析。那麼這兩個東西到底是什麼?

對于每個基因而言,其基本的功能基于他們的蛋白結構域以及研究的文獻已經可以大緻的知道一個基因具有什麼樣子的功能了。GO和KEGG就是基于不同的分類思想而儲存的基因相關功能的數據庫。

  • GO數據庫,全稱是Gene Ontology(基因本體),他們把基因的功能分成了三個部分分别是:細胞組分(cellular component, CC)、分子功能(molecular function, MF)生物過程(biological process, BP)。利用GO數據庫,我們就可以得到我們的目标基因在CC, MF和BP三個層面上,主要和什麼有關。例如: SRSF1這個基因的在GO數據庫的注釋就有:

go語言數據分析展示(GO分析和KEGG分析都是啥)3

  • KEGG數據庫:除了對基因本身功能的注釋,我們也知道基因會參與人體的各個通路,基于人體通路而形成的數據庫就是通路相關的數據庫。而KEGG就是通路相關的數據庫的一種。其實通路數據庫有很多,類似于wikipathway,reactome都是相關的通路數據庫。隻是因為KEGG比較被人熟知,所以基本上都做這個分析的。例如: SRSF1這個基因的在通路數據庫的注釋就有:

go語言數據分析展示(GO分析和KEGG分析都是啥)4

3 GO、KEGG和富集分析有什麼關系呢?

通過上面的解釋,我們知道,其實GO和KEGG是兩個數據庫,裡面有每個基因相關的功能信息,而富集分析就是一個把這些功能進行進行整合計算的算法。

GO和KEGG是基礎,而富集是過程,最後得到的結果就是整合後的宏觀的結果。

go語言數據分析展示(GO分析和KEGG分析都是啥)5

對于GO和KEGG基本上就是這些。但是對于富集分析,還是有不同的算法的。有時間我們就來簡單的介紹一下基本的一些富集分析的算法。

,

更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!

查看全部

相关生活资讯推荐

热门生活资讯推荐

网友关注

Copyright 2023-2024 - www.tftnews.com All Rights Reserved