tft每日頭條

 > 科技

 > 計算樣本量要知道均值标準差

計算樣本量要知道均值标準差

科技 更新时间:2025-01-09 05:07:34

大家好,我們下面要講解的是從tcga數據庫上下載下來的數據的整理,目标是整理成這個樣子的數據:TCGAID和Esymbolid一一對應。如果大家忘記了數據如何下載了,以及我們為什麼這麼做,可以查看前面一期的推文。

分析:首先要知道gdc和medata文件包括什麼,它們之間的關系是:gdc裡面一個文件對應一個Esymbolid同時對應一個數據文件,與medata中的一個文件對應,同時對應一個TCGAID。最後通過文件名相同,可以将TCGAID和Esymbolid一一對應。同時将對應Esymbolid裡的每個樣本表達量寫入。下面進行具體分析!最後結果如下圖所示:

計算樣本量要知道均值标準差(TCGA數據整理一)1

上次我們講解了如何在TCGA上下載數據,并保存好,首先我們先打開文件夾,找到今天我們要用的數據,數據包括兩個文件,分别是gdc文件和medata文件,

計算樣本量要知道均值标準差(TCGA數據整理一)2

gdc文件包含什麼,medata文件包含什麼,我提前做好了幾張圖片,可以更清楚地顯示這些文件包含什麼。

計算樣本量要知道均值标準差(TCGA數據整理一)3

計算樣本量要知道均值标準差(TCGA數據整理一)4

為了整理好數據,第一步就是要将gdc壓縮包解壓到同名文件夾,

計算樣本量要知道均值标準差(TCGA數據整理一)5

如圖片所示,解壓完之後,我們可以看到gdc文件夾,裡面含有一個文件壓縮包。

計算樣本量要知道均值标準差(TCGA數據整理一)6

後面在files裡可看到,解壓後的包裡面就是含有樣本表達量的esymbolid的文件。

計算樣本量要知道均值标準差(TCGA數據整理一)7

我們需要把解壓後的gdc文件裡的含有壓縮包的這些文件裡的壓縮包全部解壓,然後按順序放至在一個文件夾下面,如果一個一個去點擊解壓的話,很慢很容易出錯,于是我們在這要用一個腳本,執行将含有樣本數據文件彙總到一起,進行一次性解壓,執行腳本,就需要一個應用程序告訴計算機怎麼執行腳本,所以這裡還要講解一下,如何安裝這個應用程序,具體操作:百度搜索,點擊active perl 直接安裝就行了。判斷是否安裝成功,點擊搜索框,搜索cmd,點擊命令提示符,輸入perl加空格加-v,按回車就能看到perl的版本号了。

計算樣本量要知道均值标準差(TCGA數據整理一)8

剛剛我們提過将gdc壓縮包解壓縮,得到了一個文件夾,這是将這個腳本複制過來,複制到這個文件夾裡。

計算樣本量要知道均值标準差(TCGA數據整理一)9

這個腳本的目的就是将解壓後的gdc文件夾裡的每個文件裡的壓縮包文件有序的放在一個files的文件夾裡,這個文件夾也是這個腳本創建的,方便我們一起解壓。具體操作:搜索cmd,點擊命令提示符,輸入cd加空格,加黏貼路徑,加Perl,加空格,加複制黏貼腳本名,加空格,加回車。

計算樣本量要知道均值标準差(TCGA數據整理一)10

腳本就開始運行了,等運行好了,就可以在解壓縮後的gdc文件夾裡看到一個files的文件夾,裡面包含了按順序排列所有的需要解壓的壓縮包的文件,然後按住CTRL,從第一個文件名點擊下滑至最後一個文件名,按右鍵,點擊解壓到當前文件夾,即files文件夾裡,這樣就将所有的壓縮包文件解壓到了這個文件夾裡了。

計算樣本量要知道均值标準差(TCGA數據整理一)11

結束語:大家需要聯系的腳本可以在後台留言,我們發給您,如果有什麼疑問,也可以在後台留言,我們看到的話,會及時回複的。如果覺得這篇文章對你有用的話,希望你能點贊,分享,讓更多的人都能看見,謝謝。

,

更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!

查看全部

相关科技资讯推荐

热门科技资讯推荐

网友关注

Copyright 2023-2025 - www.tftnews.com All Rights Reserved