tft每日頭條

 > 科技

 > 做生信數據分析包括哪些

做生信數據分析包括哪些

科技 更新时间:2024-09-07 04:13:57

在做生物信息的過程中,經常需要進行各種文件格式。每一種生物軟件都有固定的文件格式要求。因此,需要非常每一種數據的文件格式,從某種意義上來說,生物信息分析的過程就是進行各種文件格式的轉換過程。例如當前很多分析都可以概括為從fastq到bam,從bam到vcf的過程。

fasta文件格式

FASTA文件主要用于存儲生物的序列文件,例如基因組,基因的核酸序列以及氨基酸等,是最常見的生物序列格式,一般以擴展名fa,fasta,fna等。fasta文件中,第一行是由大于号">"開頭的任意文字說明,用于序列标記,為了保證後續分析軟件能夠區分每條序列,單個序列的标識必須是唯一的,序列ID部分可以包含注釋信息。從第二行開始為序列本身,隻允許使用既定的核苷酸或氨基酸編碼符号。序列部分可以在一行,也可以分成多行。

>gi|556503834|ref|NC_000913.3|:190-255 Escherichia coli str. K-12 substr. MG1655, complete genome
ATGAAACGCATTAGCACCACCATTACCACCACCATCACCATTACCACAGGTAACGGTGCGGGCTGA
>gi|556503834|ref|NC_000913.3|:337-2799 Escherichia coli str. K-12 substr. MG1655, complete genome
ATGCGAGTGTTGAAGTTCGGCGGTACATCAGTGGCAAATGCAGAACGTTTTCTGCGTGTTGCCGATATTC
TGGAAAGCAATGCCAGGCAGGGGCAGGTGGCCACCGTCCTCTCTGCCCCCGCCAAAATCACCAACCACCT
GGTGGCGATGATTGAAAAAACCATTAGCGGCCAGGATGCTTTACCCAATATCAGCGATGCCGAACGTATT
TTTGCCGAACTTTTGACGGGACTCGCCGCCGCCCAGCCGGGGTTCCCGCTGGCGCAATTGAAAACTTTCG
TCGATCAGGAATTTGCCCAAATAAAACATGTCCTGCATGGCATTAGTTTGTTGGGGCAGTGCCCGGATAG

fastq文件格式

fastq文件格式是用來存儲測序文件的,它是含有quality的fasta文件。

@DJB775P1:248:D0MDGACXX:7:1202:12362:49613
TGCTTACTCTGCGTTGATACCACTGCTTAGATCGGAAGAGCACACGTCTGAA

JJJJJIIJJJJJJHIHHHGHFFFFFFCEEEEEDBD?DDDDDDBDDDABDDCA
@DJB775P1:248:D0MDGACXX:7:1202:12782:49716
CTCTGCGTTGATACCACTGCTTACTCTGCGTTGATACCACTGCTTAGATCGG

IIIIIIIIIIIIIIIHHHHHHFFFFFFEECCCCBCECCCCCCCCCCCCCCCC
  • 第一行:以‘@’開頭,是這一條read的名字,這個字符串是根據測序時的狀态信息轉換過來的,中間不會有空格,它是每一條read的唯一标識符,同一份FASTQ文件中不會重複出現,甚至不同的FASTQ文件裡也不會有重複;

  • 第二行:測序read的序列,由A,C,G,T和N這五種字母構成,這也是我們真正關心的DNA序列,N代表的是測序時那些無法被識别出來的堿基;

  • 第三行:以‘ ’開頭,在舊版的FASTQ文件中會直接重複第一行的信息,但現在一般什麼也不加(節省存儲空間);
    第四行:測序read的質量值,這個和第二行的堿基信息一樣重要,它描述的是每個測序堿基的可靠程度,用ASCII碼表示。

質量值體系

做生信數據分析包括哪些(生信分析必須了解的4種文件格式)1

做生信數據分析包括哪些(生信分析必須了解的4種文件格式)2

從表中可以看到下限有33和64兩個值,我們把加33的的質量值體系稱之為Phred33,加64的稱之為Phred64(Solexa的除外,它叫Selexa64)。不過,現在一般都是使用Phred33這個體系,而且33也恰好是ASCII的第一個可見字符('!')

sam格式介紹

sam文件主要用來存儲短序列比對的結尾,即将測序數據定位到基因組上的表示形式。

做生信數據分析包括哪些(生信分析必須了解的4種文件格式)3

第一列:是reads ID
第二列:是flag标記的總和
第三列:比對到參考序列上的染色體号。
第四列:為在參考序列上的位置
第五列:比對的質量值,MAPQ
第六列:代表比對結果的CIGAR字符串
第七列:mate比對到的染色體号,若是沒有mate,則是*
第八列:比對到參考序列上的第一個堿基位置
第九列:Template的長度,
第十列:為read的序列
第十一列:為ASCII碼格式的序列質量;

VCF文件格式介紹

VCF是Variant Call Format的簡稱,是一種定義的專門用于存儲基因序列突變信息的文本格式。在生物信息分析中會大量用到VCF格式。例如基因組中的單堿基突變,SNP, 插入/缺失INDEL, 拷貝數變異CNV,和結構變異SV等,都是利用VCF格式來存儲的。将其存儲為二進制格式就是BCF。

做生信數據分析包括哪些(生信分析必須了解的4種文件格式)4

1.CHROM [chromosome]: 染色體名稱,
2.POS [position]: 參考基因組突變堿基位置,如果是INDEL,位置是INDEL的第一個堿基位置。
3.ID [identifier]: 突變的名稱,
4.REF [reference base(s)]:參考染色體的堿基
5.ALT [alternate base(s)]: 與參考序列比較,發生突變的堿基,
6.QUAL [quality]: Phred标準下的質量值
7.FILTER [filter status]:使用其它的方法進行過濾後得到的過濾結果
8.INFO

文件格式介紹:https://genome.ucsc.edu/FAQ/FAQformat.html#format1


,

更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!

查看全部

相关科技资讯推荐

热门科技资讯推荐

网友关注

Copyright 2023-2024 - www.tftnews.com All Rights Reserved