生信数据格式

FASTQ

通过测序,一般拿到的数据是.fastq或者.fq的原始数据格式,该数据包含所有的reads信息,其中一条reads主要包含以下4行信息:

  • 第一行主要储存序列测序时的坐标等信息,可用于区分来源;

  • 第二行是测序得到的序列信息,一般用ATCGN来表示,其中N表示荧光信号干扰无法判断到底是哪个碱基;

  • 第三行以“+”开始,可以储存一些附加信息,一般是空的;

  • 第四行储存的是质量信息,与第2行的碱基序列是一一对应的,其中的每一个符号对应的ASCII值成为phred值,可以简单理解为对应位置碱基的质量值,越大说明测序的质量越好。不同的版本对应的不同。

fastq.png

SAM