Thursday, July 28, 2011

The Sanger FASTQ file format for sequences with quality scores, and the Solexa/Illumina FASTQ variants

FASTQ 형식이 여러가지다. bowtie를 돌릴 때도 --phred33-quals, --phred64-quals, --solexa-quals, --solexa1.3-quals 네가지를 인자로 받는다(default 가 --phred33-quals이고, solexa1.3과 phred64는 동일하다). 이 논문을 전에 본적이 있는데 대충 봐서.. 기억이 안나는 관계로 확실하게 하기 위해 다시 보기로 한다.


<PHRED scores and the qual format>
PHRED 라는 프로그램이 있는데 이는 DNA sequencing trace file을 input으로 받아서 base calling을 하고 거기에 대한 quality를 할당한다. 
여기서 Pe는 estimated probability of error. 이를 PHRED는 QUAL format 파일로 저장하는데 이는 fasta와 비슷한 형식으로 아래와 같다.
이 PHRED score는 사실상 base quality를 표현하는데 표준이 되었다. 이는 SAM, ACE, FASTQ에서 사용된다.


<Sanger FASTQ format>
FASTQ format은 sanger 센터에서 만들어 졌단다. 뭐 파일 형식이 어떻고를 떠나서 여기서는 어떻게 quality score가 string으로 encode 되는지에 초점을 맞춘다. 초창기 FASTQ format을 사용했던 Sanger capillary sequencing은 바로 위의 PHRED quality score를 따른다. 그리고 나서 이 score를 single character로 변환해서 파일에 담는데 이때 charater로 ASCII 33-126 번까지의 문자를 이용한다. 곧 표현 가능한 quality score가 0-93. OBF project (Open Bioinformatics Foundation)은 이 format의 이름을  fastq-sanger 라 한다.


<Solexa FASTQ format>
2004년에 Solexa Inc. 에서 소개한 FASTQ format. solexa quality score는 아래와 같다.
phred quality와 solexa quality 간의 변환 공식은 다음과 같다.
solexa score는 -5부터 값을 갖을수 있기에 64를 offset으로 정해서 ASCII 59-126 까지를 쓰는 것으로 한다. OBF projects에서는 이 format을 'fastq-solexa' 라고 한다.


<Illumina 1.3+ FASTQ format>
solexa가 Illumina로 팔리고 나서 GA(Genome Analyzer Piepine) 버젼 1.3 이후로는 solexa score 대신에 phred score를 쓰기 시작한다. 그러나 다른 점이 64를 offset으로 한다는 것. phred score로 범위가 0-62 값을 갖을 수 있으나 현재는 0-40 까지의 값만 사용한다.OBF project에서는 이를 'fastq-illumina'라고 한다.

No comments:

Post a Comment