Monday, July 18, 2011

Extensive genomic and transcriptional diversity identified through massively parallel DNA and RNA sequencing of eighteen Korean individuals

GMI에서 나온 논문이다. 완전 부럽다. GMI이고 싶을 뿐이다. 뭐 상황이 그렇지 않으니 할 수 없는거고.. 
여튼 음.. 힘은 빠진다만.. RNA-Seq 분석에 추가할 사항들과 분석 방법들을 뽑아내고자 선택한 논문. 내가 여기서 봐야 할 것들은 SNP detection, indel detection, annotated SNP, alternative splicing, gene fusion에 관한 것. 정확하게 그것들을 어떻게 수행했는지 파악하는데 목적을 둔다.

이 논문에서 10명의 사람의 whole genome sequencing을 하였고 추가적으로 8명의 사람의 exome sequencing을 하였다. 그리고 이 18명의 사람 중 17명의 사람의 transcriptome sequencing을 하였다.
대략적인 개요는 아래 그림과 같다.

SNP and short indel identification
10명에 대한 whole genome sequencing 정보는 아래 표와 같다.

solexa read의 경우 GSNAP으로 SOLID 데이터의 경우 Bioscope로 hg18에 mapping.
SNP detection을 위한 방법은 예전 논문을 따른단다. 사실 이 논문을 제대로 본적이 없어서 여기서 정리한다. 아래 reference를 참조
Rare and population-specific variants
Large deletions with breakpoints
Transcriptome sequencing analysis
Comparison of DNA and RNA sequence
New sequences from de novo assembly



---------------------------checklist------------------------------
1.Sequence Alignment  GSNAP을 이용해서 align. 5% mismatch까지 허용해서 highest scoring alignment를 선택한다. 200bp 까지의 read는 GSNAP 사용, 그 이상은 GMAP을 사용하길 권장. 자세한 GSNAP의 내용은 여기 참조.
2.SNP detection : korean genome 논문에 보면 Alpheus software system으로 SNPs랑 indel을 detection 했다고 나오는데.. 아무래도 이거 상용인거 같다는 생각이 든다. 여튼 SNPs call이 된 것들을
autosome의 SNP의 경우 4개 이상의 unique read가 있고, 20% or higher aligned reads 그러니까 mapping된 read 중 SNP으로 나온 read의 비율이 20%로 이상이 될때 이를 SNP로 보고 그 비율이 90%가 넘어가면 이를 homozygous SNP라고 여긴다.
3.indel detection
3.annotation of SNP
4.alternative splicing
5.gene fusion

No comments:

Post a Comment