Thursday, July 28, 2011

The Sanger FASTQ file format for sequences with quality scores, and the Solexa/Illumina FASTQ variants

FASTQ 형식이 여러가지다. bowtie를 돌릴 때도 --phred33-quals, --phred64-quals, --solexa-quals, --solexa1.3-quals 네가지를 인자로 받는다(default 가 --phred33-quals이고, solexa1.3과 phred64는 동일하다). 이 논문을 전에 본적이 있는데 대충 봐서.. 기억이 안나는 관계로 확실하게 하기 위해 다시 보기로 한다.


<PHRED scores and the qual format>
PHRED 라는 프로그램이 있는데 이는 DNA sequencing trace file을 input으로 받아서 base calling을 하고 거기에 대한 quality를 할당한다. 
여기서 Pe는 estimated probability of error. 이를 PHRED는 QUAL format 파일로 저장하는데 이는 fasta와 비슷한 형식으로 아래와 같다.
이 PHRED score는 사실상 base quality를 표현하는데 표준이 되었다. 이는 SAM, ACE, FASTQ에서 사용된다.


<Sanger FASTQ format>
FASTQ format은 sanger 센터에서 만들어 졌단다. 뭐 파일 형식이 어떻고를 떠나서 여기서는 어떻게 quality score가 string으로 encode 되는지에 초점을 맞춘다. 초창기 FASTQ format을 사용했던 Sanger capillary sequencing은 바로 위의 PHRED quality score를 따른다. 그리고 나서 이 score를 single character로 변환해서 파일에 담는데 이때 charater로 ASCII 33-126 번까지의 문자를 이용한다. 곧 표현 가능한 quality score가 0-93. OBF project (Open Bioinformatics Foundation)은 이 format의 이름을  fastq-sanger 라 한다.


<Solexa FASTQ format>
2004년에 Solexa Inc. 에서 소개한 FASTQ format. solexa quality score는 아래와 같다.
phred quality와 solexa quality 간의 변환 공식은 다음과 같다.
solexa score는 -5부터 값을 갖을수 있기에 64를 offset으로 정해서 ASCII 59-126 까지를 쓰는 것으로 한다. OBF projects에서는 이 format을 'fastq-solexa' 라고 한다.


<Illumina 1.3+ FASTQ format>
solexa가 Illumina로 팔리고 나서 GA(Genome Analyzer Piepine) 버젼 1.3 이후로는 solexa score 대신에 phred score를 쓰기 시작한다. 그러나 다른 점이 64를 offset으로 한다는 것. phred score로 범위가 0-62 값을 갖을 수 있으나 현재는 0-40 까지의 값만 사용한다.OBF project에서는 이를 'fastq-illumina'라고 한다.

Tuesday, July 19, 2011

Fast and SNP-tolerant detection of complex variants and splicing in short reads

GSNAP 논문. 아.. BWA-SW도 봐야 하는데.. 뭐 읽어도 읽어도 끝도 없고 모르는게 너무 많다는 생각밖에 안들고.. 에라이..


요즘 short read aligner는 몇가지 고려해야 할 사항이 있는데 speedsequence variant 그리고 splicing event. speed는 suffix tree와 Burrows-Wheeler Transform을 활용한 방법들이 많이 나왔다. sequence variant의 경우 SNP이 1000bp 당 하나가 있고 또한 human polymorphisms의 7~8%가 indel이며 이 coding indel 중 25%는 3nt보다 길단다. 이 같은 sequence variant는 read가 길어짐에 따라 더 심각해진다. splicing event를 찾는 방법으로 exon-exon을 이어서 인공적인 sequence를 만들어서 mapping 하는것이 한 방법이 될 수 있다. 아니면 tophat 처럼 exon 주변의 splice site junction을 찾는것. 그러나 이것들은 exon 정보를 미리 알고 있거나 아니면 expression 이 많이 일어나는 exon에만 적용이 가능하다는 한계점이 있다.
뭐 이와 같은 문제점을 고려해서 만든것이 GSNAP(Genomic Short-read Nucleotide Alignment Program). 아래 그림이 GSNAP이 찾을 수 있는 complex variant 의 예. 또한 GSNAP은 single reference sequence 뿐 아니라 dbSNP 같은걸 포함하는 reference, 여기서 표현하는 것을 빌리자면 'space' reference를 이용할 수 있다고 한다.
Overview
alignment는 search problem과 같다고 보고 searching은 generating, filtering, verifying을 포함한다. efficiency는 generating과 filtering에 의존적이다. MAQ과 같은 기존의 프로그램은 read를 먼저 pre-processing 하고 나서 이 read index를 genome에 대해 generating과 filtering 해서 candidate genomic region을 찾는다. genome이 큰 경우에는 genome을 먼저 preprocessing 하는 것이 보다 효율적이다.

Monday, July 18, 2011

Extensive genomic and transcriptional diversity identified through massively parallel DNA and RNA sequencing of eighteen Korean individuals

GMI에서 나온 논문이다. 완전 부럽다. GMI이고 싶을 뿐이다. 뭐 상황이 그렇지 않으니 할 수 없는거고.. 
여튼 음.. 힘은 빠진다만.. RNA-Seq 분석에 추가할 사항들과 분석 방법들을 뽑아내고자 선택한 논문. 내가 여기서 봐야 할 것들은 SNP detection, indel detection, annotated SNP, alternative splicing, gene fusion에 관한 것. 정확하게 그것들을 어떻게 수행했는지 파악하는데 목적을 둔다.

이 논문에서 10명의 사람의 whole genome sequencing을 하였고 추가적으로 8명의 사람의 exome sequencing을 하였다. 그리고 이 18명의 사람 중 17명의 사람의 transcriptome sequencing을 하였다.
대략적인 개요는 아래 그림과 같다.

SNP and short indel identification
10명에 대한 whole genome sequencing 정보는 아래 표와 같다.

solexa read의 경우 GSNAP으로 SOLID 데이터의 경우 Bioscope로 hg18에 mapping.
SNP detection을 위한 방법은 예전 논문을 따른단다. 사실 이 논문을 제대로 본적이 없어서 여기서 정리한다. 아래 reference를 참조
Rare and population-specific variants
Large deletions with breakpoints
Transcriptome sequencing analysis
Comparison of DNA and RNA sequence
New sequences from de novo assembly



---------------------------checklist------------------------------
1.Sequence Alignment  GSNAP을 이용해서 align. 5% mismatch까지 허용해서 highest scoring alignment를 선택한다. 200bp 까지의 read는 GSNAP 사용, 그 이상은 GMAP을 사용하길 권장. 자세한 GSNAP의 내용은 여기 참조.
2.SNP detection : korean genome 논문에 보면 Alpheus software system으로 SNPs랑 indel을 detection 했다고 나오는데.. 아무래도 이거 상용인거 같다는 생각이 든다. 여튼 SNPs call이 된 것들을
autosome의 SNP의 경우 4개 이상의 unique read가 있고, 20% or higher aligned reads 그러니까 mapping된 read 중 SNP으로 나온 read의 비율이 20%로 이상이 될때 이를 SNP로 보고 그 비율이 90%가 넘어가면 이를 homozygous SNP라고 여긴다.
3.indel detection
3.annotation of SNP
4.alternative splicing
5.gene fusion

Sunday, July 17, 2011

Optimization of de novo transcriptome assembly from NGS data

제목이 상당히 인상적인라서 함봐야 할거 같단 생각에 선택한 논문.
요즘 NGS data assemblers는 대부분 De bruijn graph 방식으로 assembly 하는데 선택 옵션 중의 하나가 k-mer size. 과연 어떠한 k-mer size를 정해야 하는가에 대해 고민하게 된다.


velvet의 경우 1.palindrome을 피하기 위해 홀수로 2.당연한 것이지만 read length보다는 작게해야 한다고 한다. 이 k-mer의 size는 specificity와 sensitivity의 trade-off 라고, 즉 k-mer의 길이가 길어지면 specificity가 높아지는 반면 sensitivity가 떨어진다. 이들이 경험적인 해결책으로 내놓은 것은 다음 공식을 따른다.
Ck = C*(L-k+1)/L
여기서 C는 standard coverage, Ck는 k-mer coverage, L은 read length, k는 k-mer size로 경험상 Ck가 최소 10은 되야 하고 20이 넘어가면 이는 "wasting" coverage가 된다고 한다(위 공식에서 풀어서 생각하면 일반적인 coverage를 구하기 위해 read count * read length / genome size를 하는데 read length 대신에 read에서 나올 수 있는 k-mer의 수를 곱해준 것으로 각 base에서 몇 개의 k-mer가 cover되는가, 즉 말그대로 k-mer coverage를 구하게 되는 것이다). 


abstract를 보자면..
de novo assembly of transcriptome의 최적화를 위해 여기서는 두가지 방법을 제시한다. 한가지가 Multiple-k method, 다른 한가지가 STM(Scaffolding using Translation Mapping) method. Multiple-k method는 말그대로 k-mer size 다양하게 해서 assembly 한다는 것이고 STM method는 가장 유사하다고 여겨지는 이용가능한 reference proteome을 이용해서 같은 protein에 mapping되는 contig들을 scaffolding 하는것. 이 두 방법을 사용해서 catfish, 매기에 transcriptome 을 분석하였단다.


음.. 굉장히 별거 아닌거 같이 보인다.. k-mer 의 길이를 다양하게 하는 것은 velvet등의 assembler에서의 권장 사항이며 reference based assembly 역시 velvet에서 columbus라는 모듈로 나온것인데.. 뭐 끝까지 함 봐보자.


intro가 상당히 긴데 기억할 만한 것은 higher expressed 되는 transcript의 경우 k-mer 길이를 길게 함으로 해서 더욱 긴 contig를 만들수 있는데 반해 poorly expressed 되는 transcript경우에는 짧은 k-mer size가 났단다. 결국 이 k-mer의 길이의 선택은 어느것에 초점을 맞추느냐인 주관적인 문제라고. 음.. abstract 만 보고 reference based assembly에 대해 뻔하고 했는데.. 여기서도 다양한 선례를 보인다. 다만 선례들은 close relative genome을 이용했으므로 제한적이라는 것. genome을 사용했다는 건 reference로 사용한 genome의 evolutionary distance가  멀수록 nucleotide difference가 클 수 밖에 없으므로. 이 문제의 해결 방법으로 amino acid sequence를 이용한다는 것.


아하. 이 논문의 차별성은 보통은 다양한 k-mer 길이를 이용하여 테스트를 해보기는 하나 결국은 하나의 k-mer size를 정해서 분석하는데 반해 이 논문은 다양한 k-mer에서 나온 결과를 전부 이용한 다는 것이며, 보통 reference based assembly에서 genomics sequence가 사용되는데 반해 여기서는 amino acide sequence를 사용한다는 것.


아래 두 표에서 보듯이 k-mer size를 늘려가면 확실히 sensitivity는 줄어드나(table1에서 reference coverage 감소) contig의 average coverage는 늘어남을 알 수 있다(table2의 rpkm 값 증가). 여기서 집고 넘어가는 것 중에 하나가 k-mer size가 늘어날 수록 rpkm의 mean은 커지고 동시에 SD도 커진다는 것. 즉 k-mer size가 커지면 적은 수의 다양한 expression level을 보이는 transcript의 assembly가 된다는것. 곧 k-mer size마다 assembly 결과 특징이 다르다.
아래표는 모기의 trascriptome 데이터 가지고 evaluation을 해본 것이다.
그래서 이 논문에서는 다양한 k-mer size를 이용하는 두가지 방법을 제시. 하나가 subtractive Multiple-k 와 additive Multiple-k.
subtractive Multiple-k : 큰 k-mer size로 assembly 하고 나서 nonassembled read만 모아서 작은 k-mer size로 assembly
additive Multiple-k : subtractive Multiple-k와는 달리 큰 k-mer size로 assemble 했을때 contig 생성에 참여한 read를 제거하지 않고 다시 중복해서 작은 k-mer size로의 assembly에 사용. 이렇게 되면 contig에 redundancy가 생기게 되는데 CD-HIT-EST를 이용해서 clustering을 한뒤 가장 긴 contig만 남긴다.
위 표에서 볼수 있듯이 subtractive Multiple-k는 그다지 나아진 점이 없는걸로 보인다. 반면 additive Multiple-k의 결과는 상당히 개선됨을 보인다. 이 논문에서 찝어서 이야기 하는 것중 하나가 No. of transcript로 보면 Multiple-k가 19 k-mer보다 나은게 없어보이지만 100이상인 contig의 수가 2배 이상이라는 것(커버하는 transcript의 수는 비슷할지라도 그 transcript의 cover 면적은 Multiple-k가 훨씬 좋다는 것. 그렇다면 cover 했다는 definition이 뭐냐? blastn을 돌렸을때 query의 95%가 align에 참여하고 reference의 99% identity가 있을 경우를 의미 한다. 곧 query 대비 길이가 95%가 넘어가면 그 transcript를 커버했다고 보는 것).


STM method : initial assembly 결과 contig를 translation해서 reference proteome에서 orthologous region을 찾는것. 만약 서로 다른 contig의 translated amino acid가 하나의 protein에 mapping된다면 이를 scaffolding 하는 것이다. 이 과정에서 initially unassembled read를 사용하느냐 마느냐에 따라 STM+ 와 STM-로 나뉜다. 자세한 과정은 아래 그림을 참조한다.



아래 표가 simulated read를 STM method을 이용해서 assembly 한 결과. 에러는 적은데 반해  maximum length랑 N50이 커진 것을 알 수 있다. 그리고 이 STM method가 transcript length나 adundance에 bias가 있는지도 확인했는데 그런건 없단다.

마지막으로 STM method의 한계점에 대해서 이야기 하는데.. 어떻게 보면 STM method가 EST로 orthology 찾는거랑 비슷한데 다른 논문에서 말하길 비교하자고 하는 두 종 중 하나의 종의 transcriptome이 완성됐다면 그 정확도가 상당히 높다는 것. 또한 비교하고자 하는 종의 evolutionary distance가 멀어짐에 따라 prediction 할 수 있는 ortholog는 줄어들지만 accuracy는 거의 똑같다고. 곧 이를 STM method에 적용해서 보자면 complete transcriptome을 사용한다면 reference의 evolutionary distance에 상관없이 low error rate의 결과를 얻을 것이라는 것.

Friday, July 15, 2011

A Practical Comparison of De Novo Genome Assembly Software Tools for NGS Tech.

de novo assembly에 대해서 여러가지 툴들을 비교 분석한다. 음.. abstract를 보면 너무 뻔한 소리를 하고 있긴 한다만.. 그래도 그 과정이 궁금하기에 한번 보자.


intro를 보자면
아하.. quality-value를 input으로 하는 것은 SHARCGS와 ALLPATHS-LG 밖에 없단다.


memory saving과 data inquiry의 편의성을 위해서 요즘 assembler는 크게 두가지 형태의 data structure를 채택하는데
1. string-based model : Greedy-extension algorithm 채택, 상대적으로 작은 사이즈의 게놈에 이용
2.graph-based model : OLC (overlap-layout consensus)와 DeBruijn graph를 이용한 방식, complex genome을 핸들링 하는데 사용


요즘 assembler의 bottleneck은 어떻게 repetitive fragment를 처리하냐인데 paired end로 수습하려는 시도가 있다. 두번째 큰 문제는 시간이 엄청 걸린다는 것, 이것을 해결하기 위해 thread의 병렬화 이용.
아래 그림은 이제 이 논문에서 비교하려는 24개의 assembler를 그들이 취급하는 data structure에 따라 분류한 그림
이 논문에서는 24가지 전체 비교는 아니고 8가지 assembler로만(이것들이 4개의 assembly strategy를 대표) 4개의 genome에 대해서 test 한다. 물론 이 논문의 목적은 각각의 assembler의 performance 비교 (memory cost, assembly accuracy, completeness, size distribution of contigs) 하는 것.


result를 보자면..
speed 랑 memory 를 얼마나 차지하나를 보는데.. 건질건 없다. 4개의 quad core CPU, 32GB of RAM에서 실행한건데... 그냥 De Buijn graph를 이용하는 것들이 메모리도 적게 먹고 빠르다.
그 담엔 accuracy랑 integrity를 봤는데.. 뭐 accuracy와 integrity의 정의가 뭐 그닥 fancy 하지 않다. 그냥 굉장히 단순하게 계산을 했다. "shorter than Ybp" 라고 한건 오타가 아닐까 생각이 들고 integrity 를 정의 할때 contig의 cover region에 대한 redundancy를 왜 고려하지 않았을까란 생각이 든다. 그냥 mapped contig의 길이의 총합을 이용했는데.. 이건 좀 정확한 의미의 integrity가 아닐거란 생각이 든다.


이 논문은 끝까지 안보련다.. 시간 낭비란 생각이 들어서




------------------------checkList-----------------------
1.string based model 이란게 정확하게 뭔지.. 알고리즘적인 접근 필요

Friday, July 8, 2011

Whole-genome DNA methylation profiling using MethylCap-seq

아래 포스팅은 MBD-Seq 중에 MiGS. 이건 MethylCap-Seq. 차이점이 정확히 무엇인지 알기 위해 본다. 특히나 중요한 것중에 하나가 elution시 salt 농도를 gradient를 줘서 elution 하는거 같은데 확실히 알아볼 필요가 있다.



MBD-isolated Genome Sequencing provides a high-throught and comprehensive survey of AND methylation in the human genome

보건원 발표 자료가 BS-Seq인줄 알고 BS-Seq 만 보다가 건네 받은 데이터까 MBD-Seq 이라는 걸 알고 급선회한다. 

이 사람들은 자기네 방식을 MiGS (MBD-isolated Genome Sequencing) 이라고 한다(뭔놈의 용어들을 이렇게 만들어 내는지.. 헷갈리게 시리). MBD2 protein의 recombinant MBD를 이용해서 random하게 짤린 DNA 중 methylated 된것만 precipitation 시켜서 이를 parallel 하게 시퀀싱한다는 것. 여기서 말하길 MBD 가 서로 가까이에 위치한 multiple methylated cytosine에 대해 bind affinity가 증가하므로 MeDIP(anti-5-methyl cytosine antibody를 사용하는 실험 방법으로 이는 하나 이상의 mCpG의 DNA 가닥에 bind 하므로 좀 sporadically mCpG를 위주로 immunoprecipitation 시킨단다)에 비해 생물학적으로 좀 더 연관되어 있는, 그러니까 좀 densely mCpG를 잡는다고. 그리고 DNA shearing은 sonication으로 해야 restriction enzyme 보다 bias 가 적단다. 
뭐 여튼 이건 실험적인 방법이고 그래서 이 논문에서는 이 방법으로 뭘 본거냐. 3개의 isogenic human cancer cell line(1.parental HCT116 colon cancer cell line: colon cancer cell의 평균의 methylation level을 보임, 2.DICERex5 cell: HCT116에서 유도된건데 DICER1 allele들이 짤린거로 약간의 유전자의 promoter 부위의 methylation 변화가 생긴 것, 3.DNMT1, DNMT3b double knockout cell (DKO cells): DNMT 를 knockout 시켰으니 대부분의 methylation을 잃은 cell)의 methylation profile을 봤단다. 


실험에 대한 이해가 많이 떨어지는데 그래도 대충 보니까 elution 할 때 Proteinase K의 농도를 고정한거 같은데.. 이 말은 salt 농도를 일정하게 했다는 거고 그렇다면 예전에 봤던 논문(MethylCap-Seq)만 salt 농도를 변화 시킨건가.. 음 여튼. 실험 방법 순서를 다시 정리하면 1.DNA extraction, 2.sonication(150-600bp가 되게끔), 그리고 이때 100bp보다 작은건 제거, 3. recombinant MBD2_MBD를 조각낸 DNA에 붙임, 4.library를 만드는데 이때 길이가 120bp 위주로, 5.GAII로 36bp를 읽는다.


bowtie로 align 했고 unique mapped read 만 분석에 사용. duplication read 제거. genome을 unoverlapped 100bp window로 만들고 36bp read를 120bp까지 extend 한다음에 이 120bp가 많이 커버하는 window로 이 read를 할당. 곧 genome 상의 methylation이 됐다 안됐다, 그리고 DMR 같은 것을 판단 할때 이 100bp window를 단위로 생각. RepeatMasker로 read들을 분석해서 repeat element확인. DMR은 각 윈도우별 unique mapped read를 가지고 Fisher's exact test로 p-value 구해서 찾음.


아래표는 실험 read의 throughput


아래 그림은 MiGS로 새롭게 찾아진 methylated region을 bisulfite sequencing으로 confirm 한 그림. 기다란 네모가 MiGS의 결과 window들인데 까맣다면 methylation 된거 하얗다면 unmethylation. 아래 점들은 개개인 별로다가 bisulfite 한것.


아래 표는 genome 상의 영역별 methylation의 정도를 나타낸 표. 
5'end는 TSS로 부터 500bp 안의 window들
3'end는 TES(transcription end site 혹은 stop site)로 부터 500bp 안의 window들
genic 은 5'end와 3'end 사이의 window
intergenic은 나머지 window




------------------------check list------------------------
1.method 지에 나왔던 MethylCap-Seq 논문에서 elution 할때 농도 변화를 줬는데.. 그 방법과 이유 확인.
2.library size selection 할때 sonication 하고 바로 size selection 하는건지 아니면 MDB 붙이고 elution시키고 나서 size selection을 하는 건지 확인. 내 생각으로는 sonication하고 바로 size selection 할거 같은데.. method를 볼때는 그때는 단지 100bp 아래로만 제거하는거 같은데.. 
3.FDR을 구할때 특정 read 갯수를 갖는 window의 수랑 expected window 수랑 비교해서 군한다고 하는데.. expected window 수를 어떻게 구하는지. 람다가 나오는데 이게 정확하게 무슨 의미인지.
4.왜 mapping 안된 read들을 Venter's genome의 sanger read에 mapping 했는지.
5.그림 1에서 bisulfite로 확인했을때 methylation 됐다 안됐다의 기준이 무엇인지(percentage?)

Thursday, July 7, 2011

Dynamic changes in the human methylome during differentiation

바로 아래 포스팅도 급하게 method만 봤는데.. DMR을 찾을때의 방법을 정확하게 모르겠어서 다른 논문에서는 어떻게 하는게 찾다가 나온 논문. 생물학적인 의미는 읽지 않은채 거의 method 위주로 읽고 있는데.. 아.. 어쩔수 없다. 다음주 수요일 보건원 발표 때까지 분석 방향을 잡아야 해서.. 어짜피 나중에 다 보게 될거다. 그 때 그때 포스팅 수정하기로 한다.

Wednesday, July 6, 2011

The DNA Methylome of Human Peripheral Blood Mononuclear Cells

예전에 포스팅 했던 논문의 reference 데이터로 사용되었던 BS-Seq 데이터에 대한 논문.
YH project로 아시아 최소 genome sequencing 한 사람의 PBMC(peripheral blood mononuclear cells)의 whole genome BS-Seq을 한 논문으로 CpG methylation pattern과 ASM(allele-specific methylation), ASE(allele-specific expression)에 대해서 조사하였다.

Results
<Data Generation and Quality Assessment>
103.5Gbp paired-end 데이터 생성, 그중 70.4Gbp (68%) 가 genome에 align됨. 2.21Gb genome (haploid part만 고려) 에서 18,962,679 CpG 사이트가 있는데 그중 한쪽 strand 이상 커버한 것이 99.86%, 양쪽 strand 모두 커버한 것이 92.62% (quality score가 14이상인 것들만 고려). 아 그리고 정말 궁금했던 것이 여기서 나오는데.. 어떻게 ASM이라는 걸 detecting 하는걸까 궁금했는데. 



Materials and Methods


<Sample Preparation and Bisulfite Sequencine>
DNA methylation의 strand specificity 때문에 Watson and Crick strand를 합쳐서 6Gbp의 reference를 만들고("original form") C을 T으로 변환한다("alignment form"). read들 역시 conversion 하는데 read가 paired-end 이기 때문에  1.forward read의 cytosine을 thymine으로 변환, 2.reverse read는 G를 A로 변환. 이 변환된 read를 변환된 reference("alignment form")에 align 한다.
unambiguous alignment : 허용 범위 안의 mismatch로 unique alignment된 hit.
Local copy number of a genomic location : 특정 genomic location에 align 된 read의 hit count를 평균한 값. 이때 read는 ambiguous read도 사용. 그러니까 특정 영역의 genome에 align된 read들이 unique mapped된것 뿐만 아니라 ambiguously aligned read도 있으니까 각 read마다 게놈상에 align hit들이 있을텐데 이를 평균한 값. 이게 높다면 redundant alignment가 많다는거고 이 genome 영역은 분석에 사용하기에 적합하지 않다고 판단(이 기준이 1.5). 이 1.5 안넘는 genome의 영역이 2.21Gbp.
potentially methylated site : reference랑 read를 alignment하고 난뒤 "alignment form" 에서 "original form"으로 변환했을때 둘 다 C인 site.


<Estimation of Methylation Level>
methylation의 ascertainment가 sequencing error에 의한 것일수도 있기 때문에 이를 방지 하기 위한 quality threshold를 정해야 하는데 >14 이상이 되니까 non-CpG site의 methylation level이 변화가 없더라. methylation level은 이 >14 이상 read중에 ascertainment read의 percentage.


<Identification of Potential Tissue-Specific Differentially Methylated Regions (tDMR)>
최소 5개 이상의 CpG site를 포함하는 window중 2-fold change 이상의 methylation 차이가 있거나 fisher test p-value가 <1e-20 인 window들을 tDMR이라고 한다. 두 tDMR이 인접해 있을때 ...


<Identification of Haploid Differentially Methylated Regions (hDMR)>
tDMR과 pvalue만 <0.001 이라는 점만 제외하고 같다. 인접한 hDMR은 ...




------------------알아야 할 점----------------------
1.region의 uniqueness를 알기 위해 local copy number를 계산할 때 region영역을 얼마로 잡았는지.
2.FP 공식 이해.
3.coverage depth에서 "could provide 5 different results"의 의미
4.tDMR, hDMR에서 2 fold 만 보는건지 그 이상을 보는건지.
5.tDMR, hDMR의 인접한 DMR을 join하는 기준이 정확히 무엇인지.

Tuesday, July 5, 2011

Integrated genomic analyses of ovarian carcinoma

한 일주일 전쯤에 TCGA1 (The Cancer Genome Atlas)에서 nature지에 낸 논문. 음.. genomics의 통합 분석이란다. 알아두어야 할 만하다. 사실 지금이야 돈이 많이 들어가니까 큰 프로젝트 단위로 해야 통합 분석 논문이 나오는데 조만간 실험실 단위에서 이런식의 논문이 많이 나올 것으로 생각된다.

abstract를 보면 ovarian cancer의 대부분의 tumor에서 TP53의 mutation이 발견되었고 이와 동반해서 9개 유전자의 mutation, 113 개의 CNV, 168개 유전자의 promoter methylation event가 발견되었다고. 그리고 survival duration에 따라 각 genetic signature 별 subtype을 나눴다. 그리고 pathway analysis 결과 homologous recombination에서 결함이 있는걸로 발견되었고 NOTCH와 FOXM1 signalling이 ovarian cancer와 연관이 높은 것으로 나타났다.

Samples and clinical data
489 HGS-OvCa(high-grade serous ovarian cancer) sample



mutation analysis
316 clinical sample과 이에 상응한 normal sample을 exome capture & sequencing. ~180,000 exon, ~18,500 gene, ~33 Mb 까지 cover를 했고 sample당 ~14Gb 를 sequencing. 총 19,356개의 somatic mutation(tumor당 61개정도)를 찾았다. 이 중에서 non-synonymous mutation, splice site mutation, COSMIC(Catalogue of Somatic Mutations in Cancer)와  OMIM(online mendelian inheritance in men)과 비교하고 또 protein function에 영향을 고려해서(CHASM 사용) 유의하다고 생각하는 mutation을 골랐다. non-synonymous mutation과 splice site의 mutation의 분석에서 최종적으로 9가지 gene을 뽑은게 아래 표와 같다.
COSMIC과 OMIM과의 비교로 477, 211개의 mutation이 match됨을 확인했다.
CHASM이라는 프로그램을 이용해서(기존에 알려져 있는 oncogene과 tumor suppressor의 mutation으로 CHASM을 training 한뒤 사용) diver mutation



mRNA and miRNA expression and DNA methylation analysis
mRNA의 경우 3개의 platform의 chip을 사용. 2개의 affymetrix과 하나의 agilent chip. affymetrix의 경우 RMA와 affymetrix.aroma로 processing 했고, agilet의 경우 lowess normalizaion을 함. 이 3개의 platform에서 true underlying gene expression을 구하기 위해 factor analysis5를 적용한다(자세한 내용은 다음 논문의 supplementary note 참조). 3개의 platform에서 factor analysis로 unified expression estimate를 구하고 각 platform의 MAD6의 평균으로 variation의 estimate를 구해서 rescaling 한다(두 estimate를 구하고 나서 이걸로 어떻게 rescaling 하는지는 이해가 어렵다). 이렇게 3개의 platform으로부터 하나의 gene expression estimate를 구한뒤 filtering 과정(expression estimate와 3개의 platform간의 correlation이 있고, high variability across patient 인 유전자만 선택)을 거쳐 clustering을 위한 유전자 set을 골라낸다.





--------------------------reference------------------------------
1.TCGA (the cancer genome atlas) : 2005년부터 시작된 프로젝트로 cancer에 영향이 있는 genetic mutation 목록을 만드는데 목표가 있다. 2006년에는 glioblastoma multiforme(brain cancer), lung, ovarian cancer에 대해서 genomic level의 모든 정보(gene expression, copy number variation, SNP genotyping, methylation, microRNA등)를 통합 분석을 위한 작업을 착수 하였으며 2009년부터는 20-25가지의 cancer로 프로젝트를 넓히게 되었다.

2.PFS (progression free survival) : 암환자 집단이 있을 때 특정 치료(?)이후에 몇 퍼센트나 암이 progression을 멈췄나를 나타내는 것으로 특정 치료의 효율을 나타내는 지표로 사용.

3.OS (overall survival)

4.driver mutation : a mutation that gives a selective advantage to a clone in its microenvironment, through either increasing its survival or reproduction. Driver mutations tend to cause clonal expansions. 다르게 말하면 A subset of these mutations contribute to tumor progression


5.factor analysis : 여기 참조, 아마도 factor를 1로 고정해서 계산한게 아닐까 싶다.


6.MAD : 위키 참조

Sunday, July 3, 2011

Whole Transcriptome Sequencing Reveals Gene Expression and Splicing Differences in Brain Regions Affected by Alzheimers's Disease

cufflinks를 설치, test 및 그 사이트에서 추천하는 procedure까지 알아봤다. 그럼 대충 cufflinks 의 내용과 사용법을 알았으니 이를 이용한 논문에서 어떻게 사용하고 데이터를 핸들했는지 알아보자. 왜냐.. cufflinks 결과만 주면 뻘쭘하잖아..


저자 왈 처음으로 AD(Alzheimer's disease) 환자의 뇌의 서로 다른 영역에서의 transcriptome을 RNA-Seq으로 분석했단다. 건강한 사람과 AD 환자의 post-mortem tissue(죽고 나서) 의 total brain, frontal and temporal lobe 영역(위 그림 참조)에서 transcriptome을 조사해서 gene expression의 quantification, splicing isoform, 그리고 alternative transcript start site를 찾았단다. 그리고 overrepresentative 유전자들의GO enrichment analysis를 해보니 음.. neuron 관련 유전자들이란다. 결론은 APOE (apolipoprotein E) 유전자의 alternative splicing 과 promoter usage가 AD 랑 관련있다는것.

그럼 내가 여기서 초점을 맞춰야 할 사항. 1. quantification of gene expression, 2. splicing isoform, 3.alternative transcript start site, 4.GO enrichment analysis의 방법에 대해서 확실히 알아보자.

SRA데이터가 좀 이상하다. 분면 논문 material에서는 paired end adaptor를 붙였다는데 데이터는 single이다. 뭐 여튼 건 중요한건 아니고. 

mapping은 tophat을 이용, cufflinks로 assembly하고 .. cuffcompare로 기존의 annotation과 비교하고 거기서 나온 combine.gtf 파일을 새로운 annotation파일로 써서 cuffdiff를 이용하여 transcript의 양 차이와 alternative splicing 을 찾아냄. 
그리고 GO enrichment analysis는 DAVID를 이용.

싱겁긴 하지만 일단은 여기까지.