Wednesday, July 6, 2011

The DNA Methylome of Human Peripheral Blood Mononuclear Cells

예전에 포스팅 했던 논문의 reference 데이터로 사용되었던 BS-Seq 데이터에 대한 논문.
YH project로 아시아 최소 genome sequencing 한 사람의 PBMC(peripheral blood mononuclear cells)의 whole genome BS-Seq을 한 논문으로 CpG methylation pattern과 ASM(allele-specific methylation), ASE(allele-specific expression)에 대해서 조사하였다.

Results
<Data Generation and Quality Assessment>
103.5Gbp paired-end 데이터 생성, 그중 70.4Gbp (68%) 가 genome에 align됨. 2.21Gb genome (haploid part만 고려) 에서 18,962,679 CpG 사이트가 있는데 그중 한쪽 strand 이상 커버한 것이 99.86%, 양쪽 strand 모두 커버한 것이 92.62% (quality score가 14이상인 것들만 고려). 아 그리고 정말 궁금했던 것이 여기서 나오는데.. 어떻게 ASM이라는 걸 detecting 하는걸까 궁금했는데. 



Materials and Methods


<Sample Preparation and Bisulfite Sequencine>
DNA methylation의 strand specificity 때문에 Watson and Crick strand를 합쳐서 6Gbp의 reference를 만들고("original form") C을 T으로 변환한다("alignment form"). read들 역시 conversion 하는데 read가 paired-end 이기 때문에  1.forward read의 cytosine을 thymine으로 변환, 2.reverse read는 G를 A로 변환. 이 변환된 read를 변환된 reference("alignment form")에 align 한다.
unambiguous alignment : 허용 범위 안의 mismatch로 unique alignment된 hit.
Local copy number of a genomic location : 특정 genomic location에 align 된 read의 hit count를 평균한 값. 이때 read는 ambiguous read도 사용. 그러니까 특정 영역의 genome에 align된 read들이 unique mapped된것 뿐만 아니라 ambiguously aligned read도 있으니까 각 read마다 게놈상에 align hit들이 있을텐데 이를 평균한 값. 이게 높다면 redundant alignment가 많다는거고 이 genome 영역은 분석에 사용하기에 적합하지 않다고 판단(이 기준이 1.5). 이 1.5 안넘는 genome의 영역이 2.21Gbp.
potentially methylated site : reference랑 read를 alignment하고 난뒤 "alignment form" 에서 "original form"으로 변환했을때 둘 다 C인 site.


<Estimation of Methylation Level>
methylation의 ascertainment가 sequencing error에 의한 것일수도 있기 때문에 이를 방지 하기 위한 quality threshold를 정해야 하는데 >14 이상이 되니까 non-CpG site의 methylation level이 변화가 없더라. methylation level은 이 >14 이상 read중에 ascertainment read의 percentage.


<Identification of Potential Tissue-Specific Differentially Methylated Regions (tDMR)>
최소 5개 이상의 CpG site를 포함하는 window중 2-fold change 이상의 methylation 차이가 있거나 fisher test p-value가 <1e-20 인 window들을 tDMR이라고 한다. 두 tDMR이 인접해 있을때 ...


<Identification of Haploid Differentially Methylated Regions (hDMR)>
tDMR과 pvalue만 <0.001 이라는 점만 제외하고 같다. 인접한 hDMR은 ...




------------------알아야 할 점----------------------
1.region의 uniqueness를 알기 위해 local copy number를 계산할 때 region영역을 얼마로 잡았는지.
2.FP 공식 이해.
3.coverage depth에서 "could provide 5 different results"의 의미
4.tDMR, hDMR에서 2 fold 만 보는건지 그 이상을 보는건지.
5.tDMR, hDMR의 인접한 DMR을 join하는 기준이 정확히 무엇인지.

No comments:

Post a Comment