Tuesday, August 2, 2011

Human DNA methylomes at base resolution show widespread epigenomic difference

전에 포스팅한 논문에서 quality assessment에서 이번 논문의 방식을 따랐는데.. incomplete bisulfite conversion에 의한 putative non-CpG methylation을 구별하고자 binomial test랑 false discovery rate를 이용했는데.. 이거 또 봐야하지 않겠나해서 본다.

abstract를 보자면 처음으로 single-base resolution DNA methylation을 본 논문이란다. 동시에 mRNA, small RNA, histone modification, DNA-protein interaction도 봤단다. 돈 많이 썻다. 두개의 genome(human embryonic stem cell, IMR90 fetal lung fibroblast)의 methylation을 비교했는데 stem cell의 경우 methylation의 1/4 가량이 non-CpG 에서 나타났단다. 엄청나다. 그래서 이것이 아마도 stem cell에서는 완전 다른 methylation mechanism이 있는게 아닐까 한단다. 재밌는건 non-CpG methylation이 gene body 부분에 enrichment되어 있고 protein binding site과 enhancer에는 depletion 되어 있다는 것. 더욱 재미있는건 이와 같은 non-CpG methylation이 differentiation 되면서 잃어가는 반면 induced pluripotent stem cells에서 다시 나타난다는 것.

내용이 재밌어 보이기는 하지만 시간 관계상 일단은 내가 보고자 하는 것만 본다. supplementary information을 보자. 


Data Analysis에 보면 처음에 read의 3단계의 preprocessing 과정과 또 3단계의 post-processing 과정이 나온다. 이건 패스 하고.. 


Identification of methylated cytosines를 보면 내가 찾고자 했던 binomial test에 대해 나온다. 일단은 binomial test1 에 대한 기본적인 내용은 아래 reference를 참조하고.. 이 논문에서는 unmethylated lambda genome을 spiked(이거 직역이 뭔지 모르겠네) 했는데, 이 lambda genome에 align 되는 read를 가지고 error rate(그러니까 unmethylated genome을 BS-Seq 했으니까 read들의 모든 cytosine이 T로 변환되어 있어야 정상인데 그렇지 않은 cytosine 을 전체 cytosine의 갯수로 나누어서 error rate을 구함)를 구하고 이를 binomial distribution B(n,p)의 확률 p로 사용한다. 그리고 n은 각 cytosine position에서의 read depth. 음 여기서 확실하게 이해가 안되는 부분이 있는데.. 여기 표현을 빌리자면 0.01 FDR corrected P-value를 이용해서 methylation 의 threshold를 구하고 methylation 됐다 안됐다를 따지는데..


다시 말하면 B(n,p) n은 각 cytosine position에서의 read depth, p는 위의 error rate. 한 cytosine position에서 cytosine 이라고 sequencing 된 read(k; cytosine이라고 나왔다는 건 conversion이 안됐다는 거고 곧 methylated cytosine을 의미) 의 p-value가 M보다 작아야 하는데 M은 M*(number of unmethylated cytosines) < 0.01*(number of methylated cytosines) 를 만족하는 수. 내가 이해하기로 곧 p-value가 0.01*(# of methylated cytosines)/(# of unmethylated cytosines) 보다 작아야 이를 methylated 됐다고 판단 한다는 것. 이해가 안가는게 바로 이점. 여기서 0.01을 곱했다고 해서 0.01 FDR corrected P-value라고 표현한 것 같은데 이게 이해가 안된다.. 아.. 


아니면 내가 전혀 딴소리 하고 있는건가..




--------------------------------------reference------------------------------------------
1.binomial test : 일단은 두개의 category가 일어날 확률이 비슷하다는 것이 귀무가설일때 사용하는 test 란다. 예를 보자. 주사위를 이용한 보드 게임을 한다고 할때, 235번 주사위를 던져서 51번 6이 나왔을때 과연 이 주사위가 제대로 된거냐(fair dice)? binomial test를 이용해서 이 문제를 해결하기 위해 이항분포 B(235,1/6)을 이용한다. 이 이항분포에서 6이 52 번 이상이 나올 확률을 더한다. 그니까 이항 분포니까 평균이 np 분산이 npq, 곧 235*1/6=39 가 평균, 235*1/6*5/6 이 분산인 정규 분포를 따르게 되고 one-tailed test로 하자면 51을 이상에서의 확률 밀도 함수의 면적이 0.026544 가 나오니까 이는 상당히 significant 하다.. 뭐 이런.. 

No comments:

Post a Comment