Thursday, June 23, 2011

A Bayesian deconvolution strategy for immunoprecipitation-based DNA methylation analysis

BATMAN(Bayesian tool for methylation analysis) 라는 프로그램은 만든 논문. 그 계보가 MEDIPS 라는 프로그램으로 이어진다. 


이 논문 intro에서도 나온다 MeDIP은 absolute 한 methylation 정도를 판단하기에는 CpG density의 영향을 받는다고. 해서 자기네가 이러한 문제를 해결하고자 Batman을 만들었다고.


첨엔 MeDIP-chip 실험의 feature에 대해 살펴보고 이에 맞는 수식 설명힌다.

Ccp(coupling factor) 라는 것을 정의, 이는 probe p와 CpG dinucleotide c와의 값으로 probe p에 붙은 c를 포함한 DNA 조각의 fraction. 이건 어떠쓰는 용어 정의냐? 이건 probe의 CpG density 를 정의한 Ctot를 구할때 사용한다. Ctot의 정의가 곧 sum of Ccp. probe 주변에 CpG 가 가까이 그리고  많이 있다면 당연히 probe에 붙은 DNA 조각 중에 그 CpG를 갖는 조각들이 많을거고  또 그런식으로 probe에 CpG가 많다면 그 Ccp 값의 총 합이 높을 것이므로(아.. 설명이 참..안되네). 여튼 Ctot를 probe의 CpG density로 사용하였고 그래서 array signal과 그래프로 그려보니(아래 그림 b)..
CpG poor region이 methylation이 많이 되어 있고 CpG density가 높은 곳은 methylation이 안되어 있는걸로 보임. 그리고 CpG poor region에서 CpG density와 array signal이 linear 한 관계를 보인다고(아.. 난 왜 못느끼겟지..). 
그래서 이 signal이 methylated CpG에 의해서만 생긴다고 가정하면, 곧 signal 값은 methylation에 CpG density 만큼 weighted 한 값. 그러므로 array signal의 확률 분포를 표현하자면 아래와 같이 된다.
여기서 A는 array 결과, m은 methylation 상태, G(x|u,a2) 는 가우시안 확률밀도 함수(u는 평균을 a는 표준 편차 의미..) 라고 표현이 되고 결국 우리가 얻어야 하는 값은 f(m|A). 이는 Bayesian inference를 통해서 구한다(이거 고딩때 배운거, 근데 이상하게 어렵게 느껴지긴 한다).
컴퓨터 파워를 낮추기 위해 각 CpG 를 모델링 하기보다는 이를 50- 또는 100 bp로 묶어서 그 안에 들어가 있는 CpG는 같은 level의 methylation level이라고 가정. 그러고 나서 inference를 위해 nested sampling을 사용했다는데.. 원.. 뭔소린지 모르겠다(여기 참조, 사실 이게 bioinformatics를 한다고 하는 나의 가장 큰 약점이다.사실 이 때문에 창피해서 bioinfo한다고 잘 이야기 못하는 듯).

다음은 MeDIP-Seq 에 대한 feature 설명과 BATMAN을 통한 분석 에 대한 설명. 일단은 MeDIP-Seq을 하고 read 만들어서 Maq으로 genome에 mapping하고 보니
위 그림 a와 같이 low mapping quality를 갖는 window가 보이더라(내가 이해하기론 Maqs의 mapping quality가 10 이상인 read mapping 만 이용했는데, genome을 50 kb로 window를 만들어서 각 window별로 read에 의해 얼마나 커버 됐는지에 따라 frequency를  그림으로 표현했을때). 이런 것이 알고 보니 duplication/structural variation이더라. 그래서 이런 부분은 mask 하고 분석했다. 두번째 그림은 read 양별로 얼마나 methylation 부위를 커버하는지. 보면 특정 read 수가 넘어가면 뭐 cover 하는 양이 크게 변화가 없는걸로 보인다.

BATMAN으로 MeDIP-Seq을 분석할려면 두가지에서 변형이 필요한다. 1.linear 모델대신 2차의 polynomial model 사용.2.Gaussian error model 대신 rectified Gaussian model 사용. 100bp resolution으로 결과를 뽑아 냈단다. 그리고 repeat이 있는 부위의 methylation은 under-estimate 될거란 생각에 버린다.

No comments:

Post a Comment