Monday, June 27, 2011

DNA methylation review 논문

이전 포스팅 보다 아래의 논문이 읽기에 더 났다. 이전 포스팅은 표가 정리가 잘되어 있고..
다음 논문은 실험적인 내용이 좀더 디테일하게 설명되어 있고.. 다음 논문은 실험에 대한 그림이 젤 났다.

Sunday, June 26, 2011

Principle and challenges of genome-wide DNA methylation analysis

DNA methylation을 detecting 할 수 있는 실험적인 모든 것에 대해 대략적인 설명과 장단점을 나열한다. DNA methylation 실험 방법에 대해 전체적인 윤관을 잡고 싶다면 매우 유용한 논문. 설명이 필요 없다. 아래 표랑 그림만 봐도 정리가 잘 되어 있다. PCR 단계에서 methylation 정보를 잃기 때문에 기본적으로 PCR전의 treatment 하는데 이를 크게 3가지로 나눴고(enzyme digestion,affinity enrichment, bisulfite conversion) chip을 사용하느냐 sequencing을 하느냐에 따라 방법을 나눈다.

Computational analysis of genome-wide DNA methylation during the differentiation of human embryonic stem cells along the endodermal lineage

MEDIPS 라는 MeDIP-Seq 분석 프로그램을 개발한 논문이다.
이 논문에서는 MEDIPS 프로그램을 개발했고 이를 다른 기존의 프로그램과 비교한다. 또 실질적인 실험 데이터에 잘 맞는지 확인하기 위해 hESC(human Embryonic Stem Cell) 에서 definitive endoderm으로의 분화과정에서의 methylation 변화에 대한 실험에 MEDIPS 프로그램을 적용한다. 뿐만 아니라 histone modification, TF binding site 데이터와 같이 분석하여 demethylation이 low CpG density 지역과 연관이 있음을 밝혀 냈다.

intro에서는 MeDIP과 BS-Seq, 그리고 RRBS에 대해서 이야기 하면서 MeDIP이 싸니까 쓰기 좋다라는 식으로 이야기 한다. 그리고 이러한 MeDIP-seq 분석을 위한 제대로 된 툴이 없다(물론 BATMAN과 MEDME를 예로 들긴하지만)면서 computational time, MeDIP-seq 실험 디자인을 위한 important feature가 아직 address 되지 않았다는 문제(quality control metrics, identification of differential methylation), sufficient read count, analysis of the enrichment of CpG-rich reads 등의 문제를 제기한다.

뭐 결국 BATMAN의 coupling factor의 개념을 사용하는데, 자기네가 훨씬 빠르고 정확하단다. 아.. 이거 R package란다.

coupling factor를 계산하기 위한 distance function을 바탕으로 해서 low range coupling factor에서의 CpG density와 signal의 dependency를 측정한다. 그 BATMAN과의 차이는 BATMAN은 이 값을 Bayesian deconvolution process에 이용하는데 반해 MEDIPS 는 그냥 signal 값을 이 dependency로 weight 를 가한다(요부분은 사실 BATMAN의 과정을 정확히 이해하지 못했기에 잘 모르겠다). 아래 그림이 normalizaion 전/후의 MeDIP-Seq 데이터와 bisulfite 데이터와 비교 그림
그림에서 보듯이 BATMAN과 MEDIPS 모두 normalization후 bisulfite 데이터와 correlation이 높아짐.

Thursday, June 23, 2011

Epigenetic Predictor of Age

어제 plos one에 epigenetic predictor of age 란 제목으로 논문이 나왔다. 제목에서 느낄수 있듯이 DNA methylation pattern으로 나이를 예측할 수 있다는 내용의 논문이다. 재밌지 않은가? 물론 여느 연구자들은 당연한거 아닌가란 반응을 할테지만(내가 만나본 대부분의 researcher들은 남들이 뭔가를 발표하면 거 뭐 당연한거 아닌가라는 반응을 많이 한다) methylation pattern과 나이에 상관관계가 있다는 사실을 증명한건데. 논문 보기 전에 생각을 해보면.. 그렇다면 노화랑 methylation이랑 연관이 있다는 거고.. 좀더 과장되서 생각해보면 나이든 사람이 보통 cancer와 같은 complex disease에 많이 걸리는데 어떻게 보면 methylation이 이와 같은 것에 연관이 있는게 아닌가(이 역시 물론이지만). 여튼 왠지 흥미를 유발하는 논문이다.
abstract를 보면.. 
21살에서 55살까지의 34쌍의 남자 일란성 쌍둥이의 침에서 부터 나이와 correlation이 높은 80여개의 유전자의 내부나 근처의 88개의 methylation site를 찾았다. 이 중 3개의 유전자의 promoter 부위의 methylation pattern을 다른 샘플을 통해 validation 했다. 이들 loci에서부터 단 2개의 cytosine을 가지고 regression model을 만들고 나이를 예측했는데 나름 잘 맞나보다(생각보다 완전 정확한거 같진 않다). 이들은 이를 법의학에서 사용될 수있고 의학적으로 겉으로 보이는 나이가 아니라 실제 신체나이로 이를 사용할 수 있지 않나라고 마무리를 짓는다.

A Bayesian deconvolution strategy for immunoprecipitation-based DNA methylation analysis

BATMAN(Bayesian tool for methylation analysis) 라는 프로그램은 만든 논문. 그 계보가 MEDIPS 라는 프로그램으로 이어진다. 


이 논문 intro에서도 나온다 MeDIP은 absolute 한 methylation 정도를 판단하기에는 CpG density의 영향을 받는다고. 해서 자기네가 이러한 문제를 해결하고자 Batman을 만들었다고.


첨엔 MeDIP-chip 실험의 feature에 대해 살펴보고 이에 맞는 수식 설명힌다.

Ccp(coupling factor) 라는 것을 정의, 이는 probe p와 CpG dinucleotide c와의 값으로 probe p에 붙은 c를 포함한 DNA 조각의 fraction. 이건 어떠쓰는 용어 정의냐? 이건 probe의 CpG density 를 정의한 Ctot를 구할때 사용한다. Ctot의 정의가 곧 sum of Ccp. probe 주변에 CpG 가 가까이 그리고  많이 있다면 당연히 probe에 붙은 DNA 조각 중에 그 CpG를 갖는 조각들이 많을거고  또 그런식으로 probe에 CpG가 많다면 그 Ccp 값의 총 합이 높을 것이므로(아.. 설명이 참..안되네). 여튼 Ctot를 probe의 CpG density로 사용하였고 그래서 array signal과 그래프로 그려보니(아래 그림 b)..
CpG poor region이 methylation이 많이 되어 있고 CpG density가 높은 곳은 methylation이 안되어 있는걸로 보임. 그리고 CpG poor region에서 CpG density와 array signal이 linear 한 관계를 보인다고(아.. 난 왜 못느끼겟지..). 
그래서 이 signal이 methylated CpG에 의해서만 생긴다고 가정하면, 곧 signal 값은 methylation에 CpG density 만큼 weighted 한 값. 그러므로 array signal의 확률 분포를 표현하자면 아래와 같이 된다.
여기서 A는 array 결과, m은 methylation 상태, G(x|u,a2) 는 가우시안 확률밀도 함수(u는 평균을 a는 표준 편차 의미..) 라고 표현이 되고 결국 우리가 얻어야 하는 값은 f(m|A). 이는 Bayesian inference를 통해서 구한다(이거 고딩때 배운거, 근데 이상하게 어렵게 느껴지긴 한다).
컴퓨터 파워를 낮추기 위해 각 CpG 를 모델링 하기보다는 이를 50- 또는 100 bp로 묶어서 그 안에 들어가 있는 CpG는 같은 level의 methylation level이라고 가정. 그러고 나서 inference를 위해 nested sampling을 사용했다는데.. 원.. 뭔소린지 모르겠다(여기 참조, 사실 이게 bioinformatics를 한다고 하는 나의 가장 큰 약점이다.사실 이 때문에 창피해서 bioinfo한다고 잘 이야기 못하는 듯).

다음은 MeDIP-Seq 에 대한 feature 설명과 BATMAN을 통한 분석 에 대한 설명. 일단은 MeDIP-Seq을 하고 read 만들어서 Maq으로 genome에 mapping하고 보니
위 그림 a와 같이 low mapping quality를 갖는 window가 보이더라(내가 이해하기론 Maqs의 mapping quality가 10 이상인 read mapping 만 이용했는데, genome을 50 kb로 window를 만들어서 각 window별로 read에 의해 얼마나 커버 됐는지에 따라 frequency를  그림으로 표현했을때). 이런 것이 알고 보니 duplication/structural variation이더라. 그래서 이런 부분은 mask 하고 분석했다. 두번째 그림은 read 양별로 얼마나 methylation 부위를 커버하는지. 보면 특정 read 수가 넘어가면 뭐 cover 하는 양이 크게 변화가 없는걸로 보인다.

BATMAN으로 MeDIP-Seq을 분석할려면 두가지에서 변형이 필요한다. 1.linear 모델대신 2차의 polynomial model 사용.2.Gaussian error model 대신 rectified Gaussian model 사용. 100bp resolution으로 결과를 뽑아 냈단다. 그리고 repeat이 있는 부위의 methylation은 under-estimate 될거란 생각에 버린다.

Whole genome DNA methylation analysis based on high throughput sequencing technology

intro에서는 DNA methylation 실험 방법 종류 설명. MeDIP이랑 MBD1. MeDIP의 경우 antibody를 이용하고 MBD는 Methyl-Binding Domain protein인 MECP22를 사용. 논문에 따르면 MBD-seq은 MeDIP-seq 보다는 최근에 시작 됐다고 하네. 그담에 BS-Seq에 대한 이야기가 나온다. 아직(그러니까 그당시 2010 4월) 까진 whole genome BS-Seq이 Arabidopsis 랑 human의  밖에 없단다.
아.. 이 논문 YH(Yan Huang) methylome project 의 시작 논문인갑다(관련 기사). 이게 PBMCs(peripheral blood mononuclear cells) 의 methylome을 base resolution으로다가 밝히는 작업인데.. 이미 YH project에서 genome 을 sequencing 했기에 bisulfite 처리된 read를 mapping 할 때 자신의 genome sequence에다가 mapping 하기 때문에 accuracy가 높다. 또한 ASM(allele specific methylome)이 ASE(allele specific expression)이랑 연관이 깊더라 이런 점도 밝혔단다.


여튼 이 논문의 목적이 뭐냐. 이 논문이 publish 됐을 때 BS-Seq 데이터는 이미 plos biology에 논문이 나갈 준비가 되고 있었던거 같고(in press라고 표현 된걸로 보아), 이 논문에서는 그 BS-Seq 데이터를 reference로 해서 MeDIP-Seq과 MBD-Seq을 비교해 본다.


결론을 이야기 하자면 일단 여기는 프로그램을 MACS을 써서 methylated region을 찾았는데, MBD-Seq은 highly methylated, high-CpG density region에 sensitive 하고 MeDIP은 highly methylated, intermediated-CpG density regions에 sensitive 하다는 것. 아... 그런데 결정적인 말이 있다. BS-Seq 분석결과 대부분의 highly methylated regulatory region은 low-CpG density 이므로 이런거 분석 할려면 MeDIP이 났단다. 아 근데.. 뭐지.. 실험적인 측면에서 이야기 한게 있는데 NaCl 농도를 600mM 로 하면 MBD-Seq도 low-CpG에 sensitive 하단다(salt 농도에 따른 protein의 활성에 따른건가? 이건.. 자세히 봐야 알겠다). 
아래 그림이 두 방법을 비교한 그림




그리고 두 방법 다 read density가 methylation 정도를 정확히 표한하진 못했다고.. 이 사실은 이미 알려져 있었던거고 CpG density에 read density와 correlation이 있다는것. 그래서 CpG density에 연관된 biased를 교정하는 step이 절대적으로 필요하단다. MBD-Seq의 경우 high- MeDIP의 경우 intermediate- CpG density에 대한 교정이 필요. 이 교정 방법으로 소개한게 Bayesian strategy(이 논문 꼭 봐야 겠다). 


결론은 두 방법을 섞어서 사용하는게 좋을거 같다는거고 그래도 BS-Seq을 대체하지 못하고 특히나 bias 때문에 absolute 한 값을 사용하는건 좋은 생각이 아니라는 것. 다만 두 sample을 비교 할때는 어짜피 둘다 bias가 들어가 있으니 relative 한 값을 비교할때는 괜찮을 것이라는 것.



------------------------reference-----------------------------
1.MBD-Seq :
2.MECP2 :
2.BS-Seq :

Thursday, June 16, 2011

ALLPATHS: De novo assembly of whole-genome shotgun microreads

ALLPATHS 첫 논문. 이 담으로 ALLPATHS2가 있었고 그리고 바로 아래 포스팅 논문이 나왔다. ALLPATHS-LG가 ALLPATHS에서 나온 것이기 때문에 ALLPATHS를 잘 이해해놔야 한다(이 논문 나왔다고 genomeweb에 봤을때 한참 Velvet 이랑 씨름하고 있었을 때라 이건 또 무슨 아류작이냐는 생각에 볼생각도 안했는데.. 요즘 드는 생각이 전문가라면 이유 막론하고 전부 다 알고 있어야 하는거 같다. "이건 볼필요 없어" 이런 생각없이).

Monday, June 13, 2011

High-quality draft assemblies of mammalian genomes from massively parallel sequence data

AllPaths-LG의 논문
대충 훑어 봤는데.. supplementary를 봐야겠단 생각밖에 안드네. 


   위 표가 AllPaths-LG에서 제시한 NGS sequencing 할때의 model이다. 세가지를 포인트로 찝었는데(1.insert size 종류를 가능한 적게, 2. sequencing 길이의 1.8로 insert size 만들기, 3. long insert(=jump) 만들기) 재밌는건 두번째 포인트. sequencing되는 길이의 1.8로 insert size를 만들어서 두 양쪽 read가 overlap되게 해서 하나의 긴 read가 되도록 한다.
   AllPaths 보다 개선된 점 5가지를 나열했는데.. 이건 아직 정확하게 이해가 안된다(supplementary랑 AllPaths의 원 프로그램 논문을 봐야 할듯).
   그리고 capillary sequencing이랑 SOAP이랑 비교했는데, capillary가 확실히 좋긴한데 AllPaths-LG가 많이 따라잡았고 SOAP은 거의 모든 면에서 AllPaths-LG보다 떨어진다. 다만 long-assembly accuracy는 SOAP이 더 좋은걸로 나온다. 


   아.. 마지막으로 segmental duplication이랑 assembled genome에서의 gap이 과연 뭔가 하는 설명이 나오는데 솔직하게 segmental duplication은 잘 못찾는다고 additional work가 필요하다고 하고. understanding gaps는.. 이게 참 맘에 들었는데. 어찌보면 내가 궁금했던 것 중에 하나 였다. 이들이 말하길 gap을 보니까 long repeat 이 대부분이였지만 또한 대부분의 gap이 long repeat이라기 하기엔 짧은게 많았는데.. assembled sequence에다가 read를 mapping 해보니까 gap 부분의 coverage가 낮더라. 곧 coverage 자체가 AllPaths-LG에서 assembly 하기에 적지 않나 라는거다. 그럼 왜 coverage가 낮나? 아마도 GC content등의 recalcitrant sequence content에 의한 영향이 아닌가 싶네(이에 대해선 논문 의 9,18번 주석 논문 참조). 

Tuesday, June 7, 2011

Scripture (Ab initio reconstrunction of cell type-specific trascriptomes in mouse reveals the conserved multi-exonic structure of lincRNAs)

얼마전에 Kobic에 김남신 박사님의 수업자료(?)를 봤는데.. 허걱했다.. 정말 RNA-seq관련 논문은 죄다 꾀고 있는듯이 보였다.. 헐.. 정말 박사라는 이름에 걸맞는 느낌이랄까. 
여튼 자극 받아 scripture 논문도 볼 예정이다. cufflinks랑 비슷한 계열인거 같아서 안볼려 했더만..  

Thursday, June 2, 2011

TopHat: discovering splice junction with RNA-Seq

항상 느끼는거지만 정석대로 가는게 젤 빠른 길인거 같다. 어떻게든 빨리 가볼려고 인터넷 뒤지고 뭐하고 해도 결국은 첫 시작점으로 돌아간다. 내가 자바스크립트 완벽 가이드를 산 것처럼. 여튼 trinity을 이해할려고 cufflinks를 보게됐고.. cufflinks를 보기 위해 tophat까지 왔다. 그렇다면 bowtie까지 가야 하는건가.. 다행히도 예전에 bowtie 논문을 조금 본 기억이 있는데.. 더 내려가진 않았으면 한다.


논문의 intro에서는 QPALMA 라는 프로그램이랑 비교한다. QPLAMA는 svm을 이용한 machine-learning 방법으로 기존에 알려져 있는 junction에 read가 mapping 되는걸로 training을 해서 새로운 exon 이랑 junction을 찾는단다. 근데 자기껀 아니라는 거다. 결국 자기네 건 training set이 필요 없단다. 그리고 훨 빠르단다. 
위 그림이 전체적인 tophat 알고리즘이다(그림만 보면 컨셉은 심플하다). 


세세하게 보자면 일단 Bowtie를 이용해서 mapping 한다. 그래서 mapping 안된 read를 IUM (initially unmapped) reads 라고 해서 따로 모아 놓는다. mapping 할 때 mismatch 나 뭐 이런 것들은 default 값으로 유지하는 것 같고 mapping redundancy는 10까지 허용. 그 이상은 버림. 10까지 허용하는 건 gene의 multi copy를 위한것. 글고 low complexity1에 의한 unmapping은 IUM read에 들어가지 않는다.
그담엔 Bowtie의 assembly 모듈을 이용해서 mapping된 read를 assemble 한단다. splice junction에 걸쳐진 read들은 IUM read로 빠졌을 거고 그렇다면 exon의 끝부분에는 read가 몇에 없을거고 게다가 quality도 나쁠거니까(read가 끝에 얼추 정확하게 맞는다는건 exon의 끝부분이 그 read의 끝부분일테니까).. 이런 단순 mapping에 의해서 exon의 끝부분 sequence를 잃을 수 있다는 생각에 default로다가 양쪽으로 45 bp 확장한다. 발현양이 적은건 부분부분 read가 mapping 될거라서 이런 single island가 가까우면 merge 한다(default 6, 허나 mammalian일 경우 70 추천). 
그 담은 각 island 마다 canonical intron2 donor 랑 acceptor를 찾는다(GT-AG).  70~20000bp(default) 안에 위치한 island 끼리의 canonical intron donor-acceptor 의 paring을 지어서 이 pair들에다가 IUM read를 맵핑한다. 중요한건 within single island 에서도 GT-AG pair를 찾는다는것. 단 속도를 높이기 위해 모든 single island에서 찾는건 아니고 depth가 높은 것에서만 찾는다.


마지막으로 Velvet+gmap이랑 자기네꺼랑 비교한다. 음 당연히 reference를 참고로 assembly 하는 TopHap이 performance가 좋단다.


음 일단은 parameter를 정리해야 할거 같다. parameter가 곧 알고리즘의 키가 되는 것이기 때문에(사실 항상 어떤 프로그램을 사용하기 전에 논문을 보는 이유가 이거다. 논문을 이해 못하면 프로그램을 제대로 사용 못하기 때문에)..


<possible parameter> 논문 보면서 예상되는 프로그램의 parameter


-D : single island로 assembly 된 것 중에도 alternative splicing에 의해 isoform이 있는 경우가 있기 때문에 single island에서도 canonical intron을 찾는데 speed를 위해 depth가 높은 island에서만 찾는다. 그 값을 정하는게 D
-s : read의 seed look up table을 만들때 사용하는 seed를 생성할 총 영역의 길이(5'쪽부터 얼마의 bp)
-k : junction의 seed라고 할 수 있다. junction에서 앞뒤로 k-mer, 즉 2k-mer를 junction의 seed로 해서 exact match되는 read의 seed index를 찾는다.
-minor isoform expression percentage : algorithm 수행후 찾아진 junction들 중에 그 expression이 주변 exon의 expression보다 15%가 안되면 report 자체를 안하는데 이 비율을 조정하는 값 
----------------------------------reference---------------------------------------


1.low complexity DNA : 항상 이 단어를 보면 그냥 당연스레 sequence complexity 가 낮은거, 그러니까 polyN 같은 걸 말하겠지 하고 그냥 넘어 갔는데. . 최소한 정확한 definition이라도 알아야 할거 같아서 링크를 건다. low complexity 를 찾는데 많이 쓰는 프로그램 중 하나가 repeatmasker 라고 링크 따라 가면 low complexity DNA에 대한 내용이 나온다. 음 대충 보니 poly-purine/ poly-pyrimidine 이랑 high AT/GC content를 이야기 하는거 같네. 


2. canonical intron, donor, acceptor : 위키 RNA splicing에 잘 나와있다. 넘 길어서 담에 봐야지