ideas should be in papers: May 2011

Monday, May 30, 2011

Evidence of altered RNA stirs debate

이번 네이쳐에 나온 글. 얼마전 포스팅했던 사이언스지에 나온 논문에 대한 글이다.
굉장히 심각하게 이야기 한다(재밌다). 이게 사실이라면 central dogma 가 바뀌어야 할거라면서..
다시 한번 사이언스의 논문을 이야기 하자면 RNA-DNA difference region(RDD) 를 여러사람에서 공통적으로 찾았고 이것이 protein 시퀀스에 반영된다는 걸 확인 했다. 뭐 RNA-editing이 첨 알려져서 파격적인건 아니고.. 꽤 많은 RDDs를 찾았는데 이 중 일부가 이전에 알려지지 않은 RNA-editing에 의한 것이고 이것이 base chage에 관여 됐다는것. 이렇게 된다면 DNA level이 아닌 RNA level에서의 gene regulation에 관한 새로운 층(?)이 있다는 이야기가 된다는것.

근데 두가지 에러에 대한 가능성에 대해 이야기를 한다. 한가지는 시퀑싱 기계에 대한 systemic error, 그리고 genome상에 유사한 genome sequence가 있음으로 해서 RNA를 DNA에 잘못 갖다붙였다는것.

이미 다들 자기 데이터 추가해가지고 확인하고 있단다.

읽고 나니 왠지 흥미가 떨어진다.

Wednesday, May 25, 2011

Transcript assembly and quantification by RNA-Seq reveals unannotated transcripts and isoform switching during cell differentiation

작년 이맘때쯤 나온 논문. RNA-seq에 대해서.. 많이들 쓰는거 같다. 프로그램 이름은 Cufflinks.앞전에 trinity는 assembly-first 방식인데 이건 mapping-first 방식이다. 살짝 그림으로 봤을 때 이 프로그램 자체가 mapping 부터 하는거 같진 않고 TopHat 같은 프로그램의 결과를 가지고 뭔가 하는거 같다 (재밌는건 이 논문의 저자 중에 Barbara J Wold가 들어가 있는데 이 저자의 lab에서 ERANGE라는 RNA-seq 분석 프로그램으로 논문을 냈다.. 프로그램을 또 만들다니.. 물론 이사람이 주가 아니라 이건 CBCB가 주가 된거 같지만.. 난 과학자다. 뭐 이런건가.. 예전에 내가 만든 프로그램 따윈 과학의 발전을 위해선 중요치 않다 이건가..).
어짜피 Trinity setting 하고 나서 cufflinks도 해야 해서.. 그리고 RPKM이 아닌 FPKM 개념이 여기서 나온거 같단 생각이 들어서(trinity output manual 보면 butterfly 결과 fasta 파일의 accession에 rel_FPKM 이 나오는데 이 부분이 아직 fancy 하지 않다고 cufflinks 처럼 발전 시키겠다고 하는걸로 보아)

intro에서 이야기 하는 것이 전에 썻던 개념(ERANGE의 RPKM을 의미하는 것 같은데)은 gene 단위. 그러니까 trascript 단위의 개념이 아니라 gene 단위로 expression을 측정 했기 때문에 promoter isoform 같은건 측정 불가 였다. 또 annotated gene model을 사용했다는 약점이 있다고 말한다. 이것이 예전 프로그램 ERANGE와 Cufflinks의 차이점. 그리고 이것이 Cufflinks의 보안점이다.

아래 그림이 Cufflinks의 algorithm을 보여주는데..

설명하자면.. 일단을 TopHat으로 mapping 한다. 그 결과를 가지고 각 bundle of fragements(=reads) alignment (overlapped 된 mapping read들) 에서 overlap graph를 생성해서 가능한 모든 길을 찾는다(여기서 말하길 Dilworth's Theorem에 따라 incompatible 한 리드가 곧 서로 다른 transcript isoform이 있다는 걸 의미한다고). 이 각각의 길이 transcript isoform. 그리고 나서 각 transcript의 abundance를 측정하는데.. paired-end read 의 길이에 대한 확률분표를 적용한다(그림 d에서 보자면 보라색 paired-end read가 하나 있는데 이는 red trascript와 blue transcript에서 나옹 가능성이 있는 read이다. 그런데 red transcript에서 나왔다면 평균적인 library 길이에서 extremely 하게 벗어난것이기 때문에 이런 것을 수식에 적용하기 위해 길이에 대한 확률 분포 사용). 그런 담에 각각의 transcript isoform의 abundance의 likelihood 값이 최대가 되도록 해서 abundance를 구한단다.

자세한건 supplementary에 있는데 만만찮다. 에라이..

Tuesday, May 24, 2011

QnAs with Eric S. Lander (role of sequencing in medicine)

관련 글은 여기.
Eric S. Lander가 누구냐? 사실 이 글 보기 전엔 몰랐는데 여기에 잘 나와있다(금선생왈 HGP에서 first author 라고 이것도 모르냐면서 무식하다고.. 이름따윈 모른다 난). MIT랑 Harvard의 director란다. 논문들 리스트도 genomics 의 중요한 것들만 있네..

별 내용은 없다. 근데 왜 이거 포스팅 하냐? 나중에 과제 제안서나 뭐 이런거 쓸 때 이용될만 할거 같아서.

Full-length transcriptome assembly from RNA-Seq data without a reference genome

de novo transcriptome assembler 인 Trinity를 소개하는 논문. 일단은 full-length transcript의 de novo assembler로 Trinity의 방법을 소개하고 fission yeast, mouse, whitefly에 대해 테스트 해본다(참고로 whitefly는 reference genome이 없단다). 또한 다른 프로그램들 (abyss, trans-abyss, oases, SOAPdenovo)와도 비교 분석한다.

<RNA-seq 분석(특히 full-length transcript reconstruction)의 challenge(이 리스트는 아마도 다음 논문에서 따온듯 하다)>

1. transcript 마다 expression 양이 다르다.

2.한 transcript에서 나온 read들이라도 coverage가 고르지 못하다

3.많이 발현되는 transcript의 시퀀싱 error가 있는 read가 적게 발현되는 transcript의 read보다 많을 수 있다(이는 아마도 유사한 sequence일때 문제가 되지 않을까 싶네).

4.가까이에 있는 transcript 들이 ovelap되서 잘못된 chimeric transcript로 예측할 수 있다.

5.alternative splicing을 고려한 data structure가 필요.

6.서로 다른 transcript 사이에 유사한 sequence가 있을때 생기는 ambiguity.

<RNA-seq 분석에 대한 두가지 접근법>
1.Mapping-first approach : Scripture, Cufflinks 프로그램이 그 예. 일단 reference에 mapping and merging.
2.Assembly-first method : ABySS, SOAPdenovo, Oases. 일단 asseble 먼저 하고 reference 있음 그담에 mapping.

<Trinity 소개>
아래 그림이 Trinity의 대략적 개요인데.. 이걸 보면 처음에.. 뭐지 이거.. 3개의 species에 대해서 test를 해봤다는건가 이렇게 생각이 드는데. 나름 위트있게 각 모듈의 이름과 그 과정을 잘 표현한 그림이다. Trinity는 3개의 모듈(어떻게 보면 프로세스)로 되어 있는데 1.Inchworm, 2.Chrysalis, 3.Butterfly 로 되어있다(그래서 프로그램 이름이 Trinity인거 같기도).
각 단계별로 보자면
1.Inchworm : greedy k-mer-based approach 방식. 음 뭐냐면 read를 k-mer로 profiling해서 사전을 만들고 가장 frequency가 높은 k-mer를 seed로 삼아서 이 seed를 양방향으로 overlap 되는 것끼리(k-1 mer overlap) 연결시켜 contig를 만드는데 만약 k-1 overlap이 k-mer가 많을 시에는 k-mer 중 frequency가 높은 것을 연결한다. seed 선정부터 contig extend 까지 계속적으로 반복한다.
2.Chrysalis : clustering 후 complete de Bruijn graph를 생성. Inchworm 단계에서 생성된 contig를 clustering하는데 k-1 mer 이상 겹치는 contig들 또는 read에 의해 바로 연결되는 contig들을 grouping. 그 뒤 각 cluster(component)마다 de Bruijn graph를 생성한다.이때 node가 k-1mer이고 edge가 k mer이다. 각 edge는 read frequency로 weight를 구한다. 그 후 각 read들을 가장 많은 k-mer가 공통이 되는 component에 할당한다.
3.Butterfly : 생성된 component들에 read를 대입해서 가능한 모든 full-length transcript를 찾는다. 이는 두 단계로 구성되어 있는데 첫번째로 graph simplification 를 수행한다. graph simplification은 Chrysalis에서 만든 graph의 node를 merging 하고 error로 판단되는 edge를 pruning 하는 것으로 이루어진다. 두번째로 plausible path scoring 작업을 한다. 이는 실제 read를 simplified 된 graph에 대입함으로써 path를 찾게 되어 full-length transcript를 생성하는 것이다.

더 자세한 내용은 논문 참조.

deFuse: An Algorithm for Gene Fusion Discovery in Tumor RNA-Seq Data

plos computational biology에 난 논문. cancer에서 gene fusion 현상을 볼수 있는데.. 이것이 oncogene이 역할을 하기도 한다. KOBIC 센터장 이상혁 교수님도 이와 관련해서 데이터베이스 논문 낸 걸 본 적이 있는데.. 여튼 이 논문에서 RNA-seq 데이터로 gene fusion을 찾는 새로운 알고리즘을 제안한단다.

Sunday, May 22, 2011

Predicting a Human Gut Microbiota's Reponse to Diet in Gnotobiotic Mice

아 원래 요거까진 포스팅 안할려고 했는데.. 그냥 링크라도 걸어놓을 생각에.. 글고 gnotobiotic¹ 이라는 용어땜시..

abstract 는 보자면.. 음.. 이 논문 상당히 실용적이다. 정확한건 본문을 봐야 알겠지만.. abstract로 나름 이해한걸 쓰자면.. 사람의 gut bacteria를 gnotobiotic mice에 투입(?)해서 host diet에 따른 species abundance와 microbial gene expression을 측정. 그래서 diet와 species abundance의 관계를 statistical model로 만들었다. 이로 diet의 어떤 factor가 species abundance 에 영향이 있었던건지 판단할 수 있게끔 한다. 이런 걸로 애기 음식 식단 조절(?) 뭐 이런것에도 적용 가능하단다.

나름 실생활에 적용가능한 내용의 논문이라 좀 흥미롭네..

-----------------------reference--------------------------

1. gnotobiotic animal : 오.. 이런 것도 있구나.. 동물을 C-section, 그러니까 제왕절개해서 무균의 조건하에 길러서 researcher가 원하는 microorganism에 노출되도록 만든 실험 동물.

Widespread RNA and DNA Sequence Differences in the Human Transcriptome

science 지에 나온 논문. 예전에 RNA-seq 분석 리뷰 논문 볼때 RNA-editing에 대해 본적이 있었는데 이 논문이 그것에 대한 것을 연구한 논문(여기서는 RNA-editing에 의한 RNA-DNA Difference, RDD라고 표현). 흥미로운 점이 RNA-editing이라는 현상을 들었을때 아.. 그런 현상도 일어나는구나까지만 생각했는데.. 이 연구자들은 그것에 대해 연구를 해볼 생각을 했다는 것. 참.. 난 연구자에 대한 덕목이 부족하다..

abstract 내용은 다음과 같다. 27명의 B cell 에서의 RNA와 DNA 시퀀스 비교해서 10,000 개의 exonic site of RDD 를 찾음. 이와 같은 RDD는 여러 사람에서 공통적이였고 또 여러 tissue에 걸쳐서도 확인이 됐다고. 또 mass spectrometry를 찍어서 peptide sequence까지 확인했단다. 저널의 그림은 없고.. 표만 쭉 있는데.. 어떤 유전자의 어느 위치에서 RDD가 있다는 내용이 정리된 표들..

다음 그림은 wiki에 있는 RNA-editing에 관한 그림

아 이 논문을 보니 Mass spectrometry 데이터도 다뤄봤음 좋겠단 생각이 든다. 얼마전에 nature에 RNA와 protein의 life time과 양을 측정한 논문이 나왔는데.. 내 기억으로 꽤 차이가 났던 걸로 기억한다. 여튼 이런 논문들 보면 MS도 한번 다뤄보고 싶다는 생각이..

Thursday, May 19, 2011

DNA methylation 분석 관련 논문들

일단은 DNA methylation의 생물학적인 면을 좀 볼려면 저번 포스팅에 소개한 science에 논문들을 좀 봐야 하고 분석적인 측면에 대한 참고자료가 필요하다면 아래 리스트를 봐야 할듯 하다

1.첫번째 논문은 Computation for ChIP-seq and RNA-seq studies 로 RNA-seq과 ChIP-seq 에 대해 review를 하고 관련 프로그램이 뭐 있는지 나열한 review 논문이다.

2.두번째 논문은 ChIP–seq: advantages and challenges of a maturing technology 로 ChIP-seq 분석에 전반적인 내용을 담고 있는 것으로 ChIP-seq 분석시 단계별로 어떠한 점을 고려해야 하는지 참고할 만하다.

3.세번째 논문은 Quantitative comparison of genome-wide DNA methylation mapping technologies 으로 DNA-methylation 실험 MeDIP-seq, MethylCap-seq, RRBS, Infinium HumanMethylation27 assay에 대해 비교 분석을 한 논문이다. 어떤 방식으로 실험을 해야 할지에 대해 참고 사항이 된다.

4.네번째는 첫번째 논문에 있는 ChIP-seq 분석 프로그램의 하나이며 DNAnexus에서 model로 삼고 있는 Quest 라는 분석 프로그램에 관한 논문이다.

Wednesday, May 18, 2011

Special Online Collection: Epigenetics

예전에 영건씨가 카페에 올린 science지에 epigenetic special 이다. 사이트는 여기.

Genome-wide evidence for local DNA methylation spreading from small RNA-targeted sequence in Arabidopsis

논문은 여기.

abstract를 보자면..
TEs(transposable elements)의 genome 상의 이동(?)은 일반적으로 악영향을 미치기 때문에 강하게 억제되어 있는데, 이 억제 기작이 DNA methylation과 연관이 있다. 이것이 어떻게 연관되어 있는 알아보기 위해 arabidopsis에서 TE sequence를 새로 annotation 하고 1bp resolution의 DNA methylation 정보를 가져와서 분석해봤단다. 결과는 대부분의 TEs가 methylation되어 있으나 그래도 상당부분(~26%)는 methylation되어 있지 않았다. 그리고 methylated 된 TEs의 시퀀스 중 CG,CHG,CHH에서 methylation이 많이 되어 있었는데 이 부분에 매치되는 siRNA가 없는 걸로 보아서는 RdDM¹(RNA-directed DNA methylation) 기작의 타겟은 아닌 거 같단다. 그리고 siRNA의 타겟이 아닌 methylated TEs는 siRNA target인 methylated TEs의 옆에 위치하는 걸로 보이고(아래 그림) 또 이것의 끝부분으로 갈수록 methylation이 강하게 되어 있는걸로 보아 local spreading of DNA methylation from siRNA-targeted TE sequences 가 있는게 아니냐. 곧 siRNA의 타겟이 아니더라고 siRNA의 타겟인 것으로 부터 methylation이 퍼져서 된게 아니냐 뭐 이런 가정인듯 한거 같은데.. 아하.. 그리고 이 가설의 또 하나의 evidence로 제시한게.. gene 가까이에 methylated 혹은 unmethylated TEs가 많은 경향이 있는데 methylated siRNA-targeted TEs는 그런 경향이 보이지 않는다. 곧 siRNA의 target이면서 methylated 된 TEs는 gene 주변에 없더라. 이건 아마도 이 논문의 가설 그러니까 siRNA-targeted TE로 부터의 methylation이 퍼지게 됨으로 해서 유전자의 promoter까지 methylation이 되니까 expression에 negative impact가 있게 되니까.. 이걸 방지 할려고 없는거 아니냐.. 뭐 이런 말인듯..

위 그림은 어떻게 보는거냐면 가운데 TE sequence라고 써져 있는데 siRNA의 target이 아닌TEs고 그것의 5' and 3'쪽에 siRNA target인 TEs를 그려넣은 것이고 위의 n 수가 써져 있는 막대 바 read 갯수(normalized 한듯, read가 커버하는 cytosine 갯수로 나눴단다)를 나타낸것. 보시다 시피 siRNA의 타겟에서 부터 아닌 TE로 오면서 methylation 경향이 감소한다. 곧 spreading 하는 것처럼 보인다.

음.. 사실 methylation 들어갔길래 봤는데... 바로 건질건 별로 없어 보이긴 한다. 다만 왜 TEs 부위의 methylation을 봐야 하는지 이유가 될 듯.

--------------------------------------reference--------------------------------------

1.RdDM : dsRNA's (small double-stranded RNAs) 가 complementary 한 DNA의 methylation을 유도하는 것으로 dsRNAs가 Ago4 와 SUVH histone methyltransferase 와 함께 H3K9을 di-methylation 시키면 이 dimethyated H3K9에 cytosine methyltransferase CMT3가 붙어서 cytosine을 methylation 시킨다는 것. 헐.. 그러니까 dsRNA가 histone 을 methylation 하고 histone이 methylation되면 CMT3가 붙고 이것이 DNA를 methylation 시킨다는 것. 이건 arabidopsis에서 발견 되었고 이 marks(H3K9, DNA methylation)은 gene silencing의 mark라고.

nature review : DNA methylation

http://www.nature.com/reviews/focus/dnamethylation/index.html

Tuesday, May 17, 2011

Exome sequencing in sporadic autism spectrum disorder identifies severe de novo mutations

논문은 여기, 기사는 여기

sporadic ASD(autism spectrum disoders, autism 이라고 하면 자폐증인데.. sporadic이면 산발적 자폐증인가?.. )20명과 그의 부모를 대상으로 exome sequencing 을 해서 21개의 de novo mutation을 찾았고 그 중에 11개는 protein 시퀀스를 바꾸는 nonsynonymous mutation이다. 근데 이들 대부분이 conserved residues에 위치 했다고. 20명중 병이 심한 4명으로 부터 유전자 FOXP1, GRIN2B, SCN1A, LAMC3 에서 causative de novo event를 찾았단다.

나중에 exome sequencing 할때 참고 자료로 하면 되겠다.

Monday, May 16, 2011

Role for piRNAs and Noncoding RNA in de Novo DNA Methylation of the Imprinted Mouse Rasgrf1 Locus

역시나 한때.. DNA methylation에 관심이 있었는데 기억나지 않는 이유로 한참을 잊고 있었네. 회사 보건원 과제도 있고 해서 다시 follow up을 해보련다.

논문은 여기. 제목에 있는 단어들 조자 낯설다.. 나 바이오 하는 사람 맞나싶다. piRNA¹ 가 noncoding RNA의 하나 아닌가? de Novo DNA methylation³이라고 하면 양쪽 strand 어디에도 methylation이 안되어 있을때 methylation 시키는 것을 의미하는거고, genomic imprinting² 이라고 하면 한쪽 allele에서만 발현되는 걸 말하는 거고.. 아닌가? 에라이.. 첨부터 다 차근 차근 찾아봐야지.

일단 abstract를 해석하자면, genomic imprinting이라는게 부모의 생식세포에서 differential DNA methylation에 의해 한쪽 allele(monoallelic) 에서만 유전자가 발현 되는 현상인데, 그럼 어떻게 DNA 특정 부위만 선택적으로다가 methylation이 일어나느냐? 이 논문에서 이 부분을 이야기 한다. Rasgrf1 (Ras protein–specific, guanine nucleotide–releasing factor 1) 의 locus가 piRNA pathway에 dependent 해서 de novo methylation이 일어난단다. piRNA의 target인 retrotransposon 시퀀스가 transcription 되면 이것이 DNA methylation machinery를 모으는 역할을 해서 특정 DNA의 시퀀스가 methylation이 된단다. 이거 abstract로만 이해가 안된다. 본문을 봐야 할듯.

----------------------------------reference------------------------------------

1.piRNA : piwi-interacting RNA, 말 그대로 piwi라는 단백질과 interaction 하는 small RNA. 이 piRNA complex는 retrotransposon의 transcriptional silence과 연관있단다. 음 microRNA의 와의 차이점은 microRNA는 길이가 21-24nt인데 piRNA는 26-31nt 이고, conservative sequence가 없단다. 동물에서만 발견 되었고.

2.genomic imprinting : 1% 미만의 유전자가 monoallelic expression되는데, germ line cell에서 imprinting이 일어난단다. 이 imprinting이 없어졌다 다시 생겼다 해야 하기 때문에 epigenetic mechanism에 의한 것이 타당한 생각인 것이고.. 보니까 유전자에 따라 엄마에서 온게 imprinting 될 수도 있고 아니면 아빠에서 온게 imprinting 될 수도 있고 곧 imprinting은 germ line에서 일어나는 것. 동식물 모두에서 일어남.
3.de novo methylation : 아래 그림

Parallel, tag-directed assembly of locally derived short sequence reads

예전에 생명과학연구소 소속이였을 때는 아침에 출근하면 genomeweb에 소개된 논문 한번 훑는게 습관이였는데.. 어느 순간 그 습관을 잃어버렸다. 확실히 그 때가 새로운 경향이라던지 어떠한 식의 분석으로 논문들이 나왔는지 대략적인 감각이 있었는데.. 요즘은 그러한 것에 대해 생각이나 대화가 적어진걸로 보아 확실히 뭔가를 잘 못하고 있는 듯 하다. 이번 새로운 블로그는 하루하루 genomeweb에서 소개된 논문 중 관심가는 논문이나 아니면 뭐 서핑하다 찾은 논문들을 간략하게 정리하려 한다(어짜피 abstract 와 그림정도만 볼거라서..).

이번 논문은 여기. 네이쳐 메소드에 2010 년초에 나온 논문. 제목을 보는 순간.. 아.. 회사에서 de novo assembly 한다는데.. 아무 생각 없이 그냥 depth만 높인다던지 아니면 platform을 섞는다는 것 같은 뻘짓을 안하게 할 수 있겠다는 생각이 들어서.. 함 봐보자.

위 그림이 이 논문의 핵심인거 같은데..
그림과 그림의 설명으로 추론(?) 하자면 일단은 500bp 정도로 라이브러리 만들고 양 끝에 tag-adjacent adaptor를 붙인다. 이런 것들을 죽 연결되도록 붙인다. 그담 random하게 shearing 한다. 그뒤 brekpoint-adjacent adaptor를 붙인다. 그런 담에 forward primer는 tag-adjacent adaptor에 매치되게 reverse primer는 breakpoint-adjacent adaptor에 매치 되도록 제작해서 pcr 한다. 그러면 a 그림의 마지막 그림처럼 될거고. 이게 이 프로토콜의 핵심인데..

위에 쓴 것이 너무 주저리 주저리 써서 이해가 안되는데.. 결국 읽어 보니.. 정리하자면. 목표는 시작점은 같고 끝점이 다른, 즉 시작점은 같지만 길이가 다른 insert library를 만드는것(paired-end니까 양끝의 read가 생길거라서 한쪽은 시작점 다른 한쪽은 끝점). 그렇게 되면 시작점의 read는 은 그 library의 tag로 쓸 수 있고 끝 점의 read는 그 library의 다양한 위치에서의 read니까, 그 끝점의 read만 assembly 하면 subassembly가 된다는것.

여기까지만 보자.