작년 이맘때쯤 나온 논문. RNA-seq에 대해서.. 많이들 쓰는거 같다. 프로그램 이름은 Cufflinks.앞전에 trinity는 assembly-first 방식인데 이건 mapping-first 방식이다. 살짝 그림으로 봤을 때 이 프로그램 자체가 mapping 부터 하는거 같진 않고 TopHat 같은 프로그램의 결과를 가지고 뭔가 하는거 같다 (재밌는건 이 논문의 저자 중에 Barbara J Wold가 들어가 있는데 이 저자의 lab에서 ERANGE라는 RNA-seq 분석 프로그램으로 논문을 냈다.. 프로그램을 또 만들다니.. 물론 이사람이 주가 아니라 이건 CBCB가 주가 된거 같지만.. 난 과학자다. 뭐 이런건가.. 예전에 내가 만든 프로그램 따윈 과학의 발전을 위해선 중요치 않다 이건가..).
어짜피 Trinity setting 하고 나서 cufflinks도 해야 해서.. 그리고 RPKM이 아닌 FPKM 개념이 여기서 나온거 같단 생각이 들어서(trinity output manual 보면 butterfly 결과 fasta 파일의 accession에 rel_FPKM 이 나오는데 이 부분이 아직 fancy 하지 않다고 cufflinks 처럼 발전 시키겠다고 하는걸로 보아)
intro에서 이야기 하는 것이 전에 썻던 개념(ERANGE의 RPKM을 의미하는 것 같은데)은 gene 단위. 그러니까 trascript 단위의 개념이 아니라 gene 단위로 expression을 측정 했기 때문에 promoter isoform 같은건 측정 불가 였다. 또 annotated gene model을 사용했다는 약점이 있다고 말한다. 이것이 예전 프로그램 ERANGE와 Cufflinks의 차이점. 그리고 이것이 Cufflinks의 보안점이다.
아래 그림이 Cufflinks의 algorithm을 보여주는데..
설명하자면.. 일단을 TopHat으로 mapping 한다. 그 결과를 가지고 각 bundle of fragements(=reads) alignment (overlapped 된 mapping read들) 에서 overlap graph를 생성해서 가능한 모든 길을 찾는다(여기서 말하길 Dilworth's Theorem에 따라 incompatible 한 리드가 곧 서로 다른 transcript isoform이 있다는 걸 의미한다고). 이 각각의 길이 transcript isoform. 그리고 나서 각 transcript의 abundance를 측정하는데.. paired-end read 의 길이에 대한 확률분표를 적용한다(그림 d에서 보자면 보라색 paired-end read가 하나 있는데 이는 red trascript와 blue transcript에서 나옹 가능성이 있는 read이다. 그런데 red transcript에서 나왔다면 평균적인 library 길이에서 extremely 하게 벗어난것이기 때문에 이런 것을 수식에 적용하기 위해 길이에 대한 확률 분포 사용). 그런 담에 각각의 transcript isoform의 abundance의 likelihood 값이 최대가 되도록 해서 abundance를 구한단다.
자세한건 supplementary에 있는데 만만찮다. 에라이..
No comments:
Post a Comment