Monday, June 13, 2011

High-quality draft assemblies of mammalian genomes from massively parallel sequence data

AllPaths-LG의 논문
대충 훑어 봤는데.. supplementary를 봐야겠단 생각밖에 안드네. 


   위 표가 AllPaths-LG에서 제시한 NGS sequencing 할때의 model이다. 세가지를 포인트로 찝었는데(1.insert size 종류를 가능한 적게, 2. sequencing 길이의 1.8로 insert size 만들기, 3. long insert(=jump) 만들기) 재밌는건 두번째 포인트. sequencing되는 길이의 1.8로 insert size를 만들어서 두 양쪽 read가 overlap되게 해서 하나의 긴 read가 되도록 한다.
   AllPaths 보다 개선된 점 5가지를 나열했는데.. 이건 아직 정확하게 이해가 안된다(supplementary랑 AllPaths의 원 프로그램 논문을 봐야 할듯).
   그리고 capillary sequencing이랑 SOAP이랑 비교했는데, capillary가 확실히 좋긴한데 AllPaths-LG가 많이 따라잡았고 SOAP은 거의 모든 면에서 AllPaths-LG보다 떨어진다. 다만 long-assembly accuracy는 SOAP이 더 좋은걸로 나온다. 


   아.. 마지막으로 segmental duplication이랑 assembled genome에서의 gap이 과연 뭔가 하는 설명이 나오는데 솔직하게 segmental duplication은 잘 못찾는다고 additional work가 필요하다고 하고. understanding gaps는.. 이게 참 맘에 들었는데. 어찌보면 내가 궁금했던 것 중에 하나 였다. 이들이 말하길 gap을 보니까 long repeat 이 대부분이였지만 또한 대부분의 gap이 long repeat이라기 하기엔 짧은게 많았는데.. assembled sequence에다가 read를 mapping 해보니까 gap 부분의 coverage가 낮더라. 곧 coverage 자체가 AllPaths-LG에서 assembly 하기에 적지 않나 라는거다. 그럼 왜 coverage가 낮나? 아마도 GC content등의 recalcitrant sequence content에 의한 영향이 아닌가 싶네(이에 대해선 논문 의 9,18번 주석 논문 참조). 

No comments:

Post a Comment