Wednesday, November 2, 2011

Evaluation of Algorithm Performance in ChIP-Seq Peak Detection

제목 그대로 ChIP-Seq 프로그램 performance를 비교한 것인데.. 음 이런 논문이야 말로 짐 회사에서 내기 좋은 주제가 않을까 싶은데.. 아숩다.


ChIP-Seq 데이터 분석에서 필요한 peak finding을 위한 프로그램이 31개나 있단다. introduction에 보면 ChIP-Seq 분석 프로그램의 대략적인 알고리즘 개요가 나온다. NGS 특성상 5' 쪽의 tag만 읽기 때문에 생기는 strand-dependent bimodality를 보정하기 위한 방법(paired-end 는 몇개의 프로그램에서만 지원된단다), read가 많이 mapping된 genomic region을 찾는 방법, peak region을 찾기 위해 threshold를 정하는 방법(background signal model 이용:1.manual threshold,2.Poisson or negative binomial model 이용,3.control data 이용), peak의 significance를 정하는 방법에 대한 여러 알고리즘의 간략한 소개가 있다.

일단 여기서는 11개의 peak calling algorithm을 3개의 transcription factor ChIP-Seq 데이터를 가지고 비교한다. 이것이 이 논문의 목적.


Results
overview
3가지 dataset은 NRSF(human neuron-restrictive silencer factor), GABP(growth-associated binding protein), FoxA1(hepatocyte nuclear factor 3a)의 ChIP-Seq데이터. 
테스트한 프로그램들 11개의 리스트는 아래와 같고 각 프로그램의 option들은 default를 이용(control data를 이용할 수 있는 프로그램만 선택).
Sensitivity
3개의 dataset에 대해 11개의 program에서 찾는 peak의 수는 차이가 있다.