Wednesday, November 2, 2011

Evaluation of Algorithm Performance in ChIP-Seq Peak Detection

제목 그대로 ChIP-Seq 프로그램 performance를 비교한 것인데.. 음 이런 논문이야 말로 짐 회사에서 내기 좋은 주제가 않을까 싶은데.. 아숩다.


ChIP-Seq 데이터 분석에서 필요한 peak finding을 위한 프로그램이 31개나 있단다. introduction에 보면 ChIP-Seq 분석 프로그램의 대략적인 알고리즘 개요가 나온다. NGS 특성상 5' 쪽의 tag만 읽기 때문에 생기는 strand-dependent bimodality를 보정하기 위한 방법(paired-end 는 몇개의 프로그램에서만 지원된단다), read가 많이 mapping된 genomic region을 찾는 방법, peak region을 찾기 위해 threshold를 정하는 방법(background signal model 이용:1.manual threshold,2.Poisson or negative binomial model 이용,3.control data 이용), peak의 significance를 정하는 방법에 대한 여러 알고리즘의 간략한 소개가 있다.

일단 여기서는 11개의 peak calling algorithm을 3개의 transcription factor ChIP-Seq 데이터를 가지고 비교한다. 이것이 이 논문의 목적.


Results
overview
3가지 dataset은 NRSF(human neuron-restrictive silencer factor), GABP(growth-associated binding protein), FoxA1(hepatocyte nuclear factor 3a)의 ChIP-Seq데이터. 
테스트한 프로그램들 11개의 리스트는 아래와 같고 각 프로그램의 option들은 default를 이용(control data를 이용할 수 있는 프로그램만 선택).
Sensitivity
3개의 dataset에 대해 11개의 program에서 찾는 peak의 수는 차이가 있다. 

Wednesday, October 12, 2011

How to Interpret a Genome-wide Association Study

GWAS는 candidate gene analysis(supervised analysis)와 family linkage study, 그리고 HapMAP Project의 성과를 바탕으로 이루어진 것이다.
GWAS는 common disease1, common variant 의 가정하에 있는데 이는 common disease의 유전적인 영향 혹은 원인이 제한된 수의 allelic variant (SNP 혹은 indel 등)에 의한 가정인데 이 제한된 수의 allelic variant 라는 것이 전체 인구에서 1% 혹은 5%이상의 사람들이 가지고 있는 allelic variant를 의미한다.


Overview of GWA Studies
GWAS는 NIH에서 관측된 특성(질병등)의 유전적인 연관성을 찾기 위해 사람 전체 genome에 걸쳐 common genetic variation을 연구 하는 것이라고 정의 되어 있다. genome wide 라는 것의 정확한 기준은 없지만 이 논문에서는 최소한 1,000,000 SNP를 assay 한 연구에 대해서만 언급한다.
GWAS는 크게 4가지 부분으로 이루어진다(PLINK manual에서는 크게 6가지 단계로 나눈다).
1.특정 trait(질병등)를 갖는 집단군(사람들)과 그렇지 않은 집단군을 선택한다.
2.위 단계에서 뽑은 모든 사람을 genotyping 하고 genotyping quality에 대해서 review를 한다
3.2번 단계에서 quality threshold를 넘는 SNP들 중 어느 SNP가 trait와 연관이 있는지 통계적 테스트를 진행한다.
4.3번단계까지 해서 뽑은 genetic variant의 증명단계로 완전 새로운 집단군을 뽑아서 동일한 association test를 진행하거나 아니면 실험적으로 기능적인 효과가 있는지 테스트 한다.


Study Designs Used in GWA
여태껏 가장 많이 사용되었던 GWAS의 design은 case-control design으로 환자군과 정상군의 allel frequency의 비교였다. 이는 가장 간단한 design인데 아래 표와 같이 많은 가정 하에 design 된 연구고 만약 이 가정이 충족되지 않게 된다면 연구의 결과는 상당한 bias가 있게 된다. 그러나 역학적인 디자인의 원리에 충실하게 연구가 디자인 되었다면 case-control은 rare disease에 대한 효과적인 연구가 될 수 있다. 하지만 이게 쉽지 않다는 것.
trio study은 환자와 함께 환자의 부모를 포함한 design이다. 환자인 자식과 그리고 부모의 genotyping을 해서 transmission frequency를 측정한다. 이게 무슨 뜻이냐면 만약 특정 SNP가 질병과 관련이 없다면 부모에서 자식으로의 이전률이 50%일거지만 질병과 관련 있는 SNP는 그 이상일거라는 가정하에 test를 하는 것이다.
또 다른 design은 cohort  study이다.


Selection of Study Participants

Genotyping and Quality Control in GWA Studies

Analysis and Presentation of GWA Results

Replication and Functional Studies

Limitations of GWA Studies

Clinical Application of GWA Findings



-----------------------------------reference---------------------------------
1.common disease : mendelian disease이외의 것, mendelian disease 혹은 mendelian disorder 라는 것은 멘델의 유전법칙을 따르는 질환으로 DNA 상의 하나의 mutation으로 인한 질환.