Wednesday, October 12, 2011

How to Interpret a Genome-wide Association Study

GWAS는 candidate gene analysis(supervised analysis)와 family linkage study, 그리고 HapMAP Project의 성과를 바탕으로 이루어진 것이다.
GWAS는 common disease1, common variant 의 가정하에 있는데 이는 common disease의 유전적인 영향 혹은 원인이 제한된 수의 allelic variant (SNP 혹은 indel 등)에 의한 가정인데 이 제한된 수의 allelic variant 라는 것이 전체 인구에서 1% 혹은 5%이상의 사람들이 가지고 있는 allelic variant를 의미한다.


Overview of GWA Studies
GWAS는 NIH에서 관측된 특성(질병등)의 유전적인 연관성을 찾기 위해 사람 전체 genome에 걸쳐 common genetic variation을 연구 하는 것이라고 정의 되어 있다. genome wide 라는 것의 정확한 기준은 없지만 이 논문에서는 최소한 1,000,000 SNP를 assay 한 연구에 대해서만 언급한다.
GWAS는 크게 4가지 부분으로 이루어진다(PLINK manual에서는 크게 6가지 단계로 나눈다).
1.특정 trait(질병등)를 갖는 집단군(사람들)과 그렇지 않은 집단군을 선택한다.
2.위 단계에서 뽑은 모든 사람을 genotyping 하고 genotyping quality에 대해서 review를 한다
3.2번 단계에서 quality threshold를 넘는 SNP들 중 어느 SNP가 trait와 연관이 있는지 통계적 테스트를 진행한다.
4.3번단계까지 해서 뽑은 genetic variant의 증명단계로 완전 새로운 집단군을 뽑아서 동일한 association test를 진행하거나 아니면 실험적으로 기능적인 효과가 있는지 테스트 한다.


Study Designs Used in GWA
여태껏 가장 많이 사용되었던 GWAS의 design은 case-control design으로 환자군과 정상군의 allel frequency의 비교였다. 이는 가장 간단한 design인데 아래 표와 같이 많은 가정 하에 design 된 연구고 만약 이 가정이 충족되지 않게 된다면 연구의 결과는 상당한 bias가 있게 된다. 그러나 역학적인 디자인의 원리에 충실하게 연구가 디자인 되었다면 case-control은 rare disease에 대한 효과적인 연구가 될 수 있다. 하지만 이게 쉽지 않다는 것.
trio study은 환자와 함께 환자의 부모를 포함한 design이다. 환자인 자식과 그리고 부모의 genotyping을 해서 transmission frequency를 측정한다. 이게 무슨 뜻이냐면 만약 특정 SNP가 질병과 관련이 없다면 부모에서 자식으로의 이전률이 50%일거지만 질병과 관련 있는 SNP는 그 이상일거라는 가정하에 test를 하는 것이다.
또 다른 design은 cohort  study이다.


Selection of Study Participants

Genotyping and Quality Control in GWA Studies

Analysis and Presentation of GWA Results

Replication and Functional Studies

Limitations of GWA Studies

Clinical Application of GWA Findings



-----------------------------------reference---------------------------------
1.common disease : mendelian disease이외의 것, mendelian disease 혹은 mendelian disorder 라는 것은 멘델의 유전법칙을 따르는 질환으로 DNA 상의 하나의 mutation으로 인한 질환.

Friday, October 7, 2011

Bioconductor: open software development for computational biology and bioinformatics

- primary motivations -

  • transparency : entire process가 확실하게 노출되어야 한다.
  • pursuit of reproducibility : algorithmic work에도 standard가 필요.
  • efficiency of development : 기존의 code의 extension과 novice의 발전을 위해 필요.

- seven topics important to establishment of a scientific open source software project -

1. Language selection : 왜 R을 선택 했냐?
-prototyping capabilities : 빠르게 prototype을 만들수 있다. 물론 나중에 더 빠르게 run 할 수 있도록 re-implement도 가능하다.
-packaging protocol : package 형태로 제작, 테스팅, 배포가 가능하다.
-object-oriented programming support : To secure reliable package interoperability
-WWW connectivity : http와 같은 web resource롤 통해 데이터와 package에 접근 가능하며 XML처리하는 package도 있어서 다양한 데이터를 다룰 수(?perceive) 있다.
-statistical simulation and modeling support : R에서 이미 있는 numerical algorithm의 사용이 용이하다.
-visualization support : graphical tool로서의 기능이 좋다.
-support for concurrent computation : parallel computation을 위한 tool들이 있다.
-community : active user and developer communities

2. Infrastructure base 
Bioconductor project 에서 첫 2년은 software infrastructure의 투자에 집중한다. 이 infrastructure는 reusable data structure & software 형태로 만든다. 
이 software infrastructure concept의 두 예로 Biobase package의 "expreSeq" class와 Bioconductor metadata package 중의 하나인 hgu95av2를 들 수 있다.
expreSeq 은 three-tier architecture 를 용이하게 한다. 뭔말인고 하니 low-level processing software designer는 expreSeq instance만 생성하는데 focusing 하면 되고, 분석가는 low-level processing에 신경쓰지 않고 expresSeq 자료구조만 focusing 해서 분석만 하면 된다. 
hgu95av2는.. 잘 모르겠네..

3. Design strategies and commitents
-designing by contract
-object-oriented programming
-modularization
-multiscale and executable documentation
-automated software distribution

4. Distributed development and recruitment of developers
distrubted development의 강조. CVS를 통한 같은 component에 대해 여러 developer가 개발에 참여하게 됨으로 다양한 viewpoint와 experience가 project에 속하게 된다. 한 사람의 개발자에 의한 code의 변화가 다른 코드를 망가지게 하지 않는 것을 원칙으로 한다. 이는 사실 packaging화로 가능하다. 그리고 이 R package의 규격화된 testing system을 제공함으로 인해 안정적인 개발이 가능케 한다.

5. Reuse of exogenous resources  
다른 project의 software를 adapting 하는데 있어서의 3가지 쟁점
-가능하면 re-implementation 하지말고 있는거 갖다 쓰자.
-CBB(computational biology & bioinformatics)는 다양한 분야를 아우르기 때문에 다른 많은 프로젝트와의 공동의 노력이 필요하다. 그렇기 때문에 다른 언어나 시스템에서 쓰여진 데이터나 알고리즘을 사용하기 위한 구조화된 패러다임이 필요하다.
-standardization and reuse of existing tools

6. Publication and licensing of code


7. Special concerns
CBB에서 생기는 4가지 challenge
-reproducible research
-dynamics of biological annotation
-training
-responding to user needs




- Using Bioconductor (example) -


ALL(Acute lymphocyte leukemia)