6. Population Genetic Study

From Biospecies

Jump to: navigation, search

1. Introduction
우리는 population (, 다시 말하면, non-family)-based approach(집단 기반 연구)를 사용한 유전적 관계의 발견 방법이 근원적인 간단한 소개한다. 이 본질 연구들의 대다수는 single nucleotide polymorphism(SNP) marker 들을 사용하여 시작했었다. Biallelic SNPs human genome에서 다량으로 있기 때문에 널리 marker로 선택되고 왜냐하면 그들은 genotyping approaches(유전자형 연구들)을 높은 처리량으로 받을 수 있기 때문이다. 다른 marker system은 일반적으로 유전적 연구들에 사용하고 multiallelic STR이다

2. Linkage Disequilibrium
질병상태에서 polymorphism의 관계(오히려 통계적인 것 보다, 진실에서 느끼는)는 질병 진행에 직접적으로 기여하거나 또는 marker로 지정될 수 있고, 질병 상태에 기여하는 인접한 기능적 변형을 동일하게 물려받는다. 이 동일한 유전의 질병 allele와 대리 marker는 변화 단계를 일어나게 할 수 있고, ‘linkage disequilibrium’(LD) 용어라 한다. 엄격한 정의에 의해
LD는 기회에 의해 기대되는 것으로 말해진다. LD 수의 측정은 두 개의 가장 일반적인 Δ와 D로 사용된다. 양쪽 측정은 두 marker 들의 특정한 alleles 관계의 haplotypes 의 수 예측(독립적 가정)과 관찰 사이의 서로 다른 것을 기본으로 한다. 비록 LD 앞에서 주어진 엄격한 정의에 의해서지만 이것은 연결되지 않은 변형 사이에서 일어날 수 있다.  명확히, 두 개의 polymorphisms 사이의 LD의 커다란 확장과 표현형적 검출의 커다란 기회는 다른 case-control 실험에서 하나의 표현형에 의해 영향을 미친다. LD의 정도는 두 개의 이웃한 marker의 이력에 의존하고 그들 사이의 recombination의 정도와 집단에서 두 polymorphisms의 출현의 시간적 관계에 의해 영향을 미친다. 극도의 예는 두 개의 polymorphisms이고 그것은 자발적인 변이와 재조합 안된 경우가 2000 세대를 넘어 일어나는 것을 가지는 것을 통해 일제히 같은 chromosome에서 나타난다. 이 기간 동안, 이들 두 연결된 polymorphisms은 기회(무작위 유전적 축적)을 통해 20%의 집단 빈도를 도달하고 완전한 linkage disequilibrium(결합 불균형)이다. 다른 시나리오를 상상하면, 새로운 polymorphism이 옛날의 polymorphisms의 이웃에 생겨나고 1000 세대 앞을 넘어 20%의 빈도를 이미 달성한다. 다음의 1000세대 이상에서는 marker들 사이에서 재조합의 범위는 높고 LD를 손상시킨다.

3. Haplotypes
Haplotype은 다른 markers의 보조 유전적 수단이고 DNA의 쭉 펴진 것을 따라 연속적인 양식에서 배열된다. 그러므로 각각이 haplotype single marker에 대해 single point로 일치하는 것보다 오히려 DNA linear section을 나타낸다. haplotype 길이의 인식할 수 있는 범위는 genome의 다른 부분에서 넓게 변한다. 잘 정의된 haplotype(보통의 또는 높은 LD에 의해 특징화된)은 매우 낮은 LD의 부분, 재조합 과정의 암시, 선택압력과 genome을 가로질러 뜻밖의 방식에서 넓게 바꾸어진 LD의 범위를 지시하는 다른 요소에 의해 강조 된다. 비록 보존된 haplotype의 길이가 haplotype에서 haplotype으로의 극적인 변이를 보여주지만, 최근 data는 보통의 길이를 보고 인식하는 haplotypic block은 백인 집단에서 10-100kb인 것을 제시한다.  어떤 상황에서, haplotype의 통계적 분석은 single SNP 분석 보다 더욱 강력하다. 이것은 왜냐하면 SNP가 보통은 오직 두 개의 allelic 상태를 가지기 때문이다. 그러나 DNA의 범위는 몇몇의 서로 다른 haplotype에 의해 일반적으로 나타내어질 수 있다. 많은 haplotype중의 하나일 가능성은 기능적 변형(다시 말하면 phenotype의 영향을 받은 변이)는 강한 한짝 보다 높고, single SNPdp eogks 오직 두개의 가능한 allels의 순수한 상호관계를 보여준다. 이 점에서, haplotype의 연속물은 multi-allelic STR marker와 유사하다. 확실히 만약 기능적 변이 그것이 테스트 상태거나 또는 기능적 변이와 함께 완전히 동일하게 분리되는 것을 보여주는 polymorphism이고 haplotypic 분석은 아무 이점도 없다. 그것은 haplotype 분석이 양날의 검이고 덧붙여서 통계적 힘의 증가는 multiple 테스트와 haplotypeso의 발견 못하는 재조합 때문에 signal 관계를 희석하는 것에 의해 것의 시작에 의해 잠재력이 줄어지는 것을 가지는 것을 기록했다.
haplotype은 두 개 또는 이상의 연결된 marker에서 각각의 밀접한 관계의 genotype 비교에 의해 보통 만들어지고 동정하는 allele group은 한 세대에서 다음으로의 상호유전이다. 하지만, 가족 일원이 없는 것은 이용할 수 있고 각각의 관계가 없는 집단의 구성 연구 아래의 지원자들로 구성되고 그것은 haplotype의 추정에 필요하고 haplotype 빈도는 통계적 방법을 사용한다. haplotype의 추정에 대한 가장 일반적 방법은 추정-극대화(EM) 최대 추정 가능성이다. ARLEQUIN software package Geneva University에 있는 Genetics biometry Laboratory에서 개발되었고 이 목적에 대한 EM algorithm을 포함한다. ARLEQUIN(http://lgb.unige.ch/arlequin/) 에서 다운로드 받을 수 있다. EHPLUS (http://www.iop.kcl.ac.uk/IoP/Departments/PsychMed/GEpiBSt/software.stm) 에서 다운로드 받을 수 있다. Haplotype 작성은 비록 population-based MLE(집단-기본 MLE) 보다 힘이 들 수 있지만, 유전 양식을 사용하고 또한 추론의 정도를 일반적으로 필요로 하고 haplotype의 결과는 현실 보다 오히려 있음직하게 되어야 한다. 모든 haplotype의 절대적인 정의에 대한 것은 분석 중에 있는 DNA의 각각 범위의 두 개의 복제로 물리적으로 나누어질 필요가 있고. 즉 다시 말하면, haploid 상태에 대한 diploid로부터의 감수분열, single haplotype의 섞이지 않은 분석을 하게 한다. DNA의 매우 짧은 범위에 대한 것(대략 10kb 이상) allele-specific PCR(대립유전자 형질에 특이적인 PCR)에 의해 얻을 수 있다. 큰 규모에 대한 haplotype 작성은 전체 chromosome를 나누는 것을 필요로 한다. 이 전략은 California에 기반을 둔 Perlegen Sciences Inc.에 의해 성공적으로 사용하였고, haplotype 설명에 대한 human chromosome 21의 두 개의 복제물로 물리적으로 나누기 위한 human somatic cell hybrid technique을 설치류에 사용하였다. 그러나, 대부분의 연구자들은 힘들지 않은 haplotype 작성에 MLE 또는 family-based inference methods를 사용하고 어떤 범위의 error 또는 힘의 손실을 받아들인다.
덧붙여서, 통계적 분석을 수반하는 것에서 single marker 보다 큰 힘을 제공하는 잠재력과 연구중인 locus를 나타내는 haplotype의 정보는 연구 디자인에서 최대한 효율적인 것에 대해 매우 소중하다. 예를 들면, 항상 같이 분리되는 두 markers는 같은 정보를 제공할 것이고, 고려되지 않은 그 두 개는 유전자형질이며, 그러므로 두 marker 모두의 형을 정하는 것은 genotype의 하나가 다른 것으로부터 추측될 수 있는 것일 때, 비효율적이다. 따라서, 만들어진 상세한 haplotype의 정보는 최소 marker로 확인 하기 시작하는 것의 차를 이론상으로 인정하는 것에 반대되고 모든 haplotypic information의 혈통을 허락 할 것이다. UK, Medical Research Council Biostatistics UnitDavid Clayton haplotypic information을 기반으로 하는 최적의 marker set의 선택을 도와 주는 software(htSNP)http://www-gene.cimr.cam.ac.uk/clayton/software/stata 에서 다운로드 받을 수 있다.이 최적화된 marker set 이전 것은 선택되었고 연구 중인 지역 내의 모든 일반적인 SNPs의 확인에 필요했다. 공개적으로 NCBI(dbSNP:http://www.ncbi.nlm.nih.gov/SNP/)에 의해 운영중인 SNP database에서 이용 가능하게 분류된 SNPs는 기록하는 시간에서 이 목적에 대해 아주 드물고 희박하다. 주어진 간격에서 모든 일반적인 SNPs의 종합적인 확인은 적절한 집단으로부터 개인의 상상한 수의 sequencing을 필요로 한다. 예를 들면, 24개명의 개인 sequencing 5%보다 커다란 빈도의 작은 allele의 모든 변형을 발견하는 95% 확률을 줄 것이다.; 5%는 분별할 수 있는 최소 cut-off point이고, case-control 연구들에 대한 필요한 샘플 크기는 allele 빈도가 5% 아래로 떨어질 때 극적으로 증가한다. 분명히 그것은 24명의 개인들에서 수 Mb를 커버하는 부분의 sequence에 대해 실용적이지 않다. 더욱 현실적인 연구는 flanking splice site, 1-2kb putative promoter(즉 다시 말해서, transcription start site의 바로 upstream 부분)과 함께 그리고 어떤 다른 알고 있는 조절 요소를 더한 coding sequence sequencing과 차이에서 모든 gene의 확인이다. 비록 종합적인지는 않지만, 불확실한 조절 요소들과 같은 것은 인트론 또는 그들의 영향 아래의 gene으로부터 수 십 kilo base 떨어질 수 있다. 이 연구는 실용적인 것과 locus의 철저한 적용범위 사이의 좋은 절충안을 제안한다. SNP 확인 목적에 대한 것은 오히려 대조군 보다 질병, 집단으로부터 파생된 개인의 사용을 선택하게 한다. 이는 희귀한 기능적 변형(돌연변이)를 발견할 보다 큰 기회를 줄 것이고 질병 집단에서 높은 빈도로 존재한다. 예를 들면,  Crohn’s 질병에 걸리기 쉬운 NOD2 돌연변이는 <5% 사이의 대조 군에서, 6-12% 사이의 경우의 빈도에서 일어나는 것을 최근에 찾았다.
5% 보다 큰 빈도의 SNPs sequence의 조절과 대부분의 coding 확인은 연구와 관련하여 고려하지 않은 것과 확인된 것에 대한 여분의 SNPs의 허용에 대한 haplotype의 작성에 필요하다. 연구중인 집단으로부터 96명의 개인의 집합은 5% 보다 더 큰 빈도의 haplotype의 대부분을 찾기 위해 충분 하였다. 이들 haplotypes는 후에 최대한 연구와 관계되는 최소 SNP set의 선택에 대한 기초로 사용 될 수 있다. 그것은 기록되었지만, 중요한 기능의 강력한 가능성의 제시한 SNPs는 분석에서 제외하지 말아야 하고 개인적으로 항상 테스트 되어야 한다.
확실히, 서로 다른 집단의 수에 대한 전체 human genome을 커버하는 광범위한 haplotype 정보는 연구와 관련한 조건으로 모든 연구 group에 대해 개인의 자원이다. Perlegen Sciences Inc. human chromosome 21번 전체를 커버하는 haplotype map을 최근 내어놓았다. 비록 서로 다른 인종 group의 수로부터 빼낸 표본 chromosome의 수가 48개로 제한되지만, 이것은 genome-wide haplotype map의 발달에 좋은 시작임을 나타낸다. Perlegen’s haplotype data Golden Path Browser(http://genome.ucsc.edu/)로 편입되었고 또한 Perlegen’s 자체 website(http://www.perlegen.com/haplotype/)에서도 또한 볼 수 있다.

4. Simple Tandem Repeat Markers (STRs)
STRs 1990년대 동안 linkage 분석 하는 단일유전자의 주된 특징이다. 그러나 집단 기반 연구에 대한 SNP에서 흥미의 급증을 따라서 빈도를 감시 하고 있다. STRs는 두 개의 주요한 이유에 대한 유행이기 때문이다. (i)  그들은 쉽게 보다 적게 받을 수 있고, SNPs 보다 genotyping methodology의 높은 처리량을 가지고 (ii) STRssms 일반적으로 SNPs 보다 높은 mutation 비율을 가진다(SNPs 가 평균 10-9과 비교해서 meiosis 10-3 이상). 그것은 이 극심한 mutation 비율이 유전적 관련 연구를 혼란케 한다고 제의했고, single microsatellite allel와 같은 것은 haplotype의 지나친 수를 나타내고, mutation 사건을 통해 서로 다른 haplotypic background에서 독립적으로 일어난다. 이것은 STR allele와 질병과 괄녕된 인접한 polymorphism 사이의 관계의 발견을 막는다. 그러나, 경우와 제한에 대한 전체 STR allele 빈도 분포 profile의 비교는 인접한 질병과 관련된 SNP의 빈도에서 서로 다른 것을 나타내는 것이 가장 흥미로운 점이고 STR profile의 차이가 STR mutation 빈도의 결과에서 SNP allele 2 SNP allele 1의 관계 때문이다. 여기에 또한 LD SNPs 보다 STRs의 거리가 더 크다는 것을 발견 할 수 있다는 것을 암시하는 어떤 증거가 있다.; 아마 10배 거리 정도, 아마도 왜냐하면 어떤 STR mutation flanking site에서 재조합 보다 뛰어나게 상당한 정보를 제공하기 때문이다. 제한된 경험상의 증거에 대해 주어진 경고는 존재를 이용가능하고 LD를 발견할 수 있는 범위가 marker에 특이적이거나 높은 locus와 같을 것이고 예비의 경우에서 50-100kb의 간격에서 STRs의 공간을 구분한 것을 포함하는 것은 결정적인 간격 내에 잠재적 관계의 영역을 확인하는 것을 도와준며 그것은 SNPs의 다음으로 순위를 결정할 수 있다.

5. Statistical Analysis
가족 기반의 지원자와 경우-제어 지원자 시나리오 둘 다에서 single marker haplotype data 둘 다의 통계적 분석에 대한 방법이다. 간단하게, chi-square 분석은 경우-제한 지원자에서 biallelic marker에 대한 allele 빈도들을 기대하거나 관찰하는 것 사이에서 이탈할 때 사용될 수 있고, 반면에 multi-allelic systems(예를 들면, STRs) CLUMPdhk 같은 software를 사용하여 치환에 의해 테스트 될 수 있다. 부모-자식 3인조와 같은 Family-based 샘플들과 혈족과의 불일치는 transmission disequilibrium test(TDT)와 관련 방법들을 사용하여 분석 할 수 있다.; 비록 TDT biallelic marker에 의해 처음에 개발되었지만, TDT의 확장은 haplotype multi-allelic marker를 테스트 하기 위해 개발되었다. Case-control 연구에 대해, haplotype EHPLUS를 사용하여 평가되어 질 수 있고 덧붙여서 haplotype 구성은 case controls 사이의 haplotype 빈도에서 서로 다른 것에 의한 테스트를 사용 할 수 있다.

6. STR Ananysis
우리는 완전한 locus의 특성을 규정짓기 위한 첫 번째 단계로 STRs을 이용하여 중요 간격의 범위 안에서 잠재적으로 관련된 부위를 확인하는 것을 제안한다. 이렇게 확인된 부위는 우선적으로 SNPs와 함께 follow-up을 할 수 있다. STSs을 기반으로 한 경험적인 data에서 모집단과 관련하여 발견하는 것은 제한적이고 STRs와 관련된 증거의 부족은 SNP을 기반으로 관련된 연구의 진행에서 연구자를 단념 시키지 못한다 하더라도 주목해야 한다. STRs the temdem repeat finder 소프트웨어을 사용해서 확인 할 수 있다.
STR genotyping은 형광 검출 시스템으로 연결된 gel 또는 capillary electrophersis가 대표적으로 사용된다. 대조 집단에서 24개의 부분 집단을 이용하여, STRs의 다형성을 테스트한다; 중요 간격으로 나누어서 polymorphic STRs 50-100-kb 간격의 한 계열을 목표로 삼는다. 이러한 marke는 전체의 경우와 대조 cohorts와 잠재적인 질병과 관련된 지역을 나타내는 곳에서 증례와 대조군 사이의 대립 유전자 빈도의 분포 형태의 차이점을 확인하는 것으로 분류하였다. STR 대립 유전자 빈도의 분포를 비교하기 위한 소프트웨어의 가장 일반적인 하나는 the CLUMP 프로그램으로 영국 런던에 있는 Phychiatry 연구소의 David Curits Pak Sham의해 개발되었다.CLUMP chi-square 측정 수치의 기대 수준으로부터 벗어나기 위한 시험으로 Monte Carlo 모의 시험을 이용하고, 안정적인 것과 대비되는 활동적인 상황에서 직관적이고 호소하는 기술을 고려한 각각의 대립유전자를 포함하고 chi-square 수준을 최대화 한 대립유전자의 그룹화 한다. ClUMP는 간단하게 사용하고 http://www.mds.qmw.ac.uk/statgen/dcurtis/software.html 에서 다운로드 받을 수 있다.

7. Gene Selection, SNP Discovery and Haplotype Construction
중요한 간격에서 genes은 질병의 영향을 받은 연구 또는 그 외 고려사항과 관련된 관심 지닌 생물학적 기반의 분석을 위해 순위를 정렬할 수 있다모든 SNPs genotyping을 결과
서 대조군 집단에서 96개의 무작위로 얻어진 것을 확인 할 수 있다. ARLEQUIN, EHPLUS또는 유사한 소프트웨어는 부차적인 샘플에서 haplotype를 구성하는 것에 사용하고 htSNP은 각 각의 haplotype의 정확한 표시를 위해 필요한 최소한의 marker set의 선택을 돕기 위한 방법이다. 참고로 몇몇의 SNP genotyping platform은 일반적으로 이용되고 있다. 우리는 여기에서는 살펴보지는 않고 연구자는 비용, 강력함, 그리고 필요한 처리량에 적합한 시스템을 선택하면 된다.

8. Genotyping and Statistical Analysis
최선의 SNP set를 선택하므로 whole cohort를 이제부터 genotyped을 할 수도 있다.  Genotyping의 결과로 EM algorithm haplotype 구성과 haplotype 빈도의 결정에 이용된다. Cohort은 무작위로 통계학적 분석을 위해 실험군과 대조군으로 나누는 것이 유익하다. 두 번째로 부분을 이용하여 명확한 반복의 가능성으로 하게 한다. 실험군과 대조군의 haplotype 빈도의 분포는 CLUMP를 비교할 수 있다. 예를 들면 STRs 또는 EHPLUS처럼 보다 특이성 있는 소프트웨어 tool이다. 특유의 SNPs chi-square test를 이용하여 시험할 수 있다. Hardy-Weinberg equilibrium(HWE)의 시험은 모집단이 층별화가 되지 않았거나 각각의 marker대립유전자 빈도를 관찰하기 위한 예상된 genotype 분포 제시하는 것을 안전하게 사전에 확인하는데 유익하다. 예상되는 유전자의 빈도는 가설 p2 + q2 + 2pq = 1 에서 대립유전자의 빈도가 계산된다. 여기서 pq는 대립유전자 빈도이고 p2, q2, 2pq 3가지 가능성의 유전자 상태의 빈도에 상응한다. 실제적인 genotype의 빈도는 chi-square을 이용하여 예상된 빈도에서 벗어난 시험한다. 계산은 간단하고 수작업 또는 Microsoft Excel macro for biallelic marker 로 할 수 있다. ARLEQUIN software 을 대신하여 biallelic multi-allelic marker systems을 위한 HWE의 프로그램이 포함되어 있다
Marker와 질병 사이에 관련하여 발표하기 위한 조건에 적합한 p-value 값은 중요한 토론의 주제이다. 분명하게 명목상의 cut-off p = 0.05은 다양한 실험에서 이용하기에는 부적당하다. 아무리 표준 방법의 다양한 검사의 교정이라도 우연하게 일어날 수 있는 경우이기 때문이다. 예를 들면 Bonferroni correction으로 설득력이 있다.연구자는 과도하게 엄격하고 선례를 따르는 것 대신에 덧 붙여 부가적인 의미로 질병의 진행 과정 안에 중요한 증거를 포함하는 것의 threshold 고정은 회피한다.

9. The Burden of Proof-is an Associated Gene Really Involved in the Disease Process
불행하게도 gene과 질병 표현형에 관련된 검출은 질병 진행 과정을 포함한 gene 속하는 시험의 명확한 증거의 성립되지 않았다. 오히려, 보다 구체적으로 요구되는 질병 진행과정에서 가능성이 포함된 하나의 증거를 제시한다. 두번째 cohort와 관련된 반복은 중요한 논쟁거리가 된다. 예를 들면 insulin gene type 1 당뇨병과 관련하여 많은 경우에 재현된다. 독립된 반복의 결과가 생기더라도 우연한 경우의 반복 또는 명백한 질병과 관련된 LD에서 marker하에 시험은 인접한 gene 때문에 생길 수 있는 가능성에 대해 고려해야 한다. 만약 다형성이 단백질 cording sequence와 아미노산의 변화의 원인이라면, 자연적인 변화(conservative or non-conservative)로 인해 단백질 기능의 영향의 가능성, (2, 3의 단백질 구조의 잠재적인 분열)이 일어나는 배경, cross-species conservation과 단백질 계열 범위 안에 보존의 정도를 평가할 수 있는 가능성을 가지게 된다. 보존은 상상속의 조절 요소 안 의 잠재적 영향의 다형성의 표준 척도로 또한 이용되기도 한다. 궁극적으로 연구자들은 다양한 질문의 기능적 효과를 실험실 기반의 시험으로 판단하기를 바란다. 가상의 프로모토 polymorphism의 유전자 발현과 세포를 기초로 한 보고 분석, 아미노산 변화에 따른 기능적 효소 신호 변화의 분석, 전체 organism을 배경으로 gene knock-out 또는 다형성 Knock-in 기술을 이용하여 생쥐를 실험적으로 분석하는 것이 포함되고, 이름 붙이는 것이나 이용할 수 있는 기술의 작은 단편이다.

Personal tools
KoBIC service