7.SNP 동정
From Biospecies
1. SNP IDENTIFICATION
서열 데이터에 있어서 전산적인 다형성 검색은 보통 네 가지 단계를 따른다. 첫번째로 높은 유사성을 가지는 서열을 정의하고 Human반복서을을 배제시킨다. 여기에는 BLAST, REPEATMASKER의 도구가 사용된다. 두번째 단계는 paralogue필터링 단계로서 false positive prediction을 제거하는 단계이다. 이러한 절차는 비교전산체학을 통해 이루어진다. 세 번째 단계는 서열에 대한 분석 단계로서 엑손 인트론의 도너, 앱셉터사이트에 대한 검색과 이러한 연구는 변환적 전사체에 대한 연구로서 향후 SNP의 검색에도 유용하게 이용된다. 네번째 단계는 정확성을 높이는 단계로서 base간의 정렬을 통해 서열상의 차이점을 찾아내는 단계이다. 이러한 것은 통계적 도구를 사용하여 수행된다.이러한 전체적인 과정을 수행하는 생물정보학적 도구는 상업적 도구와 교육적 도구로 나눌 수 있으며 각각에 있어 차이점을 보인다. 그 중 가장 유력하다고 판단되는 도구로서 PolyBayes, PolyPhred, Sequencher이 있다. PolyBayes와 PolyPhred는 교육적도구로서 상 요함에 있어 제약이 없다.
2. PolyBayes
PolyBayes는 베이지안 알고리즘을 사용한 것으로서 true positive 비율 또는 SNP score로서 예측되며 지놈 서열에 정렬한 EST상에서의 SNP발견에 대해 보여준다. Polybayes는 오버랩핑영역에 있어서 SNPs예측에 이용되어왔다.
3. PolyPhred
PolyPhred 는 Phred, Phrap, CONSED와 함께 사용되기 위해 개발된 것으로서 SNP예측에 사용된다. 미토콘드리아 DNA에서 시험적으로 테스트하였고 그 결과로서 이 소프트웨어의 정확도가 95%에 육박한다는 것을 보여줬다.
4. Sequencher
Sequencher은 GeneCodes에 의해 개발된 도구이다. GeneCodes는 서열 정렬, 주석처리, 편집에 대해 연구한다. 비록 상업적 도구이기는 하나 데모버전은 사용이 가능하다. <html>http://www.genecodes.com/features/html</html> Sequencer은 다른 자동화된 도구와 함께 사용이 가능하며 GeneCodes는 지속적으로 관련 도구들을 추가하고 개발하고 있다.
5. Non-sequencing Methods
몇몇 그룹에 있어서는 SNP의 연구에 있어 Non-sequencing 방법을 사용학고 있다. 가장 유력한 기술은 고밀도 DNA 칩이며 이러한 방법을 통해 크로모좀 21번과 미토콘드리아 DNA에 대한 분석에 사용되어 왔다.
6. PCR PRIMER DESIGN
SNP 후보군의 많은 수는 공용 데이터베이스에 존재한다. 이러한 리소스를 획득하는 데 가장 중요한 능력은 유니크한 유치와 SNP genotype 분석등에 사용되는 PCR 분석을 디자인하는 것이다. 유전학자들은 검증된 것을 원하며 대규모 프라이머 디자인에 직면해 있다. 관습적인 프라이머의 선택은 소비적이다. 이러한 것에 대해 많은 도구들이 웹상에서 이용이 가능하다.
7. Tools
현재 annealing temp를 계산하는데 있어서 표준적인 방법은 없다. 많은 도구들이 이러한 계산을 수행하지만 그 결과값들은 일치하진 않는다. 하지만 지속적인 개발이 계속되고 있고 대표적인 도구는 Primer3이다.http://www-genome.wi.mit.edu/genome_software/other/primer3.htmel Primer3가 기준이 되는 이유는 자유롭게 이용이 가능하고 사용법이 간편하기 때문이다. 다양한 서열을 한꺼번에 처리하는 것이 가능하며 관련 문서가 잘되어있으며 사용자에게 편리한 인터페이스를 제공한다. 또한 사용자에 따른 입력 값의 조정이 가능하다.
8. Custom Primer Design Services
프라이머 디자인은 공용 데이터베이스뿐만 아니라 많은 회사에서도 그러한 서비스를 제공한다. 대표적인 예가 Sequenom이다. Sequenom은 realSNP란 사이트를 통해 이러한 서비스를 제공한다. Applied Biosystems는 또다른 프라이머디자인 서비스 회사이다. 연구자들이 제공하는 서열에 대해서 최적화된 분석방법을 통해 디자인된 결과를 제공하게 된다.
9. Public Databases
SNP Consortium Allele Frequency Project에 의해 제공되는 프라이머는 FTP를 통해 사용이 가능하다. 몇몇 그룹에 의해 프라이머가 제공되며 특정 실험조건, 다른 방법에 의해 제공되는 프라이머임을 숙지해야 한다.
10. BROADER PCR ASSAY DESIGN ISSUES
SNP 분석 방법은 세가지 중요 요소를 가진다. 1) Allelic discrimination methods, 2) reaction formats, 3) detection methods. 각기 다른 SNP분석 디자인 간에 이의성은 존재한다. 분석디자인에 있어 가장 중요하게 고려하는 것은 allelic discrimination이다. 이러한 방법은 매우 대단하다. 예를 들면 4개의 주요 방법, allele-specific hybridization, primer extension, ligation, invasive cleavage이다. 몇몇 경우에 있어서는 하나의 값이 다른 것들을 대체하느냐에 있다. 그러나 거의 모든 SNP genotyping 분석기술은 PCR을 사용한다. 올바른 프라이머를 디자인하기 위해서 분석 방법을 결정하는 것이 가장 중요하다.
11. Obtaining Sequence
SNP의 flanking sequence는 다양한 소스로부터 얻어질 수 있다. 알려진 SNP관련 공용데이터베이스인 dbSNP, SNPper이 그 예이다. SNPper은 Harvard’s Children’s Hospital Informatics Program에 의해 운영된다. Single SNP분석의 경우 SNPper은 Primer3에 대한 링크를 제공한다.
12. Repeat Masking
지놈의 많은 부분이 반복된 영역이나 low complexity DNA로 구성되어 있다. 이러한 영역으로부터의 프라이머 획득을 피하는 것은 중요한 것이다. 이러한 반복서을을 마스킹하는 도구로서 가장 유력하게 제공되는 것이 RepeatMasker이다. Fasta 파일형식을 지원하며 동일한 포맷을로 결과값을 산출한다. 이미 마스킹된 서열의 획득은 공용 데이터베이스에서 이루어질 수 있다. 하지만 지놈에 대한 정확한 마스킹된 서열은 아직까지 밝혀지지 않았으며 이를 극복하는 한 방법은 특이적 SNP 프라이머의 제작으로 이루어 질 수 있다.
13. Setting Experimental and Design Parameters
최적화된 실험에 있어서 파라미터 값을 설정하는 것은 대단히 중요한 것이다.
엄격한 디자인 파라메터는 프라이머를 디자인했을 때 검색의 첫 단계에 대해 허용한다. 프라이머의 디자인은 Primer3와 같은 프로그램이 실험적 파라메터와 프라이머 구조 파라메트의 입력 값을 가지고 수행한다. 최상의 실험적 결과에 대한 최적화된 디자인 파라메터에 대한 몇몇 제시는 PCR application(Beasley et al., 1999)에서 찾아 볼 수 있다. 그러나 엄격한 실험 조건과 최적화된 디자인 파라메터는 실험의 실패를 감소시킬 수 있다.
14. PRIMER SELECTION
대부분의 설계프로그램에 있어서 프라이머의 선별은 소프트웨어로 미리 형성된다. 프라이머들은 특별한 매개변수에 의해서 선별된다. 만일 하나의 프라이머의 셋트 보다 좀 더 많이 되돌아 온다면 프로세싱 과정 후에는 적당한 쌍의 선택이 요구 되어질 것이다. 프로세싱 후에는 필요한 PCR 프라이머들로부터 프라이머 시퀀싱의 선택을 위한 pooled sequencing 같은 기술들이 또한 필요로 할 수 있다.
15. Design Specific to Pooled Sequencing
Pooled sequencing은 반응에 있어 각각의 그룹 내에 있는 SNP의 빈도를 관찰하기 위한 시퀀싱으로 사용한다. 후보SNP와 이의 좌우서열은 각각의 독립된 DNA 풀(pool)과 단일의 독립된 근원의 DNA 풀로부터 설명된다. PCR 산물의 시퀀싱 후에 fluorescent dye-terminators 사용으로 미리 형성되고 서열의 흔적은 정렬되고, 예측된 빈도를 인정한다. PCR의 설명과 대립유전자 빈도의 예측에 앞서 이런 과정의 DNA 풀링(pooling)은 그다음에 있는 흔적의 정량검출 최대치로 상당한 시간과 비용의 절약이 이루어진다. Pooled sequencing 반응의 설계에는 몇 가지의 단계가 있다. 이러한 설계의 방법은 RepeatMasker 와 Primer3를 사용하여 유닉스 기반으로 운영된다. 반복되는 서열은 PCR 프라이머의 선택에 앞서 은폐된다. 은폐되지 않는 서열은 프로세싱 후에도 보존된다. Primer3의 입력은 몇 개의 최적화로 활용된 매개변수에 의해서 배치된다. 최적화는 SNP에 관련된 프라이머의 위치에서 매우 중요하다. 이러한 프라이머는 SNP의 25베이스들보다 더 짥게는 인정되지 않는다, 그러나 시퀀싱을 위한 PCR 프라이머로 사용되기에는 충분히 밀접하다. Primer3의 사용후 결과는 실험적인 수행을 활용하기 위해서 기준을 기초로 한 최고의 프라이머를 선택하는 공정이다. 이러한 기준들에는 (1) 시퀀싱 프라이머는 타겟으로부터 100베이스 정도여야하고, (2) 프라이머와 SNP사이에 8베이스보다 많게 다중의 As 나 Ts (즉 AAAAAAAA = 다중의 As 인것 같음 ?)가 없어야 하며, 10베이스 보다 많게 다중의 GTs 나 CAs가 없어야 한다.이런 설계는 실험적인 실패율이 3%보다 적게 나타남을 보여주어야 하고 프라이머가 타겟 주의에 높은 진실성을 갖는 SNP 서열로부터 충분히 떨어져 있다. 이러한 설계과정에서 SNPs는 표준 설계가 만들어지는 것에 반 도나 되는 실패를 보인다, 그러나 이러한 비율은 실험실을 기초로한 시도 와 과실 보다도 적은 비용이 소요된다.
16. Design Specific to Single Base Extension (SBE) Reactions
SBE는 실험 하에 SNP에 인접한 프라이머를 요구한다. 이러한 프라이머는 그 다음에 보통 ddNTP로 표시된 단일한 서열로 확장된다. ddNTPs 는 2가지 가능한 대립유전자를 나타내기 위한 2가지의 다른 라벨을 사용함으로써, SNP의 대립적인 부위를 결정할 수 있다. SNP-specific SBE primer 설계는 pooled sequencing primer 설계와 마찬가지로 다량의 같은 도구들을(tools)사용함으로써 시작될 수 있다. 반복되는 것을 필요로 하는 두가지 모두는 PCR 프라이머의 설계과정 전에 감추어 진다. SNP-specific primers는 감추어지지 않는(보존된) 서열을 이용하는 것으로 선택된다. PCR 산물의 크기는 단일염기 신장반응의 모든 시퀀싱 보다 더 작을 수 있다. SBE 프라이머는 PCR 산물의 말단을 덮을 수 없고, PCR 프라이머는 SBE 프라이머로 중복될 수 없다. Primer3 내의 프라이머는 목표물(타겟)에 중복 될 수 있다 그래서 프라이머의 중복을 방해하기 위한 타겟 주위에 충분히 넓은 범위의 SNP를 공급하는 것이 중요하다. SBE 프라이머를 위한 매개변수들과 방법들을 선택할 때 다른 방법들은 다른 프라이머를 필요로 한다는 것을 기억하는 것이 중요하다. 우리는 TM 사이의 60-65 정도의 활동 범위를 갖는 16-40 베이스들로부터 작은 프라이머를 선별하는 것을 발견해야 했다. 예측된 TM값(PCR시 사용되는 Tm 값- 원래의 의미는 2중 구조가 단일 구조가 될 때 그 중간 온도를 Tm값이라 한다)에 의하면 SBE 프라이머의 적은 수는 웹상의 무료 도구들을 사용하는 것이 가능하다. 높은 처리량을 갖는 설계는 연관된 방법을 위해 엔트로피 값과 엔탈피 값의 배치를 최고로 활용해서 결정한 후에 TM 방정식을 해결하는 것이 최고의 선택이다. 더 나아가 최적화는 적어도 2차구조의 대부분과, 후보 SNP의 적게 연속적으로 반복된 As와 Ts의 위치에서 SBE 프라이머의 선별로 성취될 수 있다.
17. Problems Related to SNP assay validation
또다른 실험적인 설계로써, 후보SNPs의 검증을 위한 분석은 세부항목의 처리를 요구한다. 문제점들은 도구들의 사용에 관련해서 문서자료로 항상 명백하게 또는 뚜렷하게 정기적으로 발생하지는 않는다. 어떠한 문제점들은 다른 것 들이 아직 해결되지 않았더라도, 해결하는 것은 쉽다. 인간유전자 조립의 마지막 단계의 완성으로 다수의 문제들이 해결되었더라도, 고유의 도전은 남을 것이다. 옳지 않은 물리적 지도의 정렬, 물리적 지도 자료의 갭(빈 부분) 그리고 옳지 못한 조립 때문에 다수의 오류가 있다. 이러한 오류들은 paralogues(파라로고스)의 검증에 있어 SNP 매핑을 다중의 위치들로 , 옳지 못한 haplotypes 과 난해함으로 이끈다. 그러나, SNP 위치들은 점차적으로 옭게 되는 조립의 과정으로 계속해서 수정된다. 지도의 위치들은 휴먼 지놈 프로젝트의 완성될 때까지 바뀌어지는 것은 계속 될 것이다. 이것은 자료의 분석과 길잡이 유전자를 포함하는 것에 있어 난해함을 주는 원인 일수 있다. 또다른 어려움으로는 미확인 파라로고스의 지도가 완성이 되지 않았다는 것이다. SNP 원래의 근원 서열의 미확인 파라로고스로부터 인공산물이 발생 되었을 경우, 지도상에 특별한 위치로 나타낼 수 있다. 길잡이 서열은 dbSNP, TSC 그리고 SNPper를 통하여 알려진 SNP가 주어진다. 처음에 두 사이트들은 오직 SNP에서 얻어진 데이터베이스 내의 적은 양의 좌우 서열을 공급한다. 이것은 제한된 서열 정보이기 때문에 PCR 프라이머들의 설계에 있어 실패로 인도할 수 있다. SNPper는 UCSC의 인간 유전자 조립으로부터 회수된 길잡이 서열과 SNP 위치의 맵핑으로 좀더 많은 좌우서열(flanking sequence)을 공급한다. 다른 문제들은 DNA와 현재의 과학기술로 행해질 때의 고유한 것이다. 단일 핵산의 오랜 사용은 시퀀싱 반응을 실패하게 할 수 있다, 삽입과 결실의 행위일 경우에는 시퀀싱과 allele-specific hybridization(대립유전자의 특이적 혼성화반응), 결찰(ligation) 그리고 침식하는 분할(invasive cleavage)같은 SNP 대립 식별 방법이 문제의 원인 일 수 있다. 이러한 문제들은 오직 SNP 결정화를 위한 새로운 과학기술로 풀어 질 수 있을 것이다.



