2. Human Genome Sequencing 방법

From Biospecies

Jump to: navigation, search

 Hierarchical shotgun sequencing (계층적 shotgun sequencing)

DNA sequencing method
47,48의 개발 바로 후에, shotgun sequencing 전략이 소개되었다49-51.; 그것은 지난 20년 동안 large-scale genome sequencing52-54 (대량의 게놈 염기서열결정)을 목적으로 하는 중요한 방법으로 남아있다. 그 연구는 개량되었고 더욱 능률적으로 만들기 위해 확장되었다. 예를 들면, fragmenting (단편화)과 cloning DNA에 대한 향상된 protocol은 더욱 균일하게 연출된 shotgun libraries의 구축을 할 수 있게 했다. double-stranded clones ('double-barrelled' shotgun sequencing)의 양 끝으로부터 sequencing 하는 것의 경험은 1990년 Ansorge와 다른 사람들37에 의해 소개되었고, sequence fragments(서열 조각) 사이의 'linking information (연결정보)'의 사용을 할 수 있게 했다.


   shotgun sequencing의 적용은 더욱더 커다란 DNA molecule에 적용하기 위해 또한 확장되었다. - plasmid (~4 kilobases (kb))에서 cosmid clones37 (40kb)으로, bacteria 와 yeast55 (100-500kb)에서의 artificial chromosomes clone화와 bacterial genomes56 (1-2 megabases (Mb). 대체로, genome의 변덕스러운 크기는 repeated sequence (반복 서열)과 무작위에서 균일한 견본의 추출일 가능할 때라면, shotgun method에 의해 곧장 sequencing 되었다. 그 genome은 후에 ‘hashing (data에서 알파벳순으로 표시된 모든 k-letter(k-자) 단어들의 table을 찾아 보고 그것을 참고하여 overlap (겹치는) 되는 것을 찾는 것)'의 간단한 computer science technique (컴퓨터 과학 기술)을 사용하여 assembled (연결하다) 하게 되었다. 기능의 적용범위와 같은 gap들의 예상된 개수의 수학적 분석은 유사하게 (앞서 이야기한 컴퓨터 과학 기술을 사용한 assembled와 같이) 수월했다57.


   실제적인 어려움이 발생했는데 repeated sequences와 편향된 cloning 때문이었다. 적은 양의 repeated sequence는 shotgun sequencing에 대한 작은 문제로 괴롭혔다. 예를 들면, 하나는 typical bacterial genomes (보통의 박테리아 게놈, 약 1.5% repeat) 또는 fly genome (파리 게놈)의 euchromatic portion (진정염색질 일부, 약 3% repeat)을 빠르게 asemble 할 수 있다. 그와 대조적으로, human genome은 transposable elements로부터 유래된 interspersed repeats (여기저기 흩어져 있는 반복서열)를 포함하는 repeated sequences (반복서열)와 tandem (앞뒤로 반복되거나), palindromic (회문식;앞뒤 어느쪽에서 읽어도 같은 서열이 되는) 또는 dispersed fashion (흩어진 방식)으로 중복된 긴 genomic regions (게놈의 영역)로 채워져 있다 (>50%) (아래를 봐라). 이들은 high sequence identity (높은 서열 유사성, 98-99.9%)을 가지는 large duplicated segments (많이 중복된 단편, 5-500kb)를 포함 하고, recombination 동안 이들에서 잘못된 편성은 genetic syndromes (유전학적인 증후군)의 원인이 되는 deletion (결실)들을 만들어낸다. 이와 같은 특징들은 정확한 assembly와 genome sequence를 끝내는 것을 복잡하게 한다.


   large repeat-rich (커다란 반복이 많은) genome들을 sequencing 하기 위한 두 개의 연구들이 있다. 첫 번째는 virus들의 repeat-poor (반복이 빈약한) genome, bacteria와 flies (박테리아와 파리)에 대해 사용한 적이 있는 whole-genome shotgun sequencing approach (전체 게놈을 shotgun sequencing 하는 접근법)로, misassemblies (잘 못 조립 되는 것을)를 피하기 것을 시도하기 위해 linking information (연결 정보)와 computational analysis (컴퓨터를 사용한 분석)를 사용하였다. 두 번째로는 ‘hierarchical shotgun sequencing (계층적 shotgun 염기서열 결정)' 접근법으로 (Fig. 2), 또한 ’map-based (지도 기반)', 'BAC-based (BAC 기반)' 또는 ‘clone-by-clone (clone에 의한 clone)'이라고도 부른다. 이 접근법은 genome을 커버 하는 large-insert clone (보통 각각 100-200 kb)의 세트를 체계화 하고 생성하는 것을 포함하고 적절히 선택된 clone들에서 개별적으로 shotgun sequencing을 실행할 수 있다. 왜냐하면 sequence information (서열정보)은 특정 부분이기 때문에, long-range misassembly (긴 범위의 잘못 연결하는) 논쟁점은 제거되게 되고 short-range misassembly (짧은 범위의 잘못 연결하는)의 위험성은 감소되게 된다. 한 가지 경고는 어떤 large-insert clones은 rearrangement가 일어나게 되는 것이긴 하지만 이 위험성은 clone fingerprint를 포함하는 알맞은 quality-control measures (품질-관리 평가)에 의해 줄일 수 있게 된다 (아래를 봐라).


   이 두 방법은 mammalian genome (포유류 게놈)의 finished sequence (마지막 서열)를 생성하기 위해 비슷한 경비를 들게 하기에 알맞았다. hierarchical approach (계층적 접근법)은 clone들 사이에서 sequence의 overlap (서열이 겹치는)을 만들고 clone의 map (sequencing의 총 비용의 약 1%)를 만드는 것이 필요하기 때문에 whole-genome approach (전체 게놈 접근법)보다 초기 시작 비용이 높았다. 그 반면, whole-genome approach (전체 게놈 접근법)은 finished sequence (완성 서열)를 만들어내는 마지막 단계에서 더욱 더 ksg은 일과 경비를 필요로 하는 것 같다. 왜냐하면, misassemblies (잘 못 조립된)를 결정하는 것을 요구하기 때문이다. 두 방법은 cloning biases (cloning 편향)를 또한 다루어야 하며, large-insert 또는 small-insert clone libraries 양쪽에서 어떤 부분의 under-representation (불충분한 설명)내에서 끝난다.


   human genome sequencing 성과가 whole-genome을 사용해야 할지, hierarchical shotgun sequencing을 사용할지 어떨지에 관한 것을 넘어선 활발한 과학적 논쟁이 있다. Weber과 Myers
58는 whole-genome shotgun approach (전체 게놈 접근법)에 대한 구체적인 제안서와 함께  방법은 이용하는 것과 더욱더 효율적인 것에 대한 것을 분석을 제시함과 함께, 이들 토론을 자극했다. Green59은 잠재적인 이익이 위험성을 능가하지 못한다는 이들 논쟁과 결론에 도전했다.

Personal tools
KoBIC service