개 Genoem Data 특징

From Biospecies

Jump to: navigation, search

Draft genome sequence의 생성
우리는 whole genome shotgun (WGS) arroach를 사용하여 암컷 boxer의 genome을 sequence 하였다. ~7.5-fold sequence 중복성을 제공하는, 총 31.5 million (3십1만5천)의 sequence read는개선된 version의 ARACHNE program을 사용하여 assembly 하였고, 초기 assembly의 결과 (CanFam1.0)은 아래의 더 많은 분석을 위해 사용되었고, 업데이트된 assembly (canFam2.0)은 적은 개선을 포함하고 있다.

Genome assembly. 최근 genome assembly의 총 길이 2.41Gb 범위는 저장된 gap에서 1%를 가지는 2.38Gb의 nucleotide sequence으로 구성 되어 있다. assembly는 매우 높은 연속성을 가진다. N50 contig size는 180kb (이것은 180kb 또는 그 이상의 연속적인 sequence에서 모든 bases reside의 반이다.) 그리고 N50 supercontig size는 45.0 Mb이다. 특히, 이것은 대부분의 gene들이 gap sequence 없이 포함된다는 것과 canine(송곳니, 갯과 동물) chromosome들(평균 size 61Mb)는 거의 모든 그들의 sequence가 하나 또는 두개의 supercontig 내에서 배열 되었고 방향이 결정 되었다는 것을 의미한다. 특히, sequence contig들은 쉽게 검사한 standard poodle(표준 푸들)의 sequence 보다 ~50-fold 더 컸다.
   assembly는 radiation hybrid (방사능 hybrid)와 cytogenetic map들 둘다로부터의 data를 사용하여 canine chromosome들에 고정 시켰다. 대충 97%의 assembly된 sequence가 chromosome에서 배열되고 방향이 결정 되었고, 두 map들의 우수한 일치를 보여 주었다. 오직 세개의 불이치가 있는데, 그것은 sequence된 boxer의 추가적인 fluorescence in situ hybridization (FISH) 데이터를 얻어서 해결 하였다. 3%의 assembly가 대규모의 highly repetitive sequence로 구성되어 고정되지 않았고, 거의 전체가 satellite sequence로 구성된 8개의 supercontig들0.5-1.0Mb를 포함한다.
   assemblynucleotide 정확도와 genome coverage는 높다. assembly에서 base들의 98%는 대단한 quality scores 40을 가지고, 에러 비율도 10-4보다 작은 것과 상응하며 finished human sequence의 standard와 비교해도 손색이 없다. 우리가 finished sequence 760kb에 대한 assembly를 직적 비교했을 때(어디에 boxer의 homozygous 영역인지, polymorphisms에 기인한 다른 것을 제거하기 위해), 우리는 finished sequence의 99.8%를 cover 하는 draft genome sequence를 찾았으며 대단한 quality score 40을 가지는 bases은 2X10-5의 실험적인 에러 비율을 가진다.

Explaining the high sequence continuity (높은 sequence 연속성을 설명하다). 개 genome assembly는 몇 년 전에 얻어진 mouse genome (25kb)의 WGS assembly보다 우수한 sequence 연속성 (180kb)를 가진다. 최소 세가지 요인이 개 assembly의 높은 접속성에 기여를 했다. 첫 번째로, 우리는 개선된 algorithm을 가지는 새로운 version의 ARACHNE를 사용하였다. 이전의 소프트웨어 verseion으로 assembly한 dog genome은 180kb 61kb로 N50 contig size가 감소했고, 새로운 version으로 mouse genome을 assembly 할 때는 25kb에서 35kb로 N50 contig size가 증가 했다. 두번째로 최근 duplicate 된 sequence 양이 대충 mouse 보다 개에서 대충 두배 정도 낮았다.; 이 것은 연속되는 길이의 개선 때문인데, 두 생물체에서 sequence의 gap들이 최근의 duplicate된 sequence에서 나타나는 경향이 있기 때문이다. 세 번째로, 개의 sequence data는 mouse와 비교하여 높은 redundancy (7.5-fold 대 6.5-fold)와 높은 quality (read lenght, pairing 비율과 insert size의 촘촘한 분포라는 말로) 둘 다를 가진다. 개 genome에 대한 contig size는 data redundancy (데이터 중복성)이 7.5-fold에서 6.5-fold로 감소할 때 약 32% 감소했다. 영향력의 상쇄는 개 genome이 polymorphism을 가지고 있다는 것이고, 이에 반해 laboratory mouse (실험실 생쥐)는 완전히 근친교이다.
Assembly certification (Assembly의 검증). 비록 'quality scores'가 draft genome sequence의 nucleotide의 정확도를 나타내기 위해 개발 되었지만, 전혀 다른 측정법이 long-range assembly(긴 범위의 assembly)의 정확도를 반영하기 위해 개발 되었다. 그 결과 우리는 두가지 종류의 내부의 불일치를 기본으로 측정하는 것을 개발하기 위해 검색을 했다. 첫 번째는 haplotype의 불일치인데, single diploid  각각으로부터 assembly된 영역 내에서 세개 혹은 그 이상의 별개의 haplotype이 확실한 증거와 관련이 된다. 두 번째는 linkage 불일치인데, paired-end read의 위치에 대한 cluster의 read와 관련이 있고 약간 이치에 맞지 않다. 이것은 다음의 경우를 포함한다.: (1) 하나의 끝이 그 영역에 대해 map 될 수 없고, (2) linkage relationship (연관 관계)는 contig 내의 sequence와 일치하지 않거나, 또는 (3) 거리 제약이 non-overlapping sequence contig들 사이의 overlap을 포함하는 것을 포함한다. linkage inconsistency test (연관 불일치 테스트)는 read pair (읽는 쌍이)가 insert size에서 촘촘함의 제약을 가지는 clone library들로부터 파생되었을 때 가장 강력한 테스트 방법이다. 만약 그것이 불일치로부터 자유롭다면 assembly의 영역은 'certified(공인된)'로 정의 되고 그렇지 않다면 'questionable(의심스러운)'으로 정의 된다.
   N50 size의 증명된 영역을 가지는 증명된 영역에서 assembly reside들의 약 99.6%는 ~12Mb 또는 약 chromosome의 1/5이 된다. 남아 있는 의심스러운 영역은 보통 작고(대부분은 40kb가 안된다),  그곳은 수백 kilobase 영역의 소량이다. 의심스러운 영역은 보통 많은 불일치 영역을 가지고 있고, 아마도 misassembly 또는 segmental duplication에 기인한 overcollapse를 나타낸다. chromosome 2, 11 그리고 16은 의심스러운영역에서 1.0-2.0%의 그들의 sequence를 가진다. 증명된 그리고 의심스러운 영역은 개 genome assembly의 공개 release에서 annotate 되었다. assembly certification의 개념과 함께, scientific community는 draft genome sequence에 대해 확실한 level을 사용 할 수 있게 했다.

Genome Landscape and evolution (Genome 전망과 진화)
포유류 genome들의 모양에 대한 진화적 작용의 우리의 이해는 sequence된 primate(영장류)와 rodent(설치류) genome들의 comparative analysis로부터 엄청난 장점을 가진다. 하지만, 설치류 genome은 eutherian mammal의 공통 조상과 관련된 것으로부터 아주 파생되었다. 설치류와 영장류를 포함하는 계통분기에 대한outgroup로부터  첫 번째로 광범위한 sequence와 같이, 개 genome 은 포유동물 genome 진화에 대한 신선한 관점을 제공한다. 따라서, 우리는 대규모의 rearrangement의 상호작용과 비율, transposon insertion, deletion과 nucleotide divergence를 주요한 포유루 순서 (primate, rodent 그리고 carnivore) 세개를 교차하여 조사했다.
Conserved synteny and large-scale rearrangements(보존된 synteny와 대규모의 rearrangement). 우리는 명백한, 유일한 align된 sequence의 고정점으로부터 multi-species synteny map을 만들었고, 개, 인간, mouse 그리고 rat genome 사이의 conserv된 synteny 영역을 보여준다. 약 94%의 개 gnome이 세 종에 conserve된 synteny의 영역에 있다.
   genome들의 주어진 쌍에서 우리는 다른 순서와 방향 없이 계속해서 움직이는 영역의 'syntenic segment'에 대해 알아 보고 그리고 두 genome들에서 끊임없는 영역인 'syntenic block'에 대해 조사한다. 하지만 내부의 rearrangement를 경험하였던 것을 가진다. block들 사이에서 syntenic 구분점은 우선 interchromosomal exchange를 나타내고 syntenic segment 사이의 breakpoint는 intrachromosomal rearrangement를 나타낸다. 아래의 분석에서, 우리는 최소 500kb의 syntenic segment에 촛점을 맞추었다.
   우리는 개, 인간 mouse 그리고 rat genome을 교차하여 총 391개의 syntenic 구분점을 확인했다. 다수의 종에 대한 데이터와 함께, 그것은 특이적 혈통에 대한 사건으로 지정이 가능했다. 우리는 human, dog, mouse 그리고 rat 계통의 구분점의 총 수를 계산하였고 설치류 계통의 각각에 대한 값은 human의 공통 조상으로 부터의 모든 구분점을 나타낸다. human 계통에서 총 구분점의 수는 실제로, 개와 mouse 또는 rat 계통에서 보다 작았다(83 대 100, 161 또는 176, 각각). 그러나, 개에서 보다 human 계통에서 intrachromosomal이 더욱 많았다(52 대 33).
  비록 genomic rearrangement의 전체 level이 human에서보다 설치류에서 더욱 높았지만, 개와의 비교에서는 반대영역에서는 예측한대로 보여주었다. 특히, human chromosome 17과 orthologous mouse sequence 사이에서 이전에 관찰된 많은 intrachromosomal rearrangement는 대부분 human 계통에서 발생했다는 것을 보여주었다. human chromosome 17은 segmental duplication과 gene family들이 많고 genomic fragility (게놈적 허약함)에 기여를 한다.
Genomic insertion and deletion(게놈적 삽입과 삭제). 개의 euchromatic genome은 mouse 보다 ~150Mb 정도 작고 human 보다 ~500Mb 정도 작다. 작은 것의 총 크기는 국부의 level에서 반영되고 있고, 중앙값 크기에 대한 영역에 상응하는 개의 conserv된 synteny의 100-kb block은 mouse 보다 ~3% 크고 human 보다 15% 크다.
   genome size를 결정하는 힘의 균형의 이해를 위해, 우리는 human과 mouse dog genome을 alignment 하였다. 특히, 우리는 각각의 genome 내에서 계통-특이적 interspersed repeat들을 확인했고, interspersed repeat들은 short interspersed elements (SINEs), long interspersed elements (LINEs), 그리고 다른 transposable elements의 특정한 family들로 구성되어 있었고 이들은 sequence analysis에 의해 쉽게 알 수 있었다. 남아 있는 sequence는 'ancestral(조상의)'로 annotate 되었고, ancestral 유일한 sequence와 ancestral repeat sequence 둘 다로 구성 되어 있다.; 이들 두 카테고리들은 겸하고 있다. 왜냐하면 고대의 transposon-derived sequenc들은 repeat 나이와 함께 퇴화되는 것을 인지하는 것이 강력하기 때문인데, 특히 mouse 계통의 빠른 분기하는 것에서 특히 강력하다.
   이 comparative analysis는 human에 관련된 dog와 mouse에서 작은 크기의 genome size에 대한 서로 다른 힘의 중요성을 나타낸다. dog genome의 작은 크기는 첫 번째로는 human (609Mb) 또는 mouse(954Mb) 보다  개 (334Mb)에서 lineage-specific repeat sequence(계통-특이적 repeat sequence)가 충분히 적기 때문이다. 이것은 endogenous retroviralDNA transposons의 낮은 activity를 반영하고(human에서 ~183,000 대 개에서 ~26,000의 현존하는 copy들), 이들뿐만 아니라 개에서 SINE element의 사실은 human에서 보다 개가 더 적다(비록 mouse에서 그것에 대한 비슷한 길이이긴 하지만). 결과에서와 같이, genome에서 알아 볼 수 있는 repetitive elements의 총 비율 (linage-specific(계통-특이적)과 ancestral(조상) 둘다)은 mouse(40%) 또는 human(46%) 보다 개 (34%)가 낮다. 대조적으로, 작은 크기의 mouse genome은 높은 deletion 비율이 더 일반적이다. 특히, 현존하는 'ancestral sequence'의 양은 human(2,216Mb) 또는 dog(1,997Mb) 보다 mouse(1,474Mb)에서 더욱 작다. 주제넘게 2.8Gb (ref. 24)의 ancestral genome size와 또한 그것의 deletion들은 계속해서 발생하고, 우리는 rodent lineage(설치류 혈통)에서 genomic deletion 비율이 dog와 human lineages (생쥐와 인간 혈통)에서 보다 약 2.5-fold 높다는 것을 제시했다.  결과에서와 같이, 후자를 가지는 아주 최근의 공통 조상에도 불구하고, human genome은 mouse 보다 개가 가지는 ~650Mb 이상의 ancestral sequence를 공유하고 있다.
Active SINE family (SINE family의 활성). 상대적으로 낮은 transposable element-derived sequence의 비율에도 불구하고, dog genome은 carnivore-specific SINE family(육식동물-특이적 SINE family, SINEC-Cf로 정의된; RepBase release 7.11)의 높은 활성을 가진다. 그 element는 매우 활동적이여서 많은 insertion site들이 여전히 segregating polymorphisms이고 아직도 고정되지 않았다. ~87,000 young SINEC_Cf elements(consensus sequence로부터 낮은 차이에 의해 정의된)의 거의 8%는 boxer의 draft genome sequence 내에서 heterozygous이다. 게다가, standard poodle genome sequence와 boxer의 비교에서 10,000 이상의 insertion site들이 bimorphic이라는 것이 밝혀졌고, 수천개 이상의 개 집단에서 segregating(분리) 되는 것이 확실하다는 것이 밝혀졌다. 이와는 반대로, human genome에서 polymorphic SINE insertion들의 수는 1,000  보다 적다고 추정 되었다.
   이들 segregating SINE(분리되는 SINE)의 biological 영향력은 잘 모른다. SINE insertion들은 coding region들의 직접적인 분열을 통하거나 또는 messenger RNAs의 processing과 regulation에서의 간접적인 영향을 통해 돌연변이 발생률을 높일 수 있다. 이와 같은 SINE insertion은 개에서 두 질병에 대해 확실한 것을 이미 보여주고 있다.: narcolepsy (기면발작)과 centronuclear myopathy(중핵성 근육병증). 그것은 이들 segregating SINE element로부터의 유전적 다양성의 결과가 선택적인 육종 프로그램에 대한 중요한 raw material (원재료)로 제공되고 현대 개 육종에서 넓은 phenotypic variation을 만들어내었다.
Sequence composition(서열 구성). human과 mouse genome은 sequence composition에서 현저하게 차이가 나며, human genome은 조금 낮은 평균 G+C content (41%대 쥐에서 41%)를 가지지만 genome을 교차하여 더욱 더 많은 변이을 가진다. 비록 우리가 모든 세 종에 교차하여 align 될 수 있는 nucleotide만을 고려했지만, dog genome은 G+C content의 분포에서 human genome과 밀접하게 닮아 있다(dog-human에 대해 Spearman's rho = 0.85이고 dog-mouse 비교에서는 0.76). human과 dog에서 G+C content의 넓어진 분포는 boreoeutherian ancestor을 반영하는 가능성이 있다. rodent에서 더 많은 homogeneous composition이 high G+C content를 가지는 sequence의 deletion 보다 substitution pattern에서 lineage-specific(혈통 특이적) 변화를 통해서 우선 생기게 된다.
Rate of nucleotide divergence. 우리는 대용의 outgroup의 repeat에 대해 consensus sequence를 사용하여 모든 ancestral repeat의 alignment를 바탕으로 dog, human 그리고 mouse 혈통을 가지고 1-Mb windows에서 nucleotide divergence rate(핵산 분기 비율)의 평균을 추정했다. 
   dog lineage (개 혈통)은 human lineage 보다 더욱 빠르게 분기하였고(1.18의 중앙의 상대적인 분기 비율, windows의 95%에서 긴 가지 길이), 그러나 mouse lineage의 오직 비율이 반에서(0.48의 중앙의 상대적인 비율, windows의 100%에서 짧은 가지 길이). 절대적인 분기 비율은 사용된 진화적 모델과 alignment artefacts의 필터링에 대해 약간 민감하다. 그러나 관련된 비율은 강하게 나타나고 multiple outgroup를 가지는 작은 sequence sample들로부터 추정된 것은 일관될 것이다. lineage-specific divergence rate(human < dog < mouse)는 metabolic rate 또는 generation time이 다른 것에 의해 대개는 확실하게 되지만, 이들 요소의 관련된 기여는 불분명하게 남아 있다.
Correlation in nucleotide divergence(핵산 분기의 상관관계). 다른 mammalian genome(포유동물 게놈)에서 본 것과 같이, 1-Mb windows를 가로지르는 평균 nucleotide divergence 비율은 dog genome(변이 계수 0.11, 비교된 0.24는 균등한 분포 아래에서 예측 되었다.)을 교차하여 상당히 변한다. 이 지역적인 변화는 dog, human 그리고 mouse genome을 교차하여 orthologous windows에서 상관관계를 보여주지만, 상관관계의 세기는 총 가지 길이와 같이 감소하는 것 같다(orthologous 1-Mb windows에 대한 pair-wise correlation(이원 상관관계): dog-human에 대해 Spearman's rho = 0.49이고 dog-mouse 비교에 대해 0.24). 지역적 분기 비율에서 lineage-specific variation(혈통-특이적 변이)는 sequence composition 또는 romosomal position과 같은 요소의 변화와 관련이 있다. orthologou windows에서 lineage-specific divergence rate(혈통-특이적 분기 비율)의 비율의 일관성은 같은 windows에서 최근 G+C content의 비율이 양적으로 상호관련 되어 있다(dog-human에 대한 Spearman's rho = 0.16, dog-mouse에 대한 0.24).
Male mutation bias(숫컷의 돌연변이 성향). autosomalX chromosomesubstitution 비율의 비교는 암컷과 숫컷의 germ lines(α)에서 관련된 돌연변이 비율을 추정하는데 사용 될 수 있다. 왜냐하면 X chromosome은 두 배로 암컷에 존재하고 숫컷에도 드물게 존재한다.ancestral repeat로부터 lineage-specific 비율을 사용하여 우리는 human 혈통을 리드하는 것을 4.8로 α를 추정했고 mouse와 dog 두 혈통을 리드하는 2.8을 추정해 내었다. 이들 값은 muridhominid로부터 최근 추정 사이에서 감소하고 이것은 수컷의 돌연변이의 성향이 human에 대한 혈통 을 이끄는 것에서 증가하고 있다는 것을 보여준다.
Mutational hotspots and chromosomal fission(돌연변이 과열점과 염색체 분열). chicken과 chimpanzee 모두와 human의 genome comparision은 telomere에 가까운 sequence가 interstitial sequence에 대해 divergence 비율과 G+C conten 관계가 증가하는 경향이 있다는 것이 이전에 밝혀졌다. 그것은 이 증가가 subtelomeric sequence 자신의 고유한 특징인지 또는 chromosomal position에 연결된 것으로부터 파생된 특징에 의한 원인인지 불확실하다. 우리는 telomere쪽으로 증가하는 모양을 가지는 개 혈통에서 subtelomeric 영역에 대해 divergence (중앙 증가가 15%, P < 10-5; Mann-Whitney U-test)와 G+C content (중앙 증가가 9%, P < 10-9) 둘 다에서 비슷하게 증가하는 것을 찾았다.
   이 현상은 다른 synteny break뿐만 아니라이 telomere에서도 명백했다. 우린는 interstitial 영역에서 divergence와 G+C content의 상당한 증가를 또한 관찰했고, 그것은 syntenic breakposint의 site이다. 그러므로 이들 특징은 chromosomal breakage에 대한 영역의 민감성과 관련이 있는 것 같다.

Proportion of genome under purifying selection(순화한 선택 아래의 genome 비율)
human과 mouse genome의 비교로부터 나타난 우리의 인상적인 발견들은 ~5.2%의 human genome이 예상된 진화적인 conservation 보다 거대하다는 것을 보여준다고 추론 하였다(background 비율의 비교는 ancestral repeat element에서 보여 주었고, 이것은 nonfunctional일 것이라고 추정했다.). 이 엄청난 비율은 1-2% 능가하고, protein-coding region을 따라 설명 할 수 있다. non-coding conserve된 sequence의 커다란 단편의 기능과 범위는 불확실하게 남아 있다. 그러나 이 sequence는 regulatory element, structural element 그리고  RNA genoe들을 포함 하고 있을 것 같다.
Low turnover of conserved elements(conserve된 element들의 낮은 회전). 우리는 repeat된 conserve된 element들의 분석에 human과 dog genome을 사용했다. 간단히 말해, 분석은 human genome에서 매 50-bp windows에 대해 conservation score SHD, regional divergence 비율에 의한 normalized를 계산 하였고 그것은 dog에 alingn 될 수 있다. 모든 genomic sequence에 대한 conservation score들의 분포는 ancestral repeat sequence들의 분포와 비교했고 (이것은 국부의 중립적 비율에서 분기 하는 것으로 당연시 한다), 높은 conservation score를 가지는 sequence들의 확실히 많다는 것을 보여준다. 총 분포에서 높아진 중립 분포를 뺀 것에 의해, purifying selection 아래의 sequence에 대한 conservation sore의 분포를 추정 할 수 있다. 게다가, conservation score SHD를 가지는 주어진 sequence에 대해, 확률 Pseelction(SHD)를 또한 할당할 수 있으며 이 sequence는 purifying selection 아래에 있다.
  human-dog genome 비교는 ~5.3%의 human genome이 purifying selection 아래에 있다는 것ㅇ르 나타내고 이것은 human-rodent analysis에서 추정된 비율과 같았다. 명백한 질문은 human과 rodent 사이의 conserve된 bases와 human과 dog 사이의 conserv된 base가 일치하는지 그렇지 않는지이다. 왜냐하면 conservation score는 select된 또는 중립의 둘 다의 sequence를 명확히 지정하지 않았고(그러나 selection에 대한 확률값 지정만 대신했다), 우리는 직접 conserve된 base들을 비교 할 수 없었다. 따라서 우리는 다음의 다른 연구를 고안했다.
   우리는 human-dog analysis를 반복했고, human과 dog 사이의 orthologous sequence 1462Mb를 mouse에서 orthologous sequence 밖의 것(650Mb) 또는 내에 있는 것(812Mb)을 가지는 영역으로 나누었다. 첫 번째 세트는 background에 관련된 conservation의 과잉이 확실히 보여지고, human genome의 ~5.2%에 상응한다. 반대로 두 번째 세트는 작거나 또는 과하지 않은 conservation을 보여주고 human genome의 거의 0.1%에 상응한다. 이것은 human과 dog 사이에서 conserve된 functional element가 mouse 혈통에서 delete된 것을 가지지 않았다는 것을 의미한다.
   그 결과는 모든 세 mammalian 종을 교차하여 functional element의 일반적인 세트가 있다는 것을 강하게 뒷받침하고, human genome(~150Mb)의 ~5%에 상응한다. 이들 functional element는 human, mouse 그리고 dog의 ancestral sequence 공통의 812Mb 내에 많이 존재한다. 만약 우리가 커다란 non-functional과 같은 공유하는 sequence 내의 ancestral repeat element를 제거하면 거의 대부분의 functional element는 634Mb에 집중 되게 되고 이 sequence의 약 24% 구성하게 된다.
   ~5%의 추정은 mammal과 멀리 떨어져 관련된 것을 걸쳐 conserve된 element에 속한다라는 것을 기록할 수 있다. 그것은 추가적인 약한 발생 시키는 가능성 또는 좁은 분기군 내에 최근 진화된 element의 가능성이 있고 (예를 들면 primate), 그것은 더욱 가깝게 관련된 종들의 genomic sequencing에 의해 찾아내어질 수 있다.
Clustering of highly conserved non-coding elements(아주 높게 conserve된 non-coding element의 clustering). 우리는 다음으로 mammalian genome들에 걸쳐 conserved non-coding elements(CNEs)의 분포를 조사했다. 이 성과에 대해, 우리는 모든 세 종에 걸쳐 동시에 존재하는 conservation을 바탕으로 conservation score SHMD를 계산하였다. 우리는 50-bp windows에 대한 아주 높게 conserved non-coding elements (HCNEs)를 정의했고 그것은 coding region과 겹치지 않으며 purifying selection 아래에 있는 주어진 conservation score의 확률인 Pselection(SHMD)에 대해서는 최소 95%이다. 우리는 이런 windows(6.5Mb 총 sequence) ~140,000을 확인했고, human genome의 ~0.2%와 모든 mammalian CNEs의 거의 conserve된 ~5%로 대표되는 것과 비교 했다.
   HCNEs의 밀도는 human genome의 14%보다 적게 짧은 거리의 204 영역에 50%가 퍼저 있는 genome을 가로질러 1-Mb windows로 구획 될 때 현저한 피크를 보여준다. 이들 영역은 보통 유전자-불충분 하고 모든 protein-coding sequence의 약 ~6%만을 포함한다.
   이들 gene-poor 영역내에 있는 유전자는 특별히 흥미롭다. 204 영역의 최소 182개가 establishing 또는 maintaining cellular 'state(상태)'에서 중요한 역할을 가지는 유전자를 포함한다. 최소 156개의 영익이 하나 또는 몇몇 경우에서, 몇 개의 differentiation(분화)과 development(발생)와 관련된 transcription factor를 가진다. 다른 26개의 영역은 몇몇의 axon guidance receptor를 포함하는 neuronal specialization(뉴런 분화)과 growth(성장)에 대한 중요한 유전자를 포함한다. developmental regulator의 비율은 막연한 예측 보다 더 많다(P < 10-31).

Personal tools
KoBIC service