2. UCSC Human Genome Data
From Biospecies
- UCSC 자체 human genome assembly version에서 NCBI의 것으로 바뀐 이유에 대해 -
UCSC는 자체적으로 Human Genome을 assembly 하여 UCSC version number를 사용했었다. 하지만 2001년 12월에 UCSC version의 human genome assembly를 더 이상 제공하지 않겠다고 했다. 대신에 NCBI의 것으로 대신하겠다고 밝혔다.
2001년 12월 이전쯤에, UCSC는 UCSC 고유의 human genome assembly를 제공하였었다. 2001년 12월 release (NCBI build 28)에 처음으로 UCSC에서 표시를 하고 NCBI에서 만들어 진 human genome assembly를 제공하게 된다. NCBI assembly는 지난 해 동안 착실히 개선을 해 왔다. NCBI의 assembly는 비록 chromosome level map의 tracking이 조금 나쁘지만, 같은 sequence에서 UCSC assembly와 비교하여 local order과 orientation이 조금 낫다는 것을 현재 보여 주었다. NCBI assembly는 UCSC assembly보다 상당히 빨리 만들어질 수 있다는 장점이 있다. 이 게임의 마지막에서 human genome sequencing과 함께, 우리는 계속적인 assemby를 생산하는데 경쟁하는 것 보다 오히려 single assembly의 전세계적인 annotation 노력에 초점을 맞춘 더욱 생산적인 일을 해야 되어야겠다고 느꼈다. 우리는 NCBI의 map tracking 향상을 위해 NCBI와 일을 하고 있다.
출처 : <html>http://www.cse.ucsc.edu/%7Elearithe/browser/FAQ.html#123</html>
1. UCSC human genome data 받기
1) 웹브라우저에서 주소창에 <html>http://hgdownload.cse.ucsc.edu/downloads.html#human</html> 를 넣고 엔터를 치면, human genome data의 리스트가 나온다.
2) 메뉴따라 찾아 들어가기
(1) <html>http://genome.ucsc.edu/</html> 혹은 <html>http://genome.kribb.re.kr/</html> 를 웹브라우저 주소창에 넣고 엔터를 치면 아래와 같이 UCSC 홈페이지가 뜬다.

(2) 아래 그림과 같이 왼쪽에 있는 "Downloads" 메뉴를 클릭하면 아래와 같은 생물종을 고를 수 있는 페이지가 나타난다.

(3) 생물종 리스트의 제일 위에 있는 "Human"을 클릭하면 아래와 같은 human genome에 관련된 가장 최근 data의 리스트가 뜬다.

(4) 필요한 data를 선택한다. 예로서 "Full data set"을 클릭해 보았다.
클릭을 하면 full data set들에 대한 간단한 설명이 나오고 아래쪽으로 내려 가면 파일들이 리스트가 보인다.
필요한 파일을 클릭해서 저장을 하거나, 리눅스의 wget등의 파일 받기 프로그램을 사용해서 파일을 받으면 되겠다.

2. Full data set에 대한 README
이 디렉토리는 Build 36.1 finished human genome assembly (hg18, 3월. 2006년)를 포함한다. chromosomal sequence는 International Human Genome project sequencing conters에 의해 assembly 되었다.
이 디렉토리에 포함된 파일들
chromAgp.zip - 어떻게 assembly가 만들어졌는지의 설명, 압축을 풀 경우 chromosome당 한 file이 생김.
chromFa.zip - assembly sequence가 chromosome당 하나의 file로 되어 있음. RepeatMasker와 Tandem Repeats Finder에서 찾은 Repeats는 소문자로 나타내었다.; non-repeating sequence는 대문자로 나타내었다. Repeat masking은 다음의 RepeatMasker/RepBase version들을 사용하여 masking 했다.: RepBase Update 9.11, RM database version 20050112. main assembly는 chrN.fa file들에서 찾을 수 있고, N은 chromosome의 이름이다. chrN_random.fa file들은 chromosome에서 특정 위치에서 확실하게 위치할 수 없는 것 또는 아직 finish 되지 않은 clone들을 포함한다. 어떤 경우에서는, chromosome 6에서 human HLA region을 포함하고, chrN-random.fa file들은 또한 main assembly로부터 서로 다른 haplotype들을 포함한다.
chromFaMasked.zip - assembly sequence이고 chromosome 당 하나의 file이다. Repeat들은 대문자 N에 의해 mask 되었다; non-repeating sequence는 대문자로 보여준다.
chromOut.zip - chromosome들에 대한 RepeatMasker의 .out file이다. 이들은 -s sensitive setting으로 RepeatMasker에 의해 만들어졌다.
chromTrf.zip - Tandem Repeats Finder 위치, 적어도 12개와 같을 때에 repeat를 관리하기 위해 filter 되고 chromosome 당 하나의 .bed file로 바꾸어진다.
contigAgp.zip - contig layout level의 fragment로부터 assembly가 어떻게 만들어졌는지를 설명.
contigFa.zip - assembly sequence contig들, NCBI contig당 하나의 file. 모든 contig들은 chromosome에 대응하여 forward orientation (전방향)으로 있다. 어떤 경우에서, 이는 contig들은 NCBI assembly에서 그들의 orientation에 대해 역으로 대응 될 수 있다는 의미이다. RepeatMasker와 Tandem Repeats Finder로부터 찾은 repeat는 소문자로 보여준다.; non-repeating sequence는 대문자로 보여준다.
contigFaMasked.zip - assembly sequence contigs임. contig당 하나의 file임. repeat는 대문자 N으로 mask 됨.; non-repeating sequence는 대문자로 보여줌.
contigOut.zip - contig에 대한 RepeatMasker .out file임. 이들은 -s sensitive setting으로 RepeatMasker에서 만들어졌다.
contigTrf.zip - Tandem Repeats Finder 위치, 적어도 12개와 같을 때에 repeat를 관리하기 위해 filter 되고 chromosome 당 하나의 .bed file로 바꾸어진다.
hg18.2bit - hg18.2bit는 2bit format으로 완전한 hg18 Human Genome을 포함한다. twoBitToFa (우리의 src tree로부터 사용할 수 있는)이라는 utility program은 이 file로부터 .fa file을 추출하는데 사용 될 수 있다.
est.fa.gz - GenBank에 있는 Human EST. 이 sequence data는 automatic GenBank update를 통해 주마다 한번씩 update 된다.
liftAll.zip - chromosome 내 contig들의 offsets.
mrna.fa.gz - GenBank에서 온 Human mRNA. 이 sequence data는 automatic GenBank update를 통해 주마다 한번씩 update 된다.
refMrna.fa.gz - 같은 종의 genome으로부터 나온 RefSeq mRNA. 이 sequence data는 automatic GenBank update를 통해 주마다 한번씩 ipdata 된다.
upstream1000.zip - RefSEq gene의 annotated transcription의 upstream 1000 bases sequence. 이는 transcription start가 coding region start로부터 어디에 개별적으로 annotate 되었는지만을 포함한다. upstream file들에 대한 기록은 언제 assembly가 release 되어 만들어졌는지에 대한 것이다. 따라서 data는 밤에 update된 증가된 assembly에서 RefSeq data를 가지는 것 중일 것이다.
upstream2000.zip - upstream1000이지만 2000 base는 아닌.
upstream5000.zip - upstream1000이지만, 5000 base는 아닌.
xenoMrna.fa.gz - 그 genome에 대한 것의 다른 종에서의 GenBank mRNAs. 이 sequence data는 automatic GenBank update를 통해 주마다 한번 update 한다.
--------------------------------------------------------------------
만약 이 디렉토리에서 multiple file들 또는 크기가 큰 파일을 download 할 계획이라면, 우리는 website를 통한 file들의 download 보다 ftp를 사용할 것을 추천한다. ftp를 사용하기 위해, hgdownload.cse.ucsc.edu에 대한 ftp를 사용하고, goldenPath/hg18/chromosomes 디렉토리로 이동하라. multiple file들을 download 하기 위해, “mget” 명령어를 사용해라:
mget <filename1> Mfilename2> ...
- or -
mget -a (download를 위한 모든 디렉토리에 있는 모든 파일들)
이 디렉토리에 있는 파일 모두는 공중의 사용 (public use)을 위해 자유롭게 이용 가능하다.
출처 : <html>http://hgdownload.cse.ucsc.edu/goldenPath/hg18/bigZips/</html>



