2. Primary and Secondary Database
From Biospecies.com
1.핵산과 단백질 서열 데이터베이스
핵산과 단백질 서열을 공적으로 수집하는 대 협력하는 3개의 주된 기관이 있다. 이러한 기관은 매일의 데이터를 공유한다. 그들은 다른 국제적인 지역, 다른 형태, 다른 주석으로 구별되어진다.
Genbank는 미국에 있는 NCBI에 의해 유지된다.
EMBL은 영국에 있는 유럽 생물정보학 위원회에 의해 유지된다.
DDBJ는 일본에 있는 Mishima에 의해 유지된다.
3기관은 서열 검색,분석을 위한 툴을 광범위하게 제공하고 두개의 통합된 데이터베이스 질의도구는 탁월하다.
NCBI의 Entrez와 EBL의 SRS가 그렇다.
2. Entrez
Entrez는 NCBI 데이터베이스의 백본이다. 사용자가 검색하고 또한 하나의 gateway를 통해서 모든 NCBI 데이터베이스를 열람할 수 있는 통합된 데이터베이스 검색 시스템이다.
Entrez는 많은 소스, 게놈지도, 집단셋, 이미 기술된 PubMed 와 OMIM을 통한 생물의학 문헌에서 DNA 와 단백질 서열의 접근을 제공한다. 새로운 검색 형상은 Entrez에 추가되어지고 있다. 최근에 gene-expressions 실험에서 얻은 'ProbeSet' 데이터에 의한 DNA 검색을 추가하였고 분자 무게 범위, 3D 구조의 분자 모델링 데이터베이스의 구조나 단백질 도메인에 의한 단백질 검색을 추가하였다.
3. SRS
서열 검색 서버는 Entrez와 비슷한 규칙을 제공하는 주된 유럽 서열 데이터베이스이다. SRS 는 접근번호,키워드, 서열 유사성에 의한 지식 기반이고 서열 데이터베이스 집합을 검색할 수 있는 서열 질의 도구에 유연하다. SRS는 EMBL 서열 분류(Table 2.5)를 포함한 데이터의 아주 광대한 범위를 포함한다. SRS는 ClustalW,BLAST와 InterProScan을 포함한 분석도구의 범위에 의한 처리를 위한 검색된 데이터를 선택하거나 사용자가 분석경로를 만들 수 있도록 하도록 Entrez보다 한발 앞서가고 있다
4. Biological sequence databases - Primary Databases
Primary accession number는 key의 성질을 가지고 있는 number인데, 이들은 GenBank, EMBL 또는 DDBJ에 정형화된 포맷으로 저자에 의해 제출된 sequencing 실험으로부터 직접적으로 얻어진 nucleic acid sequence들을 대표한다. 이 accession number들은 유일하고 불변한 특성을 가진다. 모든 accession number로부터 얻어진 데이터의 기록은 복구가능하고 연락 가능한 submitter는 모든 기록에 포함되어 있으며, 이미 존재하는 entry들과 부분적으로나 혹은 완전히 중복되는 것을 무시하고 accept된 모든 submission들은 분명히 불필요한 것들이다. 최근에는 그 증가율이 기하급수적으로 늘어나고 있으며 현재 천6백만개의 sequence기록들을 넘어서고 있다. primary sequence record와 관련된 정보들의 양은 매우 크다. 이들은 primary accession number와 version number, protein ID number, gene indentifier(GI) number, header record 그리고 feature identifier들을 포함하고 있다. mRNA나 genomic clon이 끝난 것에 대한 primary data가 알기 쉽게 나타나있지 않은 경에 유전학자들은 투고한 저자들과의 관계를 고무적으로 생각해야 한다. 그들은 유전실험에 대한 해석을 바탕으로 결정적인 추가 정보들을 가지고 있을지도 모른다. 만약 저자들이 학회를 옮겼을 경우에는 많은 정보들을 얻기 힘들지도 모르지만 보통의 경우 그들의 데이터를 이용한 연구에 기꺼이 도움을 주고자 하며 이는 논문투고의 문제가 걸려 있기 때문이기도 하며, 이것은 public sequence database를 지원하는 원칙이기도 하다. 완성되거나 투고된 논문의 기술적인 오류, 변칙, 잘못 annotation된 경우에는 database 관리자가 아닌 논문을 투고한 저자에게 완전함 책임이 있다. 비록 high-throughput data(EST, GSS, STS, HTG, HTC, SNP) 부분에서의 오류에 있어서는 관대해져 야할 필요가 있지만 만약 저자가 그들의 entry를 수정하거나 보강하지 않았기 때문이거나 이런 사실을 밝히지 않았을 경우에는 문제가 될 수 있다. primary data는 높은 신용을 바탕으로 저장되기 때문에 data를 다루는데 있어서 저자들은 cloning, sequencing, submitter annotation이 꼼꼼하게 이루어졌는가에 대한 사항은 엄격하게 검토하지 않는다. GenBank record에 대해서 저자에게 책임을 묻지 않는 것은 개발자와 연구자(논문저자)가 같지 않다고 간주하는 특허(gbPAT)의 경우와 같다고 말할 수 있다. 이들 sequence record는 미국, 유럽, 일본에서 특허수속을 하였고 각 database로 보내졌다. 증가하고 있는 gbPAT record는 온라인상의 patent number를 통해 얻을 수 있고 무료로 제공된다. 또한 SRS를 통해 직접 sequence entry와 링크되어 있는 이 patent fulltext를 얻는것도 가능하다.
5 Secondary Databases
Secondary database의 정의는 primary data로부터 얻어진 것을 의미한다. Secondary라는 단어가 낮은 가치를 의미하는 것은 아니며 실제로 이들은 유전학연구를 위한 가장 유용한 utility의 소스를 포함하고 있다. 그러나 이들의 정의에 따라 중요한 것은 얼마나 실험데이터와 연계되어있느냐를 이해하는 것이다. 유전학자들에게 희소식은 현재 primary Genbank entry로부터 genomic 또는 protein sequence, mRNA subset들을 추출, 대조하는 우수한 secondary database의 종합적 selection이 존재한다는 것이다. 반면, 매우 다양하고 강력한 secondary database가 증가함에 따라 사용자들은 당혹스러울 정도로 방대한 범위의 선택권을 가지게 되었다는 것은 좋지 않은 소식일 것이다. 2002년 갱신된 Molecular Biology Database Collection(http://nar.oupjornals.org/cgi/content/full/<date w:st="on" o:ls="trans" day="1" month="1" year="1930"></date>30/1/1/DC1)로부터 이러한 희비를 확인할 수 있다. 여기에서는 최소 355개의 database를 망라하고 있으며 이는 2001년의 281개에서 더 추가된 것이며 이들은 primary database인 Genbank, EMBL 그리고 DDBJ 이들 단지 세 개의 entry로부터 만들어진 것들이다. 비록 이 collection이 많은 non-human data source들을 포함하고 있긴 하지만, 이 secondary database들 중 대부분은 포유류 유전학에 적절한 정보를 포함하고 있다. 이 리뷰 발행은 매년 Nucleic Acid Research의 1월호로 제공되고 있으며 훑어 볼 가지가 충분히 있다. 그렇다면 genome portal들은 secondary database인가? 이에 대한 정의는 점점 흐려지고 있는 추세이다. 그 이유는 NCBI에서는 그들 고유의 genomic contig accession(NT number)를 생성하고 있고, Ensembl 또한 secondary database로 간주할 수 있는 그들 고유의 exon과 gene indentifier들을 생성하고 있기 때문이다. UCSC genome portal같은 경우에는 단지 외부의 sequence record identifier(primary와 secondary)만을 기록하고 있으며 정확히 얘기하면이들은 secondary database가 아니다. 그러나 이들은 identity number를 표시함으로써 gene prediction의 모든 type을 유용하게 제공하기 때문에 secondary database로 간주될 수 있다.
6. Nucleic Acid Secondary Databases
유전학자들의 결과를 분석하기 위하여 풍부한 gene product 정보가 존재하는 이 데이터베이스들을 알려줄 필요가 있다. 그 예로, nucleic acid sequence에 기초하였지만 secondary database로 protein정보까지 포함하고 있는 mRNA관련 데이터베이스인 LocusLink.RedSeq(LLSR)이 있다. LLRS 시스템은 것이 같은 단백질에서 coding 가능한 mRNA 중 가장 긴 것이 보통인 reference sequence(RefSeq)를 기초로 설계되어 있다. RefSeq는 조각난 variant들을 가지고 있고 7TM receptor와 같은 genomic sequence만이 가능하다. 또 이 시스템은 데이터베이스 entry에서 'CDS'와 같이 annotation된 예측된 coding sequence로 초기설정되어 있다. 예를 들면 GenBank에서 인간의 로돕신 mRNA가 실험에 의해서 결정된 것이 아니라 genomic sequence U49742로부터 예측된 모델 mRNA인 경우이다. 이것은 유전자의 경계선과 기능적인 부분이 매우 방대한 로돕신 locus의 untranslated region(UTR)의 경우 유전학자들에게 가까운 미래에 발생되는 문제이다. RefSeq pipeline의 최종결과물은 유일한 mRNA나 coding sequence(CDS), 혹은 데이터나 예측이 가능한 gene product들의 조각난 variant들의 모음이다. LocusLink는 유전학자들과 매우 중요하게 연계되어 있다. SNP data, OMIM, UniGene 그리고 Pubmed로부터 만들어진 데이터베이스이며, 이것은 또한 세 개의 주요 genome portal인 NCBI, UCSC, Ensemble과 연결되어 있다. RefSeq identifier는 reference sequence로써 선택된 하나의 특정 mRNA로 결정된 supplementary identifier로 부수적인 것이다. 이들 accession munber들은 mRNA entry에 대해 NM_이라는 접두사를 가지고 있고 protein entry에 대해서는 NP_라는 접두어를 가지고 있다. LocisLonk/RefSeq 시스템은 한 스텝 더 나아가서 세 번째 identifier를 지정하는데, nucleic acid의 경우는 XM_, protein의 경우는 XP_를 지정하며 이는 NM, NP number에 대응하는 것이다. NCBI protein 데이터베이스에 대해 BLAST 검색에서는 primary accession number, NM_과 XM_ entry 이 세 가지를 요구할 것이다. ESTs를 위한 secondary accession number 또한 중요하다. ESTs는 mRNA 조각으로 생각할 수 있고 이것은 충분한 sampling을 토대로 clustring과 assembling을 통해 근접해있는 transcription product를 연장함으로써 만들어진다. 어떤경우에는 조직타입에 따라 조각난 variant를 sampling할 수도 있다. post genomic시대의 주요 unility는 exon detector로써의 EST수집이다. ESTs에 대한 primary data source는 GenBank에 속해있는 dbEST이다. 유전학자들은 두 개의 주요 EST 데이터베이스인 UniGene과 TIGR human gene index에 대해서도 잘 알고 있어야 한다(Liang et al., 2000). TIGR의 경우, 실제 transcript는 중복된 EST를 모음으로써 복구할 수 있다. UniGene의 경우에는 인위적으로 EST를 읽어 묶음으로 다운로드 할 수 있다. 대부분의 같은 sourrce data로부터 만들어진 secondary 데이터베이스는 두 데이터베이스가 중복되고 보완하는 관계에 있다. TIGR 회의에서는 알고 있는 mRNA의 3‘ UTR을 하는데 특별히 유용하다는 것을 승인하였으나 긴 시간의 간격을 두는것을 전제로 하였다. UniGene은 좀 더 자주 업데이트되고 있으며 LocusLink/RefSeq 시스템과 완전히 링크되어 있으나 GenBank의 운영 version을 이용해 mRNA를 구축하고 있다.
7. STSs and SNPs
STS와 SNP는 disease mapping을 포함하여 유전학자들에게 매우 중요한 data source이다. dbSTS database는 짧은 genomic landmark sequence위에 sequence와 mapping data를 나타내고 있다. 비록 이 database가 primary sequence record와 GB accession number를 포함하고 있지만 또한 대안의 marker name으로서의 number도 가지고 있다. 이것은 모든 가능한 marker와 mapping data를 통합한 UniSTS라는 secondary database와 상호참조 관계를 유지해 왔다(http://www.ncbi.nlm.nih.gov/genome/sts/). dbSNP database는 GenBank에 속한 부분이 아니며 따라서 정확히 말하면 primary database가 아니다. submission(SS number)는 primary record에 대응하지만 같은 polymorphism에 따라 중복되는 sequence는 RS number에 따라 Reference SNP Cluster Report에 포함되는 것이 줄어들고 있다. 이것은 RS number가 존재하는 secondary database가 불필요한 것이 줄어들고 안정적이라고 생각 할 수 있다. 최근 인간에 있어서 2,640,509개가 존재하는 이 RS number들은 다른 NCBI genomic data와 같은 위치에서 유래되었다고 확인되거나 유추되는 중복되는 sequence를 포함하는 Promary GenBank record와 통합되고 있다. HGVbase는 매우 잘 조직된 984,093개 보다 약간 작은 record와 Ensemble genome annotation를 포함하고 있다(http://hgvbase.cgb.ki.se/). Chapeter 3에서 유전적 다양성에 관한 주요 database들을 자세히 서술하고 있다.
8. Proten Databases and Websites
Protein 분석에 있어서 중심이 되는 중요한 웹싸이트에는 Expert Protein Analysis System가 있다. (ExPAS;http://www.expasy.ch/). 또한 Protein 분석 tool들에는 PROSITE(http://www.expasy.ch/prosite/)와 탁월한 annotation을 포함하고 있고 60개의 다른 데이터베이스와의 web-link된 상호참조관계를 가지고 있는 Swiss-3Image(http://www.expasy ch./sw3d) Swiss Prot protein database가 있다. 이것은 SwissProt에는 아직 없는 primary nucleotide sequence database에 존재하는 모든 coding sequence들의 전사체를 포함하는 computer-annotated supplement인 TrEMBL과 함께 존재한다.
