3. Data management and mining

From Biospecies

Jump to: navigation, search

잘 짜인 data와 유전학의 지식의 효과적인 적용은 방대하고 좋은 data에 의해 이루어진다. 이용 가능한 data에 접근하는 순간 방대한 양의 정보에 좌절하는 경우가 많다. 여기선 잘 알려진 database에서 data에 접근하는 것에 중점을 둔다: 이미 내용이 존재하거나 요청에 의한 laboratory information management systems(LIMS) 모두는 in-house data collection의 해결책이며 이는 전문적인 분야이기에 이 책의 범위에서 벗어난다. 1990년대 expressed sequence tag(EST) cDNA sequence가 많이 사용되고, 최근에 human genome과 다른 genome sequencing projects로부터 genome sequence data의 증가에 의해 data가 모아지는 등 지난 얼마간 genetic data가 기하급수적으로 증가하였다. Genetic database evolution genetic data의 전체적인 genome 통합과정에서 생기는 resource의 증가와 맞물려진다. 특히나 combined human genome sequence, genetic map, EST, SNP database는 이러한 과정으로 설명되었다. GDB HGMD와 같이 이미 예전에 확립되었던 genetic resource의 발달은 어느 정도 정체되고 있다. 탄탄한 토대로부터 효율적으로 update moving target와 같은 완전치 않은 genome sequence가 통합이 되기에는 어려우며 그로 인해 부분적일 수 밖에 없다. 예전의 많은 genetic database human genome sequence genetic data로 통합되어지지 않았다. 이런 database의 차후생존은 data가 발견된 분야에 의존되며 database의 역할이 바뀌는 것은 문제가 없지만, 오래된 genetic database의 어떤 중요성에 대해 Human genome sequence가 언제 완전한 physical map으로 완성이 되며, human genome에서 radiation hybrid map이 왜 필요한지. 와 같은 의문을 가질지도 모른다. 잘 모아진 dataset human genome sequencing에 대한 map을 만드는 과정에서 이미 중대한 역할을 하였고, 이는 새로운 data QC를 만드는데 이용되었을 것이고 이미 발표한 모든 연구의 자료로서 중요하게 이용되고 있을 것이다. 효율적인 genetic data mining이 빈번하게 늦어지는 문제는 data가 주된 저장고뿐만 아니라 많은 독립적인 database상에 존재하기 때문에 발생한다. 이러한 것에 대한 명백한 예외는 single central database – dbSNP at NCBI 가 현재 통합된 SNPdata이다.  오랫동안 수집된 human mutation data와 비교하면 비록 유사한 central database - Hobbies로부터 진행되지만 다른 source에 보관되어 있다.  이런 진전은 적절한 시기에 이루어졌다: Disease에서 어떠한 유전자가 기능을 하고 하지 못하는 지에 관해 더 잘 이해하는데 mutation polymorphism data가 상보적으로 중요하다. 완전한 human genome의 이용은 증가한 complex disease mechanism을 이해하는 data set으로 통합하는데 기본 틀이 되고 다양한 full genomic context는 중요하게 점차적으로 증가할 것이다. dbSNP의 확장으로 인한 대부분의 최근 database진전은 유전학자만을 위해 디자인되진 않았지만 대신에 genomic database genome viewers human genome의 주석을 다는데 도움을 주도록 발전되고 있다. 물론 이러한 data가 유전학자에게 절대적으로 중요하긴 하지만 왜 tool이 때로 중요한 기능을 가지고 있지 않는지를 설명하여 준다. 때로 사용가치가 있는 기능은 처음부터 의도되어지지 않은 곳에서 tool이 사용될 수 있다(예를 들어 많은 유전학자들이 sequence primer homology을 알아내기 위해 BLAST을 이용하지만 이 tool default parameters은 이런 업무를 하기에는 적합하지가 않다). 우리는 이 책을 통해 이러한 내용을 이끌어 가고 tool이 존재할 수 있는 모든 곳에서 많은 가치를 얻기 위해 실질적인 해결책을 제공할 것이다. 5장에서는 genetic research에서의 human genome browser의 사용을 설명할 것이다. Ensembl the UCSC human genome browser는 유전자와 조절 부위의 SNP을 포함하고 있는 human genome의 중요한 유전학적 정보의 주석을 단다. 유전자와 genetic variants을 두고 의문이 생기게 되고 이는 이런 tool이 가진 전체 genomic context상에서 쥐와 물고기와 같은 종사 이에서 가까운 유전자, 증진 자(promoter) 혹은 유지되는 부위에 대해 상세한 정보를 얻을 수 있다. 유전학에 대한 이런 정보의 가치를 과정 하여 말하기는 어렵다. 예를 들어 inter-species sequence 보존이 중요한 기능을 가진 유전자나 조절 부위에 대해 국한된 것이라고 여겨질 수 있는 것처럼 cross-species genome 비교는 기능분석에 가치를 두지 않는다. 그래서 이런 잠재적으로 조절하는 인자나 발견되어지지 않은 유전 자을 동정함에 있어서 가장 힘있는 tool중에 하나이다. 이 책에서 몇몇 장은 이런 접근을 가능하도록 하는 tool database을 설명하고 있다. 기술적인 진전은 polymorphisms의 수만 가지에서 수십에서 수백 가지에 대해 genotyping의 처리량이 훨씬 증가하고 있고 microarray transcript data가 일정한 많은 양을 산출할 수 있는 능력을 제공할 수 있게 해줌에 따라, 더 효과적인 data management의 필요성이 커진다. 이는 대부분 genetics genomics tool사이에서 사용자가 너무 쉽게 ‘point click’ 할수 있다는 약점을 드러낸다 때론 방대한 양의 database검색의 허용하지 않는다: 대신에 하나하나의 data는 검색할 수 있다. 이는 많은 적용에 대해 비효율적이거나, 최악의 경우 실행할 수 없게 된다. 이 문제의 한가지 해결책은 UNIX SQL level에서 database에 바로 의심을 하는 것이지만 이것은 사용자의 잘못된 과정이나 자유로이 사용 가능한 line의 제한된 지식은 아닐 것이기에 많은 경우 이런 방법에서는 data를 직접적으로 평가할 수는 없다.다루어지지 않은 data가 이용 가능하다면 Microsoft ACCESS와 같은 database tool을 사용하여 custom database를 확립할 수 있다. 저자는 많은 사용자의 선택방법이 올바르지 않다고 받아들였고 web에 기초로 한 방법에 초점을 두어 data를 평가할 수 있도록 할 것이다. Data를 얻을 수 있는 web-based method가 없는 곳이면 유전학자는 새 기능을 요청하기 위해 database developer에게 연락을 할 것이며 이에 developer는 그들의 tool이 사용되어짐에 만족하고 이 요청을 받아들일 것이다. 사용자들의 요청으로 몇몇 developer는 막대한 양의 data검색을 하기 위해 방법을 개선하였을 것이지만 아직까지 이러한 면이 유전학의 중요한 부분에서는 부족하다. 예를 들어, dbSNP, Ensembl, UCSC같은 몇몇 tool을 통해 염색체의 어느 자리에 유전자가 위치하는지(locus)에 대해 SNPs의 목록을 산출할 수 있도록 하지만 primer design을 하기 위해 각 SNP sequence를 검색할 수 있도록 한다(SNPper-3). 우리는 책을 통해 초래될 수 있는 문제점들을 풀어나갈 것이다.

Personal tools
KoBIC service