领导讲话

总结汇报

演讲致辞

心得体会

首页 > 社会管理 >管理 > NCBI数据库及其资源的获取

NCBI数据库及其资源的获取

单位文秘网 2021-07-07 08:22:29 点击: 次

【摘要】NCBI是美国的一个大型生物信息学系统，它主要通过 NCBI网站为全世界的科学家服务，它拥有多种数据库查询工具，以及多种数据库分析资源，对于我们查询文献、人类基因组信息、基因表达、蛋白质结构、肿瘤遗传信息，以及不同种属遗传信息等等有非常大的帮助，是一个非常重要的生物医学资源。

【关键词】NCBI；数据库；检索

目前，有一些大型生物学数据库包含了众多的生物学资源，我们可以方便地从国际互联网上查询，不仅方便了思想和资料的交流，减少了许多重复性的工作，也提供了一种新的工作方式和思维方式，其中最常用的是美国的National Center forBiotechnology Information（NCBI）[1]。美国国家生物技术信息中心（NCBI）是美国国立卫生研究院（NIH）的国立医学图书馆（NLM）的一个分支。NLM于1988年11月4日建立国家生物技术信息中心，简称NCBI。除了维护GenBank数据库外，它还提供基于Gen-Bank和多种生物学数据库的检索和分析服务[2]。

1 NCBI的主要任务

NCBI为储存和分析分子生物学、生物化学、遗传学知识创建自动化系统；从事研究基于计算机的信息处理过程的高级方法，用于分析生物学上重要的分子和化合物的结构与功能；促进生物学研究人员和医护人员应用数据库和软件；努力协作以获取世界范围内的生物技术信息。

2 NCBI的计划

NCBI有一个多学科的研究小组包括计算机科学家，分子生物学家，数学家，生物化学家，实验物理学家，和结构生物学家，集中于计算分子生物学的基本的和应用的研究。这些研究者不仅仅在基础科学上做出重要贡献，而且往往成为应用研究活动产生新方法的源泉。他们一起用数学和计算的方法研究在分子水平上的基本的生物医学问题。这些问题包括基因的组织，序列的分析，和结构的预测。目前研究计划的一些代表是：检测和分析基因组织，重复序列形式，蛋白domain和结构单元，建立人类基因组的基因图谱，HIV感染的动力学数学模型，数据库搜索中的序列错误影响的分析，开发新的数据库搜索和多重序列对齐算法，建立非冗余序列数据库，序列相似性的统计显著性评估的数学模型和文本检索的矢量模型。另外，NCBI研究者还坚持推动与NIH内部其他研究所及许多科学院和政府的研究实验室的合作。

3 NCBI提供检索的服务

NCBI数据库的检索方法很简单，在检索框中输入检索词，检索词间默认逻辑关系为AND，通过下拉菜单选择记录的显示格式，通常选择GenBank Report格式或FASTA Report格式。当选择GenBank Report格式后，屏幕显示较完整的基因记录，其内容包括：基因位点（Locus）、基因定义（Definition）、基因存取号（Accession）、核酸编号（NID）、关键词（Keywords）、来源（Source）、组织分类（Organism）、参考文献（Reference）、著者（Author）、题目（Title）、期刊Journal）、Medline存取号（Medline）、序列特征（Features）、基因（Gene）、CDS（cDNA）、等位基因（Allele）对等的肽（Mat-Peptide ）、计算碱基数（Base Count）、原序列（Origin）。而FASTA Report格式仅包括检出序列的简要特征描述。

3.1 GenBank（NIH遗传序列数据库）

Gen bank由NCBI建立和维护。该数据库包含了所有已知的核苷酸序列和蛋白质序列，以及相关的文献著作和生物学注释。数据涉及7万多个物种，其中56%是人类的基因组序列（所有序列中的34%是人类的EST序列）。数据来源于测序工作者提交的序列、测序中心提交的大量EST序列和其它测序数据。每条Gen bank数据记录都包含了对序列的简要描述、科学命名、物种分类名称、参考文献、序列特征表以及序列本身。序列特征表里包含对序列生物学特征注释，如：编码区、转录单元、重复区域、突变位点或修饰位点等。所有数据记录被划分在若干个文件里，如细菌类、病毒类、灵长类、啮齿类，以及EST数据、基因组测序数据、大规模基因组序列数据等16类，其中EST数据等又被各自分成若干个文件。

GenBank是由NCBI受过分子生物学高级训练的工作人员通过来自各个实验室递交的序列和同国际核酸序列数据库（EMBL和DDBJ）交换数据建立起数据库的。它同日本和欧洲分子生物学实验室的DNA数据库共同构成了国际核酸序列数据库合作。这三个组织每天交换数据。其中的数据以指数形式增长，核酸碱基数目大概每14个月就翻一个倍。最近，GenBank拥有来自47，000个物种的30亿个碱基。

GenBank的宗旨是鼓励科研团体对DNA序列的获取，从而促进数据库中DNA序列的丰富和更新，所以NCBI对GenBank的数据使用与发送没有任何限制。用户可从GenBank主页上下载Banklt（NCBI提供的WWW格式，用于便捷的提交DNA序列的数据）、Sequin（NCBI的独立于操作系统的提交软件，可用于MAC、PC和UNIX平台，也可以通过FTP远程获取）以及VecScreen（带菌污染物的筛选工具）等便于提交和更新研究成果的应用软件。其页面上的简单检索界面提供19种相关检索选项，分别是：PubMed、Protein（蛋白质）、Nucleotide（核苷）、Structure（结构）、Genome（基因组）、PMC、LocusLink、PopSet、OMIM、Taxonomy（分类学）、Books（图书）、ProbeSet、3D Domains（三维区域）、UniSTS、Domains、SNP、Journals（期刊）、UniGene、NCBI Web Site（NCBI站点）。

GenBank可以与DNA Star软件结合使用，进行基因序列分析和比对。大型数据库分成若干子库，有许多好处。首先，可以把数据库查询限定在某一特定部分，以便加快查询速度。其次，基因组计划快速测序得到的大量序列尚未加以注释，将它们单独分类，有利于数据库查询和搜索时“有的放矢”。GenBank将这些数据按高通量基因组序列（HighThroughput Genomic Sequences，HTG）、表达序列标记（Expressed Sequence Tags，EST）、序列标记位点（Sequence TaggedSites，STS）和基因组概览序列（Genome Survey Sequences，GSS）单独分类。尽管这些数据尚未加以注释，它们依然是GenBank的重要组成部分。

完整的GenBank数据库包括序列文件，索引文件以及其它有关文件。索引文件是根据数据库中作者、参考文献等子段建立的，用于数据库查询。GenPept是由GenBank中的核酸序列翻译而得到的蛋白质序列数据库，其数据格式为FastA。GenBank曾以CD-ROM光盘的形式分发，价格比较便宜。随着数据库容量的增长，一套最新版的GenBank需要12张光盘存放，不仅生产成本很高，也不便于使用。现在，光盘分发的方式已经停止，可以通过网络下载GenBank数据库。

如果在文献中看到过你感兴趣的基因，而且文中还提到了该基因在Genbank中的ID号，进入NCBI ，在Search后的下拉框中选择Nucleotide，把Genbank ID号输入GO前面的文本框中，点“GO”，即可以检索到所需序列。

3.2 Molecular Databases（分子数据库）

3.2.1 Nucleotide Sequence（核酸序列库）：从NCBI其他如Genbank数据库中收集整理核酸序列，提供直接的检索。该数据库与日本DNA数据库（DDBJ）和英国Hinxton Hall的欧洲分子生物学实验室数据库（EMBL）三部分数据组成国际核酸序列联合数据库中心。这三个组织联合组成国际核苷酸序列数据库协作体，每天交换各自数据库中的新增序列记录实现数据共享。其中的序列数据也通过与基因组序列数据库（GSDB）合作获取；专利序列数据通过与美国专利与商标局、国际专利局合作获取。

3.2.2 Protein Sequence （蛋白质序列库）：与核酸类似，也是从NCBI多个不同资源中编译整理的，方便研究者的直接查询。该序列库中的资料来至Genbank和其他的蛋白序列库如PIR、SWISS-PROT 、PROSITE 、PDB 、SCOP等

3.2.3 Structure（结构）即结构数据库或称分子模型数据库（MMDB），包含来自X线晶体学和三维结构的实验数据。MMDB的数据从PDB（Protein Data Bank）获得。NCBI已经将结构数据交叉链接到书目信息、序列数据库和NCBI的Taxonomy中运用NCBI的3D结构浏览器和Cn3D，可以很容易地从Entrez获得分子的分子结构间相互作用的图像。

3.2.4 Taxonomy（分类学）——NCBI的分类数据库，包括大于7万余个物种的名字和种系，这些物种都至少在遗传数据库中有一条核酸或蛋白序列。其目的是为序列数据库建立一个一致的种系发生分类学。可以按生物学门类进行检索或浏览其核苷酸序列、蛋白质序列、结构等。

3.3 Literature Databases（文献数据库）

3.3.1 PubMed系统是由NLM的NCBI开发的用于检索MEDLINE、PreMEDLINE数据库的网上检索系统。从1997年6月起，PubMed在网上免费向用户开放。它具有收录范围广泛、更新速度快、检索系统完备、链接广泛的特点。PubMed系统包含三个数据库：MEDLINE、PreMEDLINE和Record supplied by Publisher。能够对MEDLINE上超过1200万条的上世纪六十年代中期至今的杂志引用和其他的生命科学期刊进行访问，并可以连接到参与的出版商网络站点的全文文章和其他相关资源。

（1）基本检索功能

自动词语匹配功能（Automatic Term Mapping）可以实现词语的自动转换和匹配，主要通过4个表来进行：MeSH转换表（MeSH Translation Table）、刊名转换表（Journal Translation Table）、短语表（Phrase List）、著者索引表（Author Index）。在检索提问栏内输入一个或若干个检索词，系统将依次到以上4个表中进行词语匹配，直到找到相匹配的词为止。

截词功能（Truncation）可以使用"*"作为通配符进行截词检索。系统只检索前150个词形变化。

词组检索功能（Phrase Searching）也叫强制检索功能。许多短语可以通过自动词语匹配功能检索，但是当所键入的短语没有所对应的匹配词组时，如single cell，系统将会分别检索single和cell，然后用AND将其组配起来。可以使用""强制系统把single cell当成一个不可分割的词组进行检索。

布尔检索 PubMed支持布尔逻辑检索，运算符号必须大写，分别是：逻辑与AND，逻辑或OR，逻辑非NOT。运算顺序是从左到右执行，可以通过（）改变运算次序。

限定检索有字段限定检索；日期和日期范围的限定检索；其它限定检索。

（2）辅助检索功能

Limits 限定的主要功能是进行限定检索。

Preview/Index 可实现在显示检索结果前显示检索结果的数量；加词检索；特定字段加词检索；从索引表中选择检索词。

History 主要用于查看检索策略和检索结果的数量。

3.3.2 PMC/PubMed Center：也是NLM的生命科学期刊文献的数字化存储数据库，用户可以免费获取PMC的文章全文，除了部分期刊要求对近期的文章付费。

3.3.3 OMIM（孟德尔人类遗传）：是人类基因与疾病基因的目录数据库，该数据库包括原文信息、图片和参考信息。有关人类基因和无序基因的目录数据库由Victor A.McKusick和他的同事共同创造和编辑的，由NCBI网站负责开发，其中也包括对MEDINE众多资源和Entrez系统的序列记录，以及NCBI中其他有关资源的链接。该数据库在人类遗传方面具有非常重要的应用价值。

3.3.4 Books：NCBI的书库不断收集生物医学方面的书籍，提供这些书籍的出版信息、摘要、目录和全文的连接，用户可以直接在检索文本框内输入一个观念就可以查询。

4 NCBI提供的附加软件工具

开放阅读框寻觅器（ORF Finder），电子PCR，和序列提交工具Sequin和BankIt。所有的NCBI数据库和软件工具可以从WWW或FTP来获得。NCBI还有E-mail服务器，提供用文本搜索或序列相似搜索访问数据库一种可选方法。 NCBI网站上还提供了一些诸如研究热点问题、研究小组情况、教育培训、联系方式等信息，还提供了到NIH、NLM等的链接。

5 结束语

领悟无声但精妙的生命细胞的语言是现代分子生物学的追求。通过只有四个字母来代表DNA化学亚基的字母表，出现了生命过程的语法，其最复杂形式就是人类。阐明和使用这些字母来组成新的“单词和短语”是分子生物学领域的中心焦点。数目庞大的分子数据和这些数据的隐秘而精细的模式使得计算机化的数据库和分析方法成为绝对的必须。发现新的手段去处理这些数据的容量和复杂性，并且为研究人员提供更好的便利来获得分析和计算的工具，以便推动对我们遗传之物和其在健康和疾病中角色的理解是生物学数据库最大的挑战。

【参考文献】

[1]王哲，黄高升.NCBI的数据库资源及其应用[J].生命科学，2002，14（1）：59-62.

[2]Wheeler D L， Chappey c， Lash A E， et al. Nucleic Acids Res[J]. 2000，28（1）：10-14.

[责任编辑：周娜]

(责任编辑：单位文秘网) )

地址：https://www.kgf8887.com/show-240-60851-1.html

上一篇：浅谈生物化学综合性实验体系的构建

下一篇：医学学习的技巧探究

热点文章

版权声明

本站由单位文秘网原创策划制作，欢迎订阅或转载，但请注明出处。违者必究。
本站部分资源搜集于互联网，如有侵权行为请尽快联系我们处理。

NCBI数据库及其资源的获取

热点文章

最新文章

版权声明