生物信息学

生物学数据库及其检索




桂松涛 Blog
songtaogui@163.com


2025年09月

什么是数据库


数据库(database)
一类用于存储和管理数据的计算机文档,是统一管理的相关数据 的集合,其存储形式有利于数据信息的检索与调用。




数据库的主要任务

  • 存储数据

  • 检索数据

  • 维护数据

  • 数据共享

  • 数据安全

  • 数据备份



数据库的分类

平面文件数据库, 关系型数据库, 面向对象数据库, 基于Internet的XML数据库

平面文件数据库



  • 字段+内容, 不包含计算机指令
  • 单个长文本文件
  • 增加或删除记录困难
  • 检索困难
  • 维护困难

  • 数据库的分类

    平面文件数据库, 关系型数据库, 面向对象数据库, 基于Internet的XML数据库

    关系型数据库


    数据库的分类

    平面文件数据库, 关系型数据库, 面向对象数据库, 基于Internet的XML数据库

    关系型数据库
    关系型数据库(Relational Database) 使用表格(tables)来存储和组织数据。每个表格由行(records)和列(fields)组成,类似于Excel中的工作表。关系型数据库的设计基于“关系模型”, 这种数据库模型的核心思想是将数据存储在多个表中,这些表通过关键字段(keys)相互关联。
    关系型数据库的特点:
  • 数据结构化
  • 支持SQL语言
  • 数据冗余度小
  • 数据独立性高
  • 易于扩展维护
  • SQL入门指南

    生物学数据库


    生物学数据库的分类: 存储内容
    根据存储的具体内容,可以分为一级数据库和二级数据库:

    • 一级数据库: 档案数据库(archive), 库中的主要内容是来源于实验室操作所得到的原始数据结果(如测序得到的序列或蛋白三维结构数据等),同时包含基本的说明文档(如序列所属的物种、类型、参考文献等)。

      • 特点: 数据的原始性和全面性,为后续的生物信息学分析和二级数据库的构建提供了基础

    • 二级数据库: 分析数据库(analytical), 库中的主要内容是是在一级数据库的信息基础上经过生物信息学分析处理后的数据结果(如基因表达数据、蛋白质相互作用数据、基因组注释信息等),同时包含分析所用的方法、参数、结果解释等说明文档。

      • 特点: 数据经过加工和注释; 具有特定用途; 数据量相对较小; 更新速度较慢; 便于使用


    生物学数据库


    生物学数据库的分类: 数据类型
    核酸数据库

    • NCBI GenBank: 世界上最大的公共核酸序列数据库, 由美国国家生物技术信息中心(NCBI)管理, 涵盖了广泛的物种和基因组数据和详细注释。

    • ENA: 由欧洲生物信息学研究所(EMBL-EBI)管理。同样提供全面的核酸序列数据,包括原始测序数据、序列组装信息和功能注释。

    • DDBJ: 日本DNA数据银行, 由日本国立遗传学研究所(NIG)管理, 主要收集和存储来自日本及亚洲地区的核苷酸序列数据,与GenBank和ENA共享数据。

    蛋白数据库

    • UniProt: 是包含蛋白质序列,功能信息,研究论文索引的蛋白质数据库,整合了包括EBI,SIB,PIR三大数据库的资源。

    • PDB: 全球最大的蛋白质三维结构数据库,存储蛋白质和核酸的三维结构信息。

    • STRING: 提供已知和预测的蛋白质-蛋白质相互作用,广泛用于蛋白质功能预测和相互作用网络分析。

    • InterPro: 蛋白质家族和结构域数据库,存储蛋白质序列中的功能域和结构域注释信息。

    功能数据库

    • GO: 是全球最大的基因功能注释数据库, 其将基因和基因产物的功能进行标准化分类。广泛用于基因功能注释和富集分析。

    • KEGG: 调控网络注释数据库, 包含基因组、代谢途径、疾病和药物等信息。数据库分为多个层级,涵盖代谢途径、遗传信息处理、细胞过程等多个方面。

    • JASPAR: 专门存储高质量的转录因子(TF)DNA 结合图谱。它以位置频率矩阵(PFMs)的形式存储这些图谱,并提供工具来研究基因转录调控。


    数据安全和我国数据库




    数据库使用案例


    NCBI

    • PubMed

    • SRA

    • ENTREZ

    • BLAST

    InterPro

    • Search

    • Browse

    GO

    • Gene Ontology

    • GO terms

    • GO annotation

    • GO enrichment


    拓展内容: 生物信息数据格式



    常用生物信息数据格式

    • FASTA/FASTA.gz

    • FASTQ/FASTQ.gz

    • GFF/GTF

    • BED

    • SAM/BAM

    • VCF

    • MAF

    BioFormat.pdf: 常用生信数据格式详细介绍

    拓展内容: 生物信息数据格式 —— FASTA


    拓展内容: 生物信息数据格式 —— FASTQ



    拓展内容: 生物信息数据格式 —— FASTQ


    \[ Q = -10 * log_{10}P_{error} \]


    拓展内容: 生物信息数据格式 —— GFF




    拓展内容: 生物信息数据格式 —— GTF




    拓展内容: 富集分析


    什么是富集分析? –> 广义: 分类数据的分布检验


    吸烟和性别有关系么?

    • 卡方检验

    • Fisher精确性检验

    • KS检验


    拓展内容: 富集分析


    生物领域的富集分析

    背景基因集(N) 下获得 一组特定基因集(S)

    S可能是基因列表,表达图谱,基因芯片等形式。

    用预先构建好基因注释数据库(例如GO,KEGG等)已对背景基因集(N)根据生物功能或过程进行分类

    通过统计学算法找出有那些显著区别于背景基因集(N)的类别(生物组成/功能/过程)

    或者找出这组特定基因集间在生物组成/功能/过程的共性

    经过聚类后去除冗余得到基因富集结果的过程,即为富集分析。


    拓展内容: 富集分析

    生物数据富集分析算法

    拓展内容: 富集分析 -> 基因本体论(Gene ontology, GO)

    分子功能(Molecular Function,MF)

    • 单个的基因产物(包括蛋白质和RNA)或多个基因产物的复合物在分子水平上的活动,比如“催化”,“转运”

    • 需要注意,这里的描述只表示活动,而不指定执行功能的实体(分子或复合物),动作发生的地点,时间或背景

    细胞组分(Cellular Component ,CC)
    • 基因产物在执行功能时所处的细胞结构位置,比如在线粒体,核糖体

    • 需要注意:细胞组分是细胞解刨结构,不指代过程

    生物过程(Biological Process ,BP)
    • 通过多种分子活动完成的生物学过程

    • 需要注意:生物学过程不等同于通路。目前,GO没有表示完整的通路信息所需的动力学或依赖性的描述信息





    GO 富集结果示例


    下次课预热

    拉马努金: 神一样的男人

    下次课预热

    分型: 自然界的递归思维