生物大数据分析

1 . 生物大数据分析导论: 课程介绍




桂松涛 Blog
songtaogui@163.com



大数据的时代




数据体量大 T => P => E => Z

处理速度快 速度、时效性 => 计算性能、算法优化


种类多样 网络日志、音频、视频、图片、位置信息、用户习惯...


价值密度低 提纯: 需要从大量无用数据中提取关键信息


信息爆炸时代如何保持持续的洞察力?


  • 智慧 != 聪明
  • 智慧 ~ 洞察力
  • 感知、价值观


  • 对数据的分析无处不在


    对数据的分析无处不在




    生物大数据: 体量


    生物大数据: 维度


    生物大数据: 维度




    生物大数据: 分析


    生物大数据: 爆炸


    生物大数据: 爆炸


    生物大数据分析



    Biological Big Data Analysis = Bioinformatics + Data Science





  • 学科交叉: 计算机、数学、统计、信息学、生物学

  • 数据类型丰富: 表型、气候、分子性状、实验处理 ...

  • 上限高下限低: 🙃 𝄜 ✖️➗➕➖; 🤔 📐e = ∑∞ⁿ⁼⁰ ¹ₙ🤓


  • 编程是工具, 统计是灵魂, 专业是核心


    科研范式的转变




    < 1950s

  • 第一范式: 基于观察和归纳的实验研究
  • 第二范式: 基于科学假设和逻辑演绎的理论研究

  • 1950s ~ 2000s (💻+🌐)

  • 第三范式: 基于计算机对复杂现象的仿真研究
  • 第四范式: 密集数据驱动的科学研究

  • 2000s ~ now (💻💻💻+🌐🌐🌐)

  • 第五范式: 智能化科研 AI for Science


  • 整体性、复杂性、学科交叉


    要把大象装冰箱,拢共分几步?

    在作物驯化过程中,什么样的基因更容易丢失?


  • 选研究对象: 玉米 <=> 大刍草
  • 获得数据: 收集群体、种材料、测序
  • 分析数据: 测序数据清洗、比对
  • 分析数据: 基因PAV鉴定、基因特征鉴定
  • 分析数据: 统计检验
  • 展示数据: 绘图、撰写结果

  • Can & Cannot



    What you can learn

    • 我想系统地做数据科学,我应该怎么入门?

    • 我偶尔用一下数据分析,应该学什么工具?

    • 我拿到了一些实验数据,应该用什么检验方法进行分析?

    • 我结果都分析完了,怎么进行数据可视化?



    What you can NOT learn

    • 老师有没有脚本能一键生成文章并自动投稿?

    • 老师我太想进步了,您文章能挂我一作么?

    • 老师我这有一套RNA-Seq数据您帮我分析一下吧!

    • 哎呀! 跑了一个月的实验没有条带,刚好课上学了Photoshop,P一个P一个!


    课程安排和专题讨论



    理论基础
  • 生物大数据分析导论
  • 常用分析平台和编程语言介绍
  • 统计基础和常用方法
  • 数据可视化介绍和应用
  • 分析应用专题
  • 高通量测序和基因组分析
  • 转录组分析
  • 群体遗传分析
  • 数据驱动的基因功能解析

  • 绝知须躬行

    • 课上内容以框架、大纲为主;

    • 提供自学资源、资料;

    • 90%以上的内容需要课下自学掌握;

    考查方式: 文献分析方法解析



    生物大数据分析

    2 . 生物大数据分析导论: 生物信息大事记




    桂松涛 Blog
    songtaogui@163.com



    生物信息大事记



    生信大事记.pdf




    生物大数据分析

    3 . 生物大数据分析导论: 生物数据库




    桂松涛 Blog
    songtaogui@163.com



    什么是数据库


    数据库(database)
    一类用于存储和管理数据的计算机文档,是统一管理的相关数据 的集合,其存储形式有利于数据信息的检索与调用。




    数据库的主要任务

    • 存储数据

    • 检索数据

    • 维护数据

    • 数据共享

    • 数据安全

    • 数据备份



    数据库的分类

    平面文件数据库, 关系型数据库, 面向对象数据库, 基于Internet的XML数据库

    平面文件数据库



  • 字段+内容, 不包含计算机指令
  • 单个长文本文件
  • 增加或删除记录困难
  • 检索困难
  • 维护困难

  • 数据库的分类

    平面文件数据库, 关系型数据库, 面向对象数据库, 基于Internet的XML数据库

    关系型数据库


    数据库的分类

    平面文件数据库, 关系型数据库, 面向对象数据库, 基于Internet的XML数据库

    关系型数据库
    关系型数据库(Relational Database) 使用表格(tables)来存储和组织数据。每个表格由行(records)和列(fields)组成,类似于Excel中的工作表。关系型数据库的设计基于“关系模型”, 这种数据库模型的核心思想是将数据存储在多个表中,这些表通过关键字段(keys)相互关联。
    关系型数据库的特点:
  • 数据结构化
  • 支持SQL语言
  • 数据冗余度小
  • 数据独立性高
  • 易于扩展维护
  • SQL入门指南

    生物学数据库


    生物学数据库的分类: 存储内容
    根据存储的具体内容,可以分为一级数据库和二级数据库:

    • 一级数据库: 档案数据库(archive), 库中的主要内容是来源于实验室操作所得到的原始数据结果(如测序得到的序列或蛋白三维结构数据等),同时包含基本的说明文档(如序列所属的物种、类型、参考文献等)。

      • 特点: 数据的原始性和全面性,为后续的生物信息学分析和二级数据库的构建提供了基础

    • 二级数据库: 分析数据库(analytical), 库中的主要内容是是在一级数据库的信息基础上经过生物信息学分析处理后的数据结果(如基因表达数据、蛋白质相互作用数据、基因组注释信息等),同时包含分析所用的方法、参数、结果解释等说明文档。

      • 特点: 数据经过加工和注释; 具有特定用途; 数据量相对较小; 更新速度较慢; 便于使用


    生物学数据库


    生物学数据库的分类: 数据类型
    核酸数据库

    • NCBI GenBank: 世界上最大的公共核酸序列数据库, 由美国国家生物技术信息中心(NCBI)管理, 涵盖了广泛的物种和基因组数据和详细注释。

    • ENA: 由欧洲生物信息学研究所(EMBL-EBI)管理。同样提供全面的核酸序列数据,包括原始测序数据、序列组装信息和功能注释。

    • DDBJ: 日本DNA数据银行, 由日本国立遗传学研究所(NIG)管理, 主要收集和存储来自日本及亚洲地区的核苷酸序列数据,与GenBank和ENA共享数据。

    蛋白数据库

    • UniProt: 是包含蛋白质序列,功能信息,研究论文索引的蛋白质数据库,整合了包括EBI,SIB,PIR三大数据库的资源。

    • PDB: 全球最大的蛋白质三维结构数据库,存储蛋白质和核酸的三维结构信息。

    • STRING: 提供已知和预测的蛋白质-蛋白质相互作用,广泛用于蛋白质功能预测和相互作用网络分析。

    • InterPro: 蛋白质家族和结构域数据库,存储蛋白质序列中的功能域和结构域注释信息。

    功能数据库

    • GO: 是全球最大的基因功能注释数据库, 其将基因和基因产物的功能进行标准化分类。广泛用于基因功能注释和富集分析。

    • KEGG: 调控网络注释数据库, 包含基因组、代谢途径、疾病和药物等信息。数据库分为多个层级,涵盖代谢途径、遗传信息处理、细胞过程等多个方面。

    • JASPAR: 专门存储高质量的转录因子(TF)DNA 结合图谱。它以位置频率矩阵(PFMs)的形式存储这些图谱,并提供工具来研究基因转录调控。


    数据安全和我国数据库




    数据库使用案例


    NCBI

    • PubMed

    • SRA

    • ENTREZ

    • BLAST

    InterPro

    • Search

    • Browse

    GO

    • Gene Ontology

    • GO terms

    • GO annotation

    • GO enrichment


    拓展内容: 生物信息数据格式



    常用生物信息数据格式

    • FASTA/FASTA.gz

    • FASTQ/FASTQ.gz

    • GFF/GTF

    • BED

    • SAM/BAM

    • VCF

    • MAF

    BioFormat.pdf: 常用生信数据格式详细介绍

    拓展内容: 生物信息数据格式 —— FASTA


    拓展内容: 生物信息数据格式 —— FASTQ



    拓展内容: 生物信息数据格式 —— FASTQ


    \[ Q = -10 * log_{10}P_{error} \]


    拓展内容: 生物信息数据格式 —— GFF




    拓展内容: 生物信息数据格式 —— GTF