生物信息学

3.6 宏基因组分析专题




桂松涛
songtaogui@163.com


什么是宏基因组



宏基因组学(Metagenomics)
又称元基因组学, 总体基因组学, 是一门直接取得环境中所有遗传物质的研究。


利用非培养的微生物群落, 对群落个体基因片段或全基因组进行系统测定和研究, 分析微生物在环境中的基因组集合, 研究其群落结构与生态功能。


  • 环境基因组

  • 生态基因组

  • 群落基因组


为什么研究宏基因组



为什么研究宏基因组



如何研究宏基因组




  1. 取样: 土壤, 肠道, 根际 ...

  2. DNA提取, 扩增子: 总DNA, 16s rDNA

  3. 建库4. DNA测序: 二代, 三代, DNA, RNA

  4. 序列比对, 物种分类: Mapping, OUT, Database ...

  5. 群落分析: 丰度鉴定, 相似性, 系统发生 ...

  6. 功能分析...


如何研究宏基因组


测序和分析步骤概览


16s rRNA 测序



16s rRNA 测序



16s rRNA 测序: 分析步骤



质量控制



Fastq 格式


质量控制



Fastq 质量值

测序错误概率(P)

  • 根据荧光信号强弱计算的参考错误概率P

  • 数值越小越好, 如0.0000001

  • 浮点数的存储占用空间太大, 需要更高效的存储方案

测序质量值Q

  • Illumina

\(Q = - 10 * log_{10}(P)\)
  • Solid

\(Q = - 10 * log_{10}(\frac{P}{1-P})\)


Phred质量值

  • \(Phred33 = ASCII_{[Q+33]}\)


  • \(Phred64 = ASCII_{[Q+64]}\)



质量控制

ASCII码表


质量控制



Fastq 质量质控: 测序reads各位置质量值分布


质量控制



Fastq 质量质控: 测序reads各位置质量值分布


质量控制



Fastq 质量质控: 碱基总体质量值分布


质量控制



Fastq 质量质控: Reads各位置上碱基比例分布


质量控制



Fastq 质量质控: GC含量分布


质量控制


Barcode和Demultiplex


质量控制


检测和去除嵌合体(Chimera)


OTU鉴定


OTU

  • OTU(operational taxonomic units) 是在系统发生学研究或群体遗传学研究中,为了便于进行分析,人为给某一个分类单元(品系,种,属,分组等)设置的同一标志。

  • 通常按照97%的相似性阈值将序列划分为不同的 OTU,每一个 OTU 通常被视为一个微生物物种:

    • 相似性小于97%, 可以认为属于不同的种

    • 相似性小于95%,可以认为属于不同的属


为什么引入OTU 高通量测序得到的16S序列有成千上万条,如果对每条序列都进行物种注释的话,工作量大、耗时长,而且16S扩增、测序等过程中出现的错误会降低结果的准确性。在16S分析中引入OTU,首先对相似性序列进行聚类,分成数量较少的分类单元,基于分类单元进行物种注释。这不仅简化工作量,提高分析效率,而且OTU在聚类过程中会去除一些测序错误的序列,提高分析的准确性。


OTU聚类方法



OTU聚类方法


de novo聚类
按照序列相似度聚类, 选取每个分组中丰度最高的序列作为代表序列, 然后用代表序列比对参考数据库, 获得该OTU的物种注释

  • 优点:

    • 不依赖参考数据库

    • 适合已知物种较少的样品(如极端环境样品)

  • 缺点: 测序错误和嵌合体影响大;

closed-reference聚类
将序列与参考数据库直接比对, 比对到同一参考序列的作为一个OTU,在OTU聚类的同时,也获得了该OTU的物种注释信息。

  • 优点:

    • 获得的OTU可信度高;

    • 可以用来合并不同文章的结果;

  • 缺点: 智能得到已知物种的序列, 丢失未知物种信息;

open-reference聚类
是将之前两种方法进行整合: 将序列与参考数据库比对, 比对上的进行close-reference OTU聚类, 比对补上的序列再进行de novo聚类。

  • 优点: 兼具上两种方法的优点

  • 缺点: 无法用于不同16S区域的合并分析


常用OTU聚类数据库





GreenGene和RDP数据库更新太慢,一般采用Silva数据库进行分析