RNA的分类 维基百科
|
![]() |
|||
|
|
|
|
|
|
|
|
![]() ![]() |
|
Q=−10∗log10(P) P: Base calling error probability |
![]() ![]() ![]() |
|
|
![]() ![]() |
|
|
![]() |
||||||||||||||||||||||||||||||||||
|
![]() |
|
|
![]() |
|
|
![]() |
|
|
![]() |
|
|
![]() |
|
|
![]() |
|
|
输出在总reads中出现次数超过0.1%的reads;
大量高比例的reads可能表示测序污染;
![]() |
|
|
|
![]() |
|
|
|
|||
|
常用的RNA-Seq比对软件:
|
RNA-Seq序列比对与DNA比对的区别 ![]() |
|
|
![]() |
|
Genome-Guide assembly ![]() |
De novo assembly ![]() |
Martin, J., Wang, Z. Next-generation transcriptome assembly. Nat Rev Genet 12, 671–682 (2011).
|
|
|
RNA-Seq Reads Count的标准化
![]() |
CPM=GA∗1E6 RPKM/FPKM=G∗LA/1000A∗1E6 TPM=∑(RPKA)RPKA∗1E6whereRPKA=LA/1000A |
|
di=SiSbaseline
xip=dixi
Quantile normalization: WIKIPEDIA
|
|
大多数基因的表达是不存在差异的,将稳定的部分找出来,作为标准化的内参,依据内参算出各个样本的标准化因子:
|
基本思想与DESeq2相似, 区别在于内参的选择: TMM选择一组内参基因集合, 进行加权平均
|
|
![]() |
如何快速评估高维数据的特征? –> 降维分析 –> 主成份分析(PCA)
![]() |
|
主成份分析(Principal components analysis, PCA)是很经典的降维算法,可用来降噪、消除冗余信息等。
极端例子:Y轴数据提供信息量少,可以直接舍弃
![]() |
一般情况: X&Y信息变化大,需要通过降维算法进行计算
![]() |
|
![]() |
|
|
生物学重复 vs 技术重复
重复越多,对总体均值和方差的估计越准确,越能得到更多DEG。
![]() |
![]() |
|
传统数据的差异分析(多组: ANOVA):
|
泊松分布? 负二项分布! Reads count是离散的非零整数, 对应的分布也是离散分布。
|
|||
|
![]() |
![]() |
|
![]() |
![]() |
|
差异基因分析: |
![]() |
|
如果多次假设检验的结果之间有影响,或需要将多次假设检验的结果合并分析,则需要校正。
例:寻找两种条件下具有差异表达的基因,我们会对每个基因在两组样本里的表达量分别进行检验(多重假设检验),但最后获得所有差异表达基因时需要将上述各结果合并,若不进行校正,则差异表达基因中假阳性结果就较多,故需要校正。
反之,如果多次假设检验的结果仅用来单独分析,不会将结果合并,则无需校正。
例:将基因分成几个基因集,比较这几个基因集之间某特征是否有显著差异,因两两之间的比较与其他基因集并无关联,故不需要校正。
Family Wise Error Rate: 控制假阳性率为0
|
FDR矫正: 允许一定的假阳性率
|
|
Fold Change; P-value; P_adj/FDR/Q-value
火山图 ![]() |
聚类热图 ![]() |
|
卡方检验
Fisher精确性检验
KS检验
S可能是基因列表,表达图谱,基因芯片等形式。
用预先构建好基因注释数据库(例如GO,KEGG等)已对背景基因集(N)根据生物功能或过程进行分类
通过统计学算法找出有那些显著区别于背景基因集(N)的类别(生物组成/功能/过程)
或者找出这组特定基因集间在生物组成/功能/过程的共性
经过聚类后去除冗余得到基因富集结果的过程,即为富集分析。
分子功能(Molecular Function,MF )
细胞组分(Cellular Component ,CC)
生物过程(Biological Process ,BP)
|
![]() |
|
![]() |
![]() |
|
nf-core/rnaseq: https://github.com/nf-core/rnaseq