|
|
|
正态分布(Normal distribution)/高斯分布(Gaussian distribution)
正态分布是一种连续型随机变量概率分布, 分布图是一条以均值为中心, 左右对称的钟形曲线。 若随机变量\(X\)服从一个平均数为\(\mu\) (mu) 、标准差为\(\sigma\) (sigma) 的正态分布,则记为:
\(X \sim N(\mu,\sigma^2)\)
其概率密度函数为: \( f(x) = \frac1{\sigma\sqrt{2\pi}}\; \exp\left(-\frac{\left(x-\mu\right)^2}{2\sigma^2} \right) \! \) |
|
|
|
|
|
|
mean, median, mode, skew
|
kurtosis
|
|
|
|
|
[黄, 黄, 白, 黄, 黑, 黑, 黄, 白, 白, 12cm, 锟斤拷]
[2.29, 165.0, 166.9, 169.3, 170.9, 172.1, 173.4, 173.4, 174.0, 177.1, 209.1, 215.2, 1755]
[0.1, 0.2, 0.1, 1.1, 1.5, 1.8, 3, 4, 10, 2000, 5000]
[ 1, 0.9, 0.9, 0.8, 1, 0.5, 0.5, 0.3, 0.1, 0.0001, 1E-7, 1E-15 ]
在直方图上,位于图形两端,并远离均数的数值,提示可能存在异常
在箱线图上位于上下四分位数±1.5倍四分位间距的数值,提示可能存在异常
|
|
规范化(Normalization)
标准化(Standardization)
归一化
中心化(Zero-Centered)
正态化(Normal transform)
正则化
...
规范化(Normalization) :
将不同变化范围的值映射到相同的固定范围中,常见的是[0,1],此时亦称归一化
最常用方法: min-max normalization
\( X^{new} = \frac{X - X_{min}}{X_{max} - X_{min}}\)
去量纲化 , 尺度(scale)统一 , 不改变原排序 , 但不能处理异常值
|
|
标准化(Strandardization) :
将数据转换为均值为0, 标准差为1的新数据, 最常用的方法为
z-score标准化z-score normalization
\( X^{new} = \frac{X - μ}{δ}\)
去量纲化 , 不改变原排序 , 能处理异常值 , 尺度(scale)不统一
正态化(Normal transformation) :
将非正态分布的数据转换为正态/近似正态分布
正态化(Normal transformation)
RNA-Seq Reads Count的标准化
|
\( CPM = \frac{A * 1E6}{G} \) \( RPKM/FPKM = \frac{A * 1E6}{G * L_A / 1000} \) \( TPM = \frac{RPK_A * 1E6}{\sum{(RPK_A)}} \quad where \quad RPK_A = \frac{A}{L_A / 1000}\) |
|
观察变量为连续变量;
观察变量相互独立;
观察变量不存在显著异常值;
观察变量为(或近似为)正态分布;
观察变量最多两组;
T统计量(以单样本T-Test为例)
\(t = \frac{X̄ - μ}{s / \sqrt{n}}\) T分布 其中ν为自由度 拓展阅读: 什么是自由度
|