生物大数据分析

4 . 基于R的数据可视化介绍和应用

4.1 R语言基础
4.2 基于ggplot2的数据可视化

生物大数据分析

4.1 R语言基础

R的历史和特点

S语言 => R语言

1976年, S语言诞生于贝尔实验室 (与C语言, Unix系统同宗);
与Unix命运类似, S语言的商业版S-PLUS不方便进行教学;
1997年, Robert Gentleman和Ross Ihaka等开发了R语言用于教学;
R官网: http://www.r-project.org/

R的特点

强交互, 支持复杂算法描述, 图形功能强;
集成现代统计方法的实现;
统计和科研工作者经常用R开发新算法 => 滚雪球了属于是;
函数式编程, 支持对象类和类方法;
动态类型语言, 解释执行, 运行速度较慢;

一己之力，引领全球信息时代–-贝尔实验室

R语言基本语法速递

# 安装: https://cloud.r-project.org/

# 对象 object
x <- 1
name <- "小明"
y = 2

# 运算符
+, -, *, /, ^

# 常用函数
sqrt, exp, log, log10, log2
round, floor, ceiling

# 自定义函数
my_add <- function(x,y){x+y}

# 读写 I/O:
# I: read.table, read.csv, read.delim
# O: print, cat, write

# 数据类型: 逻辑型, 字符串, 数字 ...
TRUE, FALS, T, F
"abc", "123", "@!@#$#$%#$^#$%&$%^&"
123, 1e-5, 3.1415926

# 数据结构: 向量, 矩阵, 列表, 数据框 ...
# 向量
v1 <- 1:10
v1 + 100  # 四则运算自动广播
v1 * 2

v2 <- 21:30
v2 - v1   # 等长向量可进行四则运算

# 向量的下标和子集
v1[2]
v1[c(1,3)]
v1[3:5]
v1[c(-1,-10)]
v1[v1>5] # 逻辑下标

# 矩阵: 二维向量

# 列表: 火车

# 数据框 dataframe
d <- data.frame(
    name=c("李明", "张聪", "王建"), 
    age=c(30, 35, 28), 
    height=c(180, 162, 175),
    stringsAsFactors=FALSE
)
##   name age height
## 1 李明  30    180
## 2 张聪  35    162
## 3 王建  28    175

# 流程控制
## 判断
if(CONDITION1){
    EXPR1
}else if(CONDITION2){
    EXPR2
}else{
    EXPR3
}

ifelse(CONDITION, EXPR-TRUE, EXPR-FALSE) # ? : 

## 循环
for(i in 1:5){
    # do sth...
}

while(CONDITION){
    # do sth...
}

repeat{
    # do sth...
    if(CONDITION){break}
}

# 基本统计函数
min, max, median, sd, quantile

# 基本统计检验
t.test
wilcox.test
cor.test
chisq.test

# 聚类分析
kmeans
hclust, dist

生物大数据分析

4.2 基于ggplot2的数据可视化

R语言绘图

科学需要可视化

R语言绘图

大批量数据需要基于编程语言绘图

R语言绘图

R的基本绘图语法: 略, 课下自学基于ggplot2的R语言绘图√

Grammar of Graphics

R语言绘图: ggplot2语法

Grammar of Graphics

ggplot2中的图形部件

data: data.frame
aes: 数据到图形的映射属性
- 坐标轴 x, y
- 颜色 color
- 元素大小 size
- 形状 shape
- 透明度 alpha
geoms: 几何形状
- geoms汇总

stats: 统计变换
scales: 标度设置
coord: 坐标系统
facet: 分面/切片
layer: 图层
theme: 主题风格
save: 保存/输出

R语言绘图: Geoms

折线图: geomline, geomabline, geomhline, geomvline

柱形图: geombar, geomcol, stat_count

热图: geombin2d, geomtile, geomhex, geom_raster

箱线图: geom_boxplot

轮廓图: geomcontour, geomcontour_filled

密度图: geomdensity, geomdensity2d, geomdensity2dfilled

散点图: geompoint, geomdotplot, geom_jitter

区间图: geomcrossbar, geomerrorbar, geomlinerange, geompointrange

地图: geom_map

路径图: geompath, geomstep

多边形图: geomrect, geompolygon

条带和范围: geomribbon, geomarea, geom_smooth

线段和曲线: geomsegment, geomcurve

文字: geomtext, geomlabel

小提琴图: geom_violin

复杂图是简单元素的组合

Gui, S., Wei, W., et al. A pan-Zea genome map for enhancing maize improvement. Genome Biol 23, 178 (2022).

作图的一般原则

好的数据, 好的展现形式, 好的审美

用尽可能少的元素表示尽可能多的数据

分类变量的作图优先级

不同分组
不同颜色
三维动态
不同符号

使用区分度强的颜色而不是渐变色

数值型变量的作图优先级

同一坐标轴上的不同位置
不同轴上的位置
不同长度
不同角度或者斜率
不同面积
三维空间中的不同位置
颜色的不同明暗度
不同颜色饱和度
曲线的不同曲率
三维体积

ggplot2作图实践

帕尔默企鹅数据集: 嘴巴越长的企鹅，嘴巴也会越厚么？

> library(ggplot2)
> library(palmerpenguins)

> head(penguins)
n | species island    | bill_length_mm | bill_depth_mm | flipper_length_mm | body_mass_g |
t | <fct>   <fct>     |          <dbl> |         <dbl> |             <int> |       <int> |
1 | Adelie  Torgersen |           39.1 |          18.7 |               181 |        3750 |
2 | Adelie  Torgersen |           39.5 |          17.4 |               186 |        3800 |
3 | Adelie  Torgersen |           40.3 |          18   |               195 |        3250 |
4 | Adelie  Torgersen |           NA   |          NA   |                NA |          NA |
5 | Adelie  Torgersen |           36.7 |          19.3 |               193 |        3450 |
6 | Adelie  Torgersen |           39.3 |          20.6 |               190 |        3650 |

> str(penguins)
$ species          : Factor w/ 3 levels "Adelie","Chinstrap",..: 1 1 1 1 1 1 1 1 1 1 ...
$ island           : Factor w/ 3 levels "Biscoe","Dream",..: 3 3 3 3 3 3 3 3 3 3 ...
$ bill_length_mm   : num [1:344] 39.1 39.5 40.3 NA 36.7 39.3 38.9 39.2 34.1 42 ...
$ bill_depth_mm    : num [1:344] 18.7 17.4 18 NA 19.3 20.6 17.8 19.6 18.1 20.2 ...
$ flipper_length_mm: int [1:344] 181 186 195 NA 193 190 181 195 193 190 ...
$ body_mass_g      : int [1:344] 3750 3800 3250 NA 3450 3650 3625 4675 3475 4250 ...
$ sex              : Factor w/ 2 levels "female","male": 2 1 1 NA 1 2 1 2 NA NA ...
$ year             : int [1:344] 2007 2007 2007 2007 2007 2007 2007 2007 2007 2007 ...

ggplot2作图实践

帕尔默企鹅数据集: 嘴巴越长的企鹅，嘴巴也会越厚么？

学生A: "破案了! 喙厚度和喙长度成反比, 说明嘴短的企鹅, 嘴更厚, 与原假设相反! 毕业! 能毕业了~!"

学生B: "发表! 必须马上发表! 我昨天帮你带饭了, 给我个共一不过份吧?"

老师: "你俩再延一年吧🙂"

ggplot2作图实践

帕尔默企鹅数据集: 嘴巴越长的企鹅，嘴巴也会越厚么？

ggplot2作图实践

帕尔默企鹅数据集: 嘴巴越长的企鹅，嘴巴也会越厚么？

# 感觉有点不对劲, 但又说不上来:
ggplot(penguins,aes(x = bill_depth_mm, y = bill_length_mm)) +
    geom_point() + 
    geom_smooth(method="lm") + 
    theme_bw(base_size=18)

# 这下舒服了:
ggplot(penguins,aes(x = bill_depth_mm, y = bill_length_mm, color = species)) + 
    geom_point() + 
    geom_smooth(method="lm") + 
    theme_bw(base_size=18)

# 加亿点点细节
ggplot(penguins, # 选择x轴,y轴数据映射, 以及颜色映射
            aes(x = bill_depth_mm,
                y = bill_length_mm,
                color = species)) + 
    geom_point(size=4,alpha=0.7) + # 点的大小和透明度
    geom_smooth(method="lm") + # 线性回归拟合
    scale_color_brewer(palette="Dark2") + # 配色方案
    labs(x = "Bill depth (mm)",   # x轴标题
         y = "Bill length (mm)",  # y轴标题
         title = "Flipper and bill length correlation" # 总标题
         ) + 
    theme_bw(base_size=18) + # 纯白主题, 总字体大小
    theme(legend.position=c(0.1, 0.15)) # 图列位置

拓展学习资料推荐

Friends Don't Let Friends Make Bad Graphs

配色方案网站推荐

Color Hunt

Color Space