生物大数据分析

1 . 生物大数据分析导论




桂松涛 Blog
songtaogui@163.com



大数据的时代




数据体量大 T => P => E => Z

处理速度快 速度、时效性 => 计算性能、算法优化


种类多样 网络日志、音频、视频、图片、位置信息、用户习惯...


价值密度低 提纯: 需要从大量无用数据中提取关键信息


信息爆炸时代如何保持持续的洞察力?


  • 智慧 != 聪明
  • 智慧 ~ 洞察力
  • 感知、价值观


  • 对数据的分析无处不在


    对数据的分析无处不在




    生物大数据: 体量


    生物大数据: 维度


    生物大数据: 维度




    生物大数据: 分析


    生物大数据: 爆炸


    生物大数据: 爆炸


    生物大数据分析



    Biological Big Data Analysis = Bioinformatics + Data Science





  • 学科交叉: 计算机、数学、统计、信息学、生物学

  • 数据类型丰富: 表型、气候、分子性状、实验处理 ...

  • 上限高下限低: 🙃 𝄜 ✖️➗➕➖; 🤔 📐e = ∑∞ⁿ⁼⁰ ¹ₙ🤓


  • 编程是工具, 统计是灵魂, 专业是核心


    科研范式的转变




    < 1950s

  • 第一范式: 基于观察和归纳的实验研究
  • 第二范式: 基于科学假设和逻辑演绎的理论研究

  • 1950s ~ 2000s (💻+🌐)

  • 第三范式: 基于计算机对复杂现象的仿真研究
  • 第四范式: 密集数据驱动的科学研究

  • 2000s ~ now (💻💻💻+🌐🌐🌐)

  • 第五范式: 智能化科研 AI for Science


  • 整体性、复杂性、学科交叉


    要把大象装冰箱,拢共分几步?

    在作物驯化过程中,什么样的基因更容易丢失?


  • 选研究对象: 玉米 <=> 大刍草
  • 获得数据: 收集群体、种材料、测序
  • 分析数据: 测序数据清洗、比对
  • 分析数据: 基因PAV鉴定、基因特征鉴定
  • 分析数据: 统计检验
  • 展示数据: 绘图、撰写结果

  • Can & Cannot



    What you can learn

    • 我想系统地做数据科学,我应该怎么入门?

    • 我偶尔用一下数据分析,应该学什么工具?

    • 我拿到了一些实验数据,应该用什么检验方法进行分析?

    • 我结果都分析完了,怎么进行数据可视化?



    What you can NOT learn

    • 老师有没有脚本能一键生成文章并自动投稿?

    • 老师我太想进步了,您文章能挂我一作么?

    • 老师我这有一套RNA-Seq数据您帮我分析一下吧!

    • 哎呀! 跑了一个月的实验没有条带,刚好课上学了Photoshop,P一个P一个!


    课程安排和专题讨论



    理论基础
  • 生物大数据分析导论
  • 常用分析平台和编程语言介绍
  • 统计基础和常用方法
  • 数据可视化介绍和应用
  • 分析应用专题
  • 高通量测序和基因组分析
  • 群体遗传分析
  • 多组学整合分析
  • 数据驱动的基因功能解析

  • 绝知须躬行

    • 课上内容以框架、大纲为主;

    • 提供自学资源、资料;

    • 90%以上的内容需要课下自学掌握;

    考查方式: 文献分析方法解析