生信自学路线|转录组bulkRNA-seq的处理与常见下机测序数据分析

发布于:2025-06-18 ⋅ 阅读:(17) ⋅ 点赞:(0)

本篇面向新入门的,转专业的,临床的,0基础的同学。学生信对于软件安装没问题了,环境搭建好了,开始了解一些数据挖掘的常见概念,以下是生信多组学数据挖掘四大金刚为首的转录组,我们先讲bulkRNA哈,下一步才做scRNA!!
还有很多未出现的名词,可以自行谷歌一下,或者看看b站、小红书、知乎、很多免费但是很好用的干货,有经费的建议报班1对1还有售后那种。


常见概念问题

以下为 bulkRNA-seq 初学者或项目中常见的基础问题,建议逐一搞清楚背后逻辑:

  1. 芯片数据测序数据(microarray vs RNA-seq)有何区别?
  2. bulkRNA-seq单细胞 RNA-seq 的根本差异是什么?
  3. GEO、TCGA、ArrayExpress 等数据库的用途与区别?
  4. Illumina、Agilent、Affymetrix 等测序/芯片平台有何不同?
  5. 什么是表达矩阵FPKM、TPM、counts 有何不同?
  6. 上游分析 vs 下游分析分别指什么?
  7. limmaDESeq2 的差异和适用场景?
  8. 差异分析中常用的过滤标准(如 logFC、FDR)是什么?
  9. **批次效应(batch effect)**是如何产生的?如何处理?
  10. **临床信息文件(clinical/phenotype)**如何与表达矩阵对应?
  11. 如何根据 GPL 平台转换探针 ID 为 基因名
  12. 富集分析中 GO / KEGG / GSEA 有何区别?
  13. 富集分析用基因集应如何准备?输入格式有何要求?
  14. 气泡图柱状图分别适用于哪类富集结果展示?
  15. 常见可视化 R 包有哪些?(如 ggplot2、pheatmap、clusterProfiler
  16. 什么是 log2(TPM+1)logCPM 转换?为什么要 log 转换?
  17. 为什么差异分析需要建模?如何理解设计矩阵(design matrix)
  18. 如何评估差异分析结果是否可信?(如 PCA、聚类图 等)
  19. 表达量低的基因是否需要过滤?常见的过滤标准是什么?
  20. 如果一个项目样本量很小,还能做差异分析吗?有哪些注意事项?
  21. **表达量归一化(normalization)**常见方法有哪些?分别适用于哪类数据?
  22. 如何进行样本聚类与可视化?聚类方法和距离公式有何差异?
  23. 如何设置合理的 contrast 对比组?如何解释 fold change 的方向?
  24. RNA-seq 数据是否适合做机器学习?有哪些前处理步骤?
  25. 什么是 表达谱可视化?常用图有哪些?如何美化?
  26. 如何区分技术重复与生物重复?差异分析中如何正确设置?
  27. **样本混杂因素(confounders)**有哪些?如何在建模中控制?
  28. 富集分析中的**背景基因集(background)**如何设置才合理?
  29. 如何从差异分析结果中筛选出具有生物学意义的核心基因?常用标准有哪些?
  30. bulkRNA-seq 能否用于预测临床结局(如生存分析、分型)?如何与临床变量结合?

实操演练模块

1. GEO 数据处理基础

  • 数据集:GSE194331
  • 样本量:119 个外周血 RNA-seq 样本
  • 分组信息(病情分级):
    • Mild AP(轻度):57 例
    • Moderately-Severe AP(中度):20 例
    • Severe AP(重度):10 例
    • Healthy Controls(健康对照):32 例
  • 平台编号:GPL16791(Illumina HiSeq 2500)

作业要求:

  • 输出行为基因,列为样本的表达矩阵,txt和csv都可,基因名称需为symbol ID;
  • 整理出一一对应的分组表格,第一列为样本名称,第二列为分组信息;

2. TCGA 数据下载与预处理

  • 项目名称:TCGA-LUAD(肺腺癌)
  • 数据类型:RNA-seq 原始计数(HTSeq - Counts)
  • 样本来源:TCGA 数据门户(GDC)
  • 样本类型:包含肿瘤组织(Tumor)和配对正常组织(Normal)

作业要求:

  • 能在TCGA官网下载处理更好,这里用xena的数据也是可以的,GDC/TCGA都可
  • 输出行为基因,列为样本的表达矩阵,txt和csv都可,基因名称需为symbol ID;
  • 整理临床信息表格,包含性别、年龄、生存时间、生存状态、stage、T、M、N、是否治疗、是否转移

3. 多队列 GEO 数据整合与批次效应校正

  • 数据集 1:GSE75037
    • 样本数:83 对肺腺癌肿瘤与邻近非肿瘤组织(共 166 个样本)
    • 平台:Illumina WG6-V3 expression arrays
  • 数据集 2:GSE10072
    • 样本数:58 个肺腺癌样本 + 49 个配对非肿瘤组织样本(共 107 个)
    • 平台:Affymetrix HG-U133A Array
  • 分析目标:合并两个芯片表达数据集,构建统一表达矩阵,并进行批次效应校正

作业要求:

  • 两个分别的表达矩阵(标准化后,行为基因),合并后的统一表达矩阵(去批次效应)
  • 分组信息表,包含样本名称、GSE号、肿瘤分组
  • 校正前后 PCA 或者 聚类图

👆【图片仅供参考,与结果无关】👆

4. 差异表达分析与可视化

  • 项目:TCGA-LUAD(肺腺癌)
  • 样本:Primary Tumor 与 Solid Tissue Normal
  • 数据类型:HTSeq-counts(推荐)或 FPKM/TPM(需说明转换方式)
  • 分析目标:识别肿瘤与正常组织之间的差异表达基因,并进行可视化展示

作业要求:

  • 差异分析结果表(包含完整表格、筛选fc/p值后)
  • 差异热图、差异火山图

👆【图片仅供参考,与结果无关】👆

5. 富集分析与可视化展示

  • 数据来源:第 4 步差异表达分析结果
  • 分析目标:识别差异表达基因所涉及的功能通路(GO/KEGG)和富集趋势,并进行可视化展示
  • 使用工具包:clusterProfilerorg.Hs.eg.dbenrichplotggplot2

作业要求:

  • GO 富集结果表、KEGG 富集结果表
  • GO(BP、MF、CC分组)和 KEGG 可视化图片,气泡图柱状图都可以,x 轴展示基因个数

👆【图片仅供参考,与结果无关】👆


📌 补充建议:每个小作业记得保存好自己的代码+真实数据+可视化图片,方便复现,以及后续优化自己的可视化形式与配色等。


网站公告

今日签到

点亮在社区的每一天
去签到