上传数据,轻松分析 | 云上转录组标准分析流程使用指南

工具地址

Galaxy中国(UseGalaxy.cn)> RNA ANALYSIS TOOLS > Standard Analysis > 有参转录组标准分析

功能描述

本工具用于转录组二代测序数据的标准分析,可生成表达量矩阵和测序数据质控结果。

这是一套非常流行的转录组定量分析流程,即 Hisat2 + Stringtie 经典组合,其步骤为:

  1. hisat2,将经过质控得到的 Clean data,比对到参考基因组上;
  2. samblaster,去除PCR或光学重复;
  3. samtools,去除不合格的比对序列,将 SAM 文件转换成 BAM 文件;
  4. stringtie,结合 hisat2 得到的比对文件(BAM)和基因组注释文件(GTF),进行定量分析,得到每个样本的表达量文件(FPKM / TPM);
  5. prepDE.py,将 FPTM / TPM 转化为 Counts 计数的表达量矩阵,用于后续差异基因等分析。

TIPs:

  • 原始数据处理,需要大量计算资源(按需付费),请联系管理员配置( 微信:ilovebtit )。
  • 所有样本并行处理,运算时间跟数据量最大的那个样本有关,提交任务后请耐心等待。

操作步骤

1. 创建一个新的历史面板

在网站右侧的历史面板上方,点击 + 号,创建一个新的历史面板,可以为新面板取一个名字,如:Three Yeast Test。

2. 数据准备

2.1 共享数据的使用方法

如果使用测试数据,可以在网站上方菜单栏,找到:

  • 数据共享 > 数据库 > RNA-seq > Three Yeast

可以看到6个Fastq文件,是3个酵母样本的双端测序数据(抽样数据用于工具测试) 。

  • 全选6个Fastq文件。
  • 点击上方 Add to History 按钮,点击 as Datasets,将数据添加到刚才新建的历史面板。

回到网站主页,可以在历史面板中看见刚才添加的6个Fastq文件:

至此我们学习了添加共享数据到历史面板的方法。

2.2 自有数据的上传方法

我们再来看看如何上传自己的数据,同样,增加一个新的历史面板,并为其取一个有意义的名称,如 RNAseq Test Using Tree Yeast。

  • 点击网站左侧的 Upload Data。
  • 点击 选择本地磁盘文件。
  • 选择要上传的Fastq文件(可以多选),点击 打开。
  • 回到上传工具界面,点击开始。
  • 点击 Close 等待上传完成。历史面板中的文件名都变成绿色后,表示上传完成。

3. 制作 List of Pairs

放松,不要被概念吓倒,其实就是把所有Fastq文件的文件名放到一个列表中。

  • 点击历史面板中的 选择按钮,然后点击 Select All。
  • 然后占开下拉菜单,点击 Build List of Dataset Pairs。

在弹出的界面中,可以看到,6个Fastq文件已经自动配成3对了(来自于同一个样本的Read1 / Read2配对)。

绿色部分:

  • 左边是 Read 1
  • 右边是 Read 2
  • 中间是样本名

这时候可以看到,中间的所有样本名最后都有一个 .fastq 后缀,说明自动配对得不完美,我们可以指定Fastq文件的后续,实现更加精确的配对。

PS:当然这不是必须的,现在配对的情况已经可以用于后续分析了,我们去掉样本名中的.fastq后缀,仅仅是为了视觉上更简洁。

  • 点击 Unpair All,可以看到数据变成了未配对状态。
  • 我们指定更精确的Fastq文件名后缀。在左侧文本框输入:_1.fastq.gz,在右侧文本框输入:_2.fastq.gz。然后点击 Auto-pair。

可以看到,现在匹配得更加精确。

  • 我们为数据集取一个名字,如:Theee Yeat RNA,点击 Create collection 即可。

回到历史面板,我们看到,原来的Fastq文件已经隐藏了,面板中出现了一个新的数据集:

现在,我们可以正式运行转录组工具了。

4. 运行工具

进入工具页面:

  • 测序数据:选择刚才创建的数据集。
  • 参考基因组:选择 Yeast (partial genome, just for test),因为我们教程中用的是3个酵母样本测序数据的一小部分用于工具测试。

目前支持人类 GRCh37 / GRCh38 基因组。如果没有你需要的基因组,请联系管理员添加。

  • Dry Run,该按钮为 Yes,会生成流程的任务脚本,不会执行,通常用于测试设置的完整性,在此保持默认值:No
  • 点击 Run Tool,等待分析结果。
5. 任务查看

历史面板中结果文件名的前面一直在转圈,说明任务正在运行。

若转圈停止:

  • 结果文件名变为绿色,表示任务运行成功。
  • 结果文件名变为红色,表示任务运行失败。

最后:

  • 点击文件旁的 眼睛 图标,可以查看文件内容。
  • 点击文件名,待文件区域展开后,再点击 磁盘 图标,即可下载结果文件。