如何批量下载TCGA公开数据 - 成就云开发者社区

下面这个流程是下载这个网站公开数据的方法，使用到的工具是TCGAbiolinks(https://github.com/BioinformaticsFMRP/TCGAbiolinks)，

主要是两种RNA表达谱数据和基因突变maf数据

下载的所有文件获取方法

站长已经把maf和表达谱文件已经上传到百度云，加入小站vip群里的小伙伴已经获得；
可以转发此条信息到朋友圈或者两个200人以上的微信群，截图发到公众号回复；
下面是下载所用到的方法，也可以自己下载，注意下载所有文件需要至少50G空间。

创建R 4.0环境

代码语言：javascript

复制

conda create -n R4 -c conda-forge -y r-essentials r-base r-devtools
conda activate R4
R

进入R语言环境

下载R包

代码语言：javascript

复制

install.packages("BiocManager")
BiocManager::install("BioinformaticsFMRP/TCGAbiolinksGUI.data")
BiocManager::install("BioinformaticsFMRP/TCGAbiolinks") ## 致敬开发者

批量下载代码

代码语言：javascript

复制

library(TCGAbiolinks)
projects <- getGDCprojects()
projects <- projects$project_id
TCGA_dowload<-function(x,dirpath){
query.exp <-GDCquery(
  project = x, 
  data.category = "Transcriptome Profiling",
  data.type = "Gene Expression Quantification", 
  workflow.type = "STAR - Counts""
)
query.maf <- GDCquery(
  project = x, 
  data.category = "Simple Nucleotide Variation", 
  access = "open"
)
GDCdownload(query.exp)
Exp <- GDCprepare(query = query.exp)
Maf <- GDCprepare(query = query.maf)
saveRDS(Exp,file = paste0(dirpath,x,"_exp.rds"))
saveRDS(Maf,file = paste0(dirpath,x,"_maf.rds"))
}
## 批量下载数据
for (i in projects) {
  print(i)
  try(TCGA_dowload(i,dirpath = "./TCGAbiolinks_data/"),silent = T)
}

下载数据说明

文件使用

下载文件保存格式是rds，使用下面方法可以加载

代码语言：javascript

复制

TCGA_ACC_Exp<-readRDA("TCGA-ACC_exp.rds") ##注意文件路径要正确

表达谱数据表达谱数据包括:

代码语言：javascript

复制

TCGA_ACC_Exp_unstrand<-SummarizedExperiment::assay(TCGA_ACC_Exp,1)

临床信息表达谱中整合了临床信息可以用下面方法提取

代码语言：javascript

复制

TCGA_ACC_clinData<-SummarizedExperiment::colData(TCGA_ACC_Exp)

关于maf 下载的SNV_maf文件没有临床信息需要自己整理一下才能使用maftools

One More Thing......