实例展示如何使用TCGA数据库!

实例展⽰如何使⽤TCGA数据库!
TCGA 全称为The Cancer GenomeAtlas Program ,即癌症基因图谱计划,是05 年时由美国发起⼀项⽤来研究癌症中基因组变化的计划。相较于GEO 数据库,基因数据更加规整,因此更具可信度,⽤来发⽂章影响因⼦也更⾼。
废话不多说,我们以结肠腺癌为例,来实战⼀番吧。
TCGA ⼊⼝:
点击上⽅链接就可以进⼊这个页⾯啦(要⽤Google 浏览器,或者搜狗浏览器,亲测360 浏览器只能打开TCGA 主页⾯却没有办法进⼊数据库的页⾯。):
我们所需要⽤到的基因数据要进⼊Access TCGA Data才能获取到哦,这样我们就顺利进⼊TCGA的基因组数据共享数据门户。
进⼊上⾯这个界⾯后,就可以正式开始啦。
例如,我们以结肠腺癌为例,有两种⽅式进⼊结肠腺癌的数据库。
第⼀种⽅法:直接在搜索框中搜索Colon adenocarcinoma ,按下回车键就可以看到下图:
过渡时期
⿊⾊的部分告诉我们这⼀条数据的数据类型:
TCGA-COAD 就意味着是TCGA ⼯程⾥⼀个项⽬,项⽬名是COAD 。
为了更加⽅便⼤家查询TCGA 数据库,我将TCGA 下的所有项⽬列了出来:
简称全称中⽂备注BRCA breast invasive carcinoma乳腺浸润癌
PAAD pancreatic adenocarcinoma胰腺癌
COAD colon adenocarcinoma⼤肠腺癌
ESCA esophageal adenocarcinoma⾷管腺癌
BLCA bladder urothelial carcinoma膀胱尿路上⽪癌
STAD stomach adenocarcinoma胃腺癌
CHOL cholangiocarcinoma胆管癌
CESC cervical squamous cell carcinoma and endocervical
adenocarcinoma宫颈鳞癌与宫颈腺癌
LUAD lung adenocarcinoma肺腺癌
LIHC liver hepatocellular carcinoma肝细胞
ACC adrenocortical carcinoma肾上腺⽪质癌只有01样本KICH kidney chromophobe肾嫌⾊细胞癌
优势合作READ rectum adenocarcinoma直肠腺癌
PRAD prostate adenocarcinoma前列腺癌
LUSC lung squamous cell carcinoma肺鳞癌
女吉他手
GBM glioblastoma multiforme多形性胶质母细胞瘤miRNA数据中只有正常
样本
HNSC head and neck squamous cell carcinoma头颈部鳞状细胞癌
2008奥运会会徽KIRP kidney renal papillary cell carcinoma肾乳头状细胞癌
THCA thymoma carcinoma胸腺瘤癌
DLBC lymphoid neoplasm diffuse large B-cell lymphoma淋巴肿瘤弥漫性⼤B细胞淋
巴瘤
LGG brain lower grade glioma脑低级别胶质瘤
OV ovarian serous cystadenocarcinoma卵巢浆液性囊腺癌
UCEC uterine corpus endometrial carcinoma⼦宫体⼦宫内膜癌
SKCM skin cutaneous melanoma⽪肤⿊⾊素瘤
KIRC kidney renal clear cell carcinoma肾透明细胞癌
THYM thymoma胸腺瘤正常样本只有两个PCPG pheochromocytoma and paraganglioma嗜铬细胞瘤和副神经节瘤正常样本只有三个
SARC sarcoma⾁瘤miRNA数据中没有正常
三级教育样本
LAML acute myeloid leukemia急性髓性⽩⾎病没有正常样本
TGCT testicular germ cell tumors睾丸⽣殖细胞瘤没有正常样本MESO mesothelioma间⽪瘤没有正常样本UVM uveal melanoma葡萄膜⿊⾊素瘤没有正常样本UCS uterine carcinosarcoma⼦宫癌⾁瘤没有正常样本
第⼆种⽅法是直接在右侧的图⽚上选择感兴趣的部位,这种⽅法多⽤于不太明确⾃⼰想要做的癌症这种情况。
在我们这个例⼦中,就是选择colorectal 这个部位。
数据的下载,进⼊了数据库之后,我们就可以开始数据的下载了。
现在⽹络上很多教程是从⽹站直接下载,但这种⽅式不稳定,⽽且不⽀持断点续传;还有⼀些⽀持断点续传的⽅法是加⼊到cart 中,且使⽤cmd 下载,这些都⾮常的⿇烦,所以这⾥要介绍⼀个TCGA 下载神器,TCGAbiolinks 这个R 包,它的下载⽅式与⽹站下载差不多,但是⽀持断点续传,⽽且不⿇烦。
library(TCGAbiolinks)
library(SummarizedExperiment) # 加载R 包
work_dir <- "D:/colonadenocarcinoma" # 选择⼯程地点(也就是数据下载的位置)
project <- "TCGA-COAD" # 选择⼯程
data_category <- "TranomeProfiling" # 类似于在⽹站上直接进⾏选择,选择转录数据
data_type <- "Gene ExpressionQuantification" # 选择基因表达谱数据
workflow_type <- "HTSeq -Counts" # 选择counts 数据
legacy <- FALSE # 使⽤hg38
DataDirectory <-paste0(work_dir,"/GDC/",gsub("-","_",project))
FileNameData <- paste0(DataDirectory,"_","RNAseq_HTSeq_Counts",".rda")
query <- GDCquery(project = project,
data.category =data_category,
legacy = legacy) # 查询下载的数据情况
# 显⽰下载数据的总样本量
samplesDown <-getResults(query,cols=c("cases"))
samplesDown <-getResults(query,cols=c("cases"))
cat("Total sample to download:",length(samplesDown))
# 显⽰下载数据的肿瘤样本量
dataSmTP <-TCGAquery_SampleTypes(barcode = samplesDown, typesample ="TP")
cat("Total TP samples to down:",length(dataSmTP))
# 显⽰下载数据的正常样本量
dataSmNT <-TCGAquery_SampleTypes(barcode = samplesDown, typesample ="NT")
cat("Total NT samples to down:",length(dataSmNT))
# 下载并整合数据
GDCdownload(query = query,
directory = DataDirectory,files.per.chunk=6,
method='client')
data <- GDCprepare(query = query,
save = TRUE,
directory = DataDirectory,
save.filename =FileNameData)
data_expr <- assay(data)
dim(data_expr)
gene_expr_file <- paste0(DataDirectory,
qbz95b"_",
"Gene_HTSeq_Counts",
".txt")
write.csv(data_expr,file ='raw_mRNAdata.csv')
最终数据就是可以直接进⾏数据分析的数据

本文发布于:2024-09-21 00:31:30,感谢您对本站的认可!

本文链接:https://www.17tex.com/xueshu/589703.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:数据   下载   没有   样本   细胞
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议