菜鸟驿站包裹查询求助：如何用R包TCGA

点击联系发帖人 时间：2018-04-01 17:51

菜鸟包裹

关注今日：0 | 主题：115661
微信扫一扫
菜鸟进阶之TCGA使用心得-高手请略过
页码直达：
这个帖子发布于2年零157天前，其中的信息可能已发生改变或有所发展。
来源：小木虫
TCGA和GEO提供了丰富的高通量测序结果，如果加上其中详细的生存数据clinic data，就可以轻松的对相应基因做survival
analysis。下面就主要谈TCGA数据获得和处理。TCGA由NCI牵头，作为美国攻克癌计划的一个大的project，投入巨大的人力和资金，较早的进行深度测序，提供Gene
expression, DNA methylation, Copy Number Variant, Mutation还有更深度的exon
expression外显子测序结果，其临床数据整理的相对最完整，指标最多。在TCGA中直接下载数据的方法较为繁琐，但是有多个网站提供TCGA数据（包括表达和临床等）完善的整理：GDAC，
Browser和cBioportal是其中整理最为完整和可靠的。GDAC由美国MIT和Harvard共建的Broadinstitute运行，UCSC运行着Cancer
Browser 和Xena, cBioportal由MemorialSloan-Kettering Cancer
Cente建立，提供较为完善的TCGA数据为基础的各类信息检索服务。以从Cancer
Browser下载数据最为方便，下面将TCGA基因表达数据和临床数据应用方法作为记录。我们以Colorectal
Cancer数据处理为例。我们希望结合结直肠癌症的基因表达数据和临床数据，去检索到底哪些基因会和结直肠癌的OS总生存期和DFS无病进展期相关。Cancer
Browser网址：
步骤，1，进入网页后，点击Cancer Browser 选项
2，点击左上角 Add Datasets
3，在所出现的TCGA研究队列中选取COADREAD结直肠癌，里面包含TCGA的各种高通量测序结果，因为我们想研究基因和预后的关系，我们就选择Gene expression的那个
有时候我们也会发现有IlluminaHiseq Pancan normalized的Gene
expression结果，其实质和IlluminaHiseq对运算没有任何影响，UCSC对Pancan的解释是mean-normalized(per
gene) across all TCGA cohorts。
4，点击下载标志的箭头，进行下载，解压压缩包。即可得到临床和GeneMatrix数据。
clinical_data 此文件后缀加.xls用excel打开
genomicMatrix
此文件后缀加.xls用excel打开丨丨TCGA数据处理分析思路。1，
基因表达数据和临床数据整合，可以使用R语言merge语句。2，
R语言survival包进行运算，从中选出P值小于0.01的基因进行研究，如果把一个癌症队列2万多个基因都扫一遍大概要耗时6-10h左右。（其中数据处理和算法debug比较烦杂，而且对于不满足分组的进行剔除和输出应当更加注意。）&br /
不知道邀请谁？试试他们
微信扫一扫
广告宣传推广
政治敏感、违法虚假信息
恶意灌水、重复发帖
违规侵权、站友争执
附件异常、链接失效
dachong99 编辑于
收起全部有料回复
超级盼回~~~本人最近也在研究TCGA数据库，（菜鸟一枚）想问一下楼主，1.用survival包先进行单因素分析，筛选出P值小于0.01的变量，是用的Surv（）函数，然后提取出其中的wald.test对应的值吗？如果不是，楼主是用的什么方法呢？2.对于上万的变量，肯定是要写循环语句啦，下面是我写的语句，用模拟数据试了下没有问题，但用到TCGA数据中就会报错，不知道楼主可否分享一下语句，让我也学习学习y = Surv(t, d)x&-shuju[,3:6]w&-vector(length = 4)for(i in 1:4){
x.i&-x[,i]
f.i&-coxph(y~x.i)
w[i]&-f.i$wald.test}
微信扫一扫
广告宣传推广
政治敏感、违法虚假信息
恶意灌水、重复发帖
违规侵权、站友争执
附件异常、链接失效
一颗菜墩请问能讲一下怎么找癌和癌旁吗，还不是特别明白There is an &metadata& file alongside the TCGA file in your &cart&. This file contains the mapping information between file name and sample name. Unfortunately, the &metadata& file is in &json& format. To load it into R, you need &rjson& package. In addition, there are multiple IDs for each TCGA file, and you need to choose the right one to mach against the meta data. After you get the file names, retrieve the 14th and 15th numbers of the names. &01& means tumor and &11& means normal.
微信扫一扫
广告宣传推广
政治敏感、违法虚假信息
恶意灌水、重复发帖
违规侵权、站友争执
附件异常、链接失效
看过了，受益不少，谢谢楼主。
微信扫一扫
广告宣传推广
政治敏感、违法虚假信息
恶意灌水、重复发帖
违规侵权、站友争执
附件异常、链接失效
关于丁香园他的最新文章
他的热门文章
您举报文章：
举报原因：
原文地址：
原因补充：
(最多只允许输入30个字)如何用R语言分析TCGA中的甲基化数据_百度知道
如何用R语言分析TCGA中的甲基化数据
我有更好的答案
在TCGA怎么找到自己想要的甲基化数据呢，现在TCGA升级后不知道怎么下载，还有楼主用过pan-cancer吗，那上面知道怎么下载吗！
采纳率：88%
来自团队：
为您推荐：
其他类似问题
换一换
回答问题，赢新手礼包
个人、企业类
违法有害信息,请在下方选择后提交
色情、暴力
我们会通过消息、邮箱等方式尽快将举报结果通知您。鍚庝娇鐢ㄥ揩鎹峰?鑸?病鏈夊笎鍙凤紵
鑷?姩鐧诲綍
鏌ョ湅: 5168|鍥炲?: 10
TCGA琛ㄨ揪鎵归噺鍋氱敓瀛樺垎鏋}

奇偶密码网