问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

最新版TCGA数据库管理技巧大揭秘!

创作时间:
作者:
@小白创作中心

最新版TCGA数据库管理技巧大揭秘!

引用
百度
11
来源
1.
https://zhidao.baidu.com/question/572669803642108204.html
2.
https://zhidao.baidu.com/question/1617579460272243467.html
3.
https://zhidao.baidu.com/question/2129045305597206987.html
4.
https://blog.csdn.net/swangee/article/details/141468072
5.
https://bioinformatics.ccr.cancer.gov/docs/btep-coding-club/CC2024/TCGA/TCGA_download/
6.
https://www.jingege.wang/2024/02/25/tcga-gdc-data-portal-2-0/
7.
https://exchange.matillion.com/data-productivity-cloud/pipeline/tcga-genomic-data-commons/
8.
https://bioinformatics.ccr.cancer.gov/docs/btep-coding-club/CC2024/TCGA/TCGA_download/#data-types
9.
https://bioinformatics.ccr.cancer.gov/docs/btep-coding-club/CC2024/TCGA/TCGA_download/#what-is-tcga
10.
http://www.jzbiotech.com.cn/news/list13/163.html
11.
http://gdc.cancer.gov/about-data/gdc-data-quality

随着信息技术的发展,TCGA(The Cancer Genome Atlas)数据库已成为癌症研究的重要资源。2024年9月19日,所有URL将更改以允许公共访问基因组学数据湖容器。这意味着研究人员可以通过新的公共URL访问去标识化的临床和生物样本数据,无需使用签名URL。此外,通过GDC数据存储网站,用户可以轻松下载和处理TCGA数据,为癌症研究提供强有力的支持。你是否已经掌握了最新的数据管理和下载技巧?快来一起探讨吧!

01

TCGA数据库简介

TCGA数据库由美国国家癌症研究所(NCI)和美国国家人类基因组研究所(NHGRI)于2006年发起,旨在通过大规模基因组测序改善对癌症分子机制的理解。该数据库包含了来自超过11,000名患者的基因组、表观基因组、转录组和蛋白质组数据,以及丰富的临床信息和元数据,涵盖了33种癌症类型。

02

2024年重要更新

  1. GDC data portal 2.0发布:2024年2月推出了全新的GDC数据门户2.0版本,采用了最新的Web技术,提供了更直观、互动性更强的数据浏览体验。新版界面注重用户友好性,优化了信息布局和操作流程,显著提升了数据检索效率。

  2. URL变更通知:2024年9月19日起,所有URL将更新为允许公共访问基因组学数据湖容器。这意味着研究人员可以通过新的公共URL访问去标识化的临床和生物样本数据,无需使用签名URL。

03

数据管理技巧

1. 使用队列生成器构建自定义队列

在新版GDC数据门户中,队列生成器是一个核心工具,允许用户根据临床和生物样本特征构建自定义队列。例如,你可以选择特定的癌症类型(如TCGA-LUAD),并根据需要添加额外的过滤条件。

2. 数据类型筛选

TCGA提供了多种类型的数据,包括临床信息、分子分析数据和分子特征数据。在下载前,需要根据研究需求选择合适的数据类型:

  • RNA测序数据:选择"Experimental Strategy"为RNA-Seq,"Data Type"为Gene Expression Quantification,"Workflow Type"为STAR – Counts。

  • miRNA数据:选择"Experimental Strategy"为miRNA-seq,"Data Type"为Isoform Expression Quantification(包含5p/3p数据)或miRNA Expression Quantification,"Workflow Type"为BCGSC miRNA Profiling。

  • 突变数据:选择"Experimental Strategy"为WSX,"Data Type"为Masked Somatic Mutation,"Workflow Type"为Aliquot Ensemble Somatic Variant Merging and Masking。

3. 批量下载数据

选择所需文件后,可以使用购物车功能进行批量下载。点击右上角的购物车图标,进入购物车页面。为了整合数据,需要下载两个文件:Cart(数据文件)和Metadata(元数据文件)。此外,还可以下载临床数据(TSV格式)。

04

数据处理要点

每个TCGA数据文件都包含了超过60,000个基因的表达量数据。关键数据字段包括:

  • gene_id:基因的唯一标识符,通常由Ensembl或NCBI提供。
  • gene_name:基因的通用名称或符号。
  • gene_type:基因的分类,如蛋白编码基因或非编码RNA基因。
  • unstranded:非链特异性RNA-seq的原始基因计数。
  • stranded_first:链特异性RNA-seq的第一链数据。
  • stranded_second:链特异性RNA-seq的第二链数据。
  • tpm_unstranded:非链特异性RNA-seq的每百万转录本数(TPM)。
  • fpkm_unstranded:非链特异性RNA-seq的每千碱基每百万映射片段数(FPKM)。
  • fpkm_uq_unstranded:非链特异性RNA-seq的上四分位数归一化FPKM。

在数据处理时,建议使用标准化的数据(如TPM或FPKM),因为它们考虑了基因长度和测序深度的影响,能够更准确地反映基因表达水平。

05

结语

TCGA数据库的持续更新和改进为癌症研究提供了强大的支持。通过掌握最新的数据管理和下载技巧,研究人员可以更高效地利用这一宝贵资源,推动癌症精准医学的发展。随着技术的进步,我们期待TCGA数据库能为癌症研究带来更多的突破和发现。

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号