如何下载TCGA病理切片和对应临床数据
创作时间:
作者:
@小白创作中心
如何下载TCGA病理切片和对应临床数据
引用
CSDN
1.
https://blog.csdn.net/qq_44505899/article/details/146016144
TCGA(The Cancer Genome Atlas)数据库是生物医学研究中重要的资源库,包含了大量癌症相关的病理切片和临床数据。本文将详细介绍如何下载TCGA数据库中的病理切片和临床数据,包括数据的类型、格式、可视化方法以及具体的下载步骤。
TCGA数据库病理切片及对应临床信息下载
1. TCGA病理切片介绍
1.1 病理切片类型
病理切片类型可分为细胞病理,冷冻病理,术后病理:
- 细胞病理:由细针穿刺等方式得到的细胞样本。
- 冷冻病理:是在手术过程中,从患者身上取下一小块组织,迅速冷冻后切片,进行快速显微镜检查。医生在手术室内评估结果,以帮助指导手术决策 (比如判断是否切除干净,确定淋巴结是否转移等)。
- 术后组织病理:指手术切除的整个组织或器官(或其中一部分)经过固定、取材、包埋、切片、染色等一系列处理后,进行详细的显微镜检查。
TCGA数据库包含两种病理切片:
- Tissue slides是快速冰冻病理切片。
- 快速冷冻样本通常在冷冻实验室的手术过程中产生,以帮助外科医生确定肿瘤的边界是否干净(即肿瘤是否已被完全切除);
- TCGA下载数据时,Data Type选择Slide Image,Experimental Strategy选择Tissue slide
- 切片文件名中带有“TS#”或“BS#”的文件(其中 # 是整数),是冻结的幻灯片;
- Diagnostic slides是福尔马林固定石蜡包埋玻片(FFPE),是金标准;
- TCGA下载数据时,Data Type选择Slide Image,Experimental Strategy选择Diagnostic slide;
- 切片文件名中带有“DX#”的文件(其中 # 是整数),是一个 FFPE 幻灯片;
- 更适合计算,因此一般下载diagnostic slides;
1.2 病理切片格式
- svs,tiff,ndpi和mrxs等
1.3 病理切片可视化
- 本地软件:qupath,ImageScope
- Python包:openslide
- 网页:https://openslide.org/demo/ (svs在线查看器)
2. 病理切片下载
Step1:在windows电脑下载gdc-client工具。
参考:TCGA之GDC-client工具下载安装与使用_gdc-client安装-CSDN博客
Step2:在网页https://portal.gdc.cancer.gov/上下载对应数据集的gdc_manifest.2025-02-28.173510.txt文件(以TCGA-THCA为例)。
参考:TCGA 数据库下载肿瘤样本病理切片FFPE(福尔马林固定石蜡包埋)_tcga病理切片数据-CSDN博客
Step3:本地通过gdc-client工具下载切片。
- win+R, 输入 cmd,回车
- gdc-client download -m D:\data_download\TCGA-THCA\gdc_manifest_update.txt -d D:\data_download\TCGA-THCA\Slide
- Ps:下载完毕后,Slide目录下会出现很多子目录,一个子目录为一张切片的相关信息
Step4:数据整理及完整性Check
- 本地下载完毕后,可将Slide目录下的所有文件直接上传至服务器中进行分析,目录结构参考如下:
- 数据整理
# 将下载的所有文件直接上传至slide目录下的raw文件
# 第一步: 将所有svs或者svs.parss文件移动至slide目录下
find raw -type f \( -name "*.svs" -o -name "*.svs.partial" \) -exec mv -t . {} +
# 删除当前目录下文件大小为0的文件
find . -type f -size 0 -delete
# 修改文件名,TCGA中有些切片下载完毕后依然保持为.svs.partial的尾缀名,因此直接将名字替换为.svs结尾
rename 's/\.svs.partial$/\.svs/' *.svs.partial
- 考虑到病理切片较大,在本地下载可能由于内存等问题中断,因此可以通过下述代码更新gdc_manifest.2025-02-28.173510.txt文件,进而重新下载
- 按照下面的代码得到更新后的gdc_manifest_dpdate.txt, 重新执行Step1-Step4,确保数据完全下载。
import numpy as np
import pandas as pd
import os
from datetime import datetime
dirs = "/data/hanli/database/TCGA/TCGA-THCA/"
gdc_file = dirs + "gdc_manifest.2025-02-28.173510.txt"
df_all = pd.read_csv(gdc_file,sep="\t")
print("需要下载的slide数量为:",df_all.shape[0])
df_all.head(3)
download_list = os.listdir(dirs+"/slide/")
print("已下载的slide数量为:",len(download_list))
df_rest = df_all[~df_all["filename"].isin(download_list)]
print("未下载的slide数量为:",df_rest.shape[0])
# 获取当前时间
now = datetime.now()
# 格式化为月、日、小时、分钟
formatted_time = now.strftime("%Y-%m-%d.%H%M")
print("当前时间(月-日 小时:分钟):", formatted_time)
outfile = dirs + 'gdc_manifest_update_' +formatted_time +'.txt'
print(outfile)
df_rest.to_csv(outfile, sep='\t', index=False, header=True)
3. 临床信息下载
热门推荐
定制家具常用的木材有哪些,设计师如何选择?
转子发动机的历史:从辉煌到衰落的技术传奇
浮世绘的设计特征与跨文化影响:构图、装饰与色彩分析
主题性绘画的历史、功能与叙事
6类人群40岁以后,做好静脉曲张预防,出现症状及时就医
视觉训练——解锁视觉潜能的“秘密武器”
会计基本假设是什么意思
如何选择职业高中或中专
八字“年柱”是如何影响命主一生气运的?
怎么发现有甲亢
张雪峰谈道路桥梁与渡河工程专业就业前景、考研方向、优势与劣势
亚托莉:从海底沉睡到成为夏生精神支柱的机器人少女
如何合理规划保险与理财方案?这些方案存在哪些潜在风险?
专家点评:不正规“身心灵课程”变味“心灵传销毒药” 恐加剧心理问题
苦荞和荞麦哪个降血糖?专家解读两种食材的降糖效果
2024最治愈的日本电影《黎明的一切/长夜尽头的微光》,千万别错过!
多模态AI:如何通过融合文本、图像与音频重塑智能系统未来
浏览器中把HTML转为PDF的几种方式
家庭教育中的五大常见误区
智能制造2025对就业市场的影响是什么?
换轮胎后要做四轮定位吗?这是不是智商税?
雅思听说读写每天如何合理分配时间?如何高效提升雅思成绩?
孩子沉迷手机怎么办?专家建议以“爱的陪伴”填补情感缺位
家长必看!正确引导孩子使用手机,告别没收大战,培养学习小达人
破冰船到底怎么工作的?面对两三米厚的冰层,像切奶油一样简单!
怎样炖羊肉汤好吃又不腥,乱用调料可不行,谨记3个窍门,汤鲜肉嫩,不腥不膻
开国中将只有177人,为何国军在解放战争时,却有900多名中将?
《点燃绿色星火》报告在COP29发布:展示中国引导公众参与绿色行动的创新实践
《风味人间》团队:专业、多元、创新的美食纪录片制作团队
突然长闭锁性粉刺?可能是这些护肤习惯出了问题!