癌症医学图像数据库TCIA

导语

GUIDE ╲

癌症图像档案 (The Cancer Imaging Archive,TCIA)是一项可以de-identify和托管可供公众下载的大量癌症医学图像的服务。

数据库介绍

癌症图像档案 (The Cancer Imaging Archive,TCIA)是一项可以de-identify和托管可供公众下载的大量癌症医学图像的服务。在TCIA中,数据被组织为“collections”;典型的病人与常见病(如肺癌)相关的影像、影像形态或类型(MRI、CT和digital histopathology等)或研究重点。DICOM是TCIA用于放射影像的主要文件格式。也提供了可用的与图像相关的支持数据,如患者结果、治疗细节、基因组学和专家分析

New Collection proposals由TCIA Advisory Group审阅。如果获得批准,数据收集中心(DCC)将为图像提供商提供亲身实践的(hands-on)支持,以de-identify和管理他们的数据。数据经过处理后,可以通过四种不同的方式供用户访问:

可以从首页访问Collection摘要页面,其中提供了每个数据集的详细说明以及直接下载链接,快速获取给定Collection的所有图像和支持数据。放射学和组织病理学数据门户提供更高级的搜索、浏览和过滤功能,以选择图像子集或从满足搜索标准的多个集合下载图像。编程接口(REST API)允许软件开发人员在他们的脚本和应用程序中构建对TCIA数据的访问。TCIA还鼓励创建数据分析中心(DACs), DACs通过连接到TCIA REST API或镜像Collections,为可视化或分析TCIA数据提供了额外的功能。为了提高TCIA的collections的价值,TCIA也鼓励研究人员发表他们的分析结果。潜在的分析可能包括肿瘤分割、放射组学特征、导出/再处理图像和放射学家评估。用户可以在分析结果目录中查看其他TCIA用户发布的分析

TCIA最初是由圣路易斯的华盛顿大学创建并主持的。2010年12月,国家癌症研究所(NCI)通过Fredrick国家实验室与华盛顿大学签订合同,建立一个高可用性、基于集群的托管环境,用以收集和管理当前和未来的图像collections。2015年10月,Prior博士和TCIA核心团队从华盛顿大学梅林克勒德学院放射科研究所迁至阿肯色大学医学院(UAMS)生物医学信息系。2015年10月,UAMS为TCIA创建了一个新的托管环境,所有的软件、流程和数据都从圣路易斯转移到了小石城。档案继续为世界各地的癌症研究人员提供高质量、高价值的图像collections。

TCIA访问链接:https://www.cancerimagingarchive.net/

数据库使用方法

01

首页

02

获取数据Access The Data

1. 数据入口控制面板Data Portals Dashboard

2. 数据使用策略和限制Data Usage Policies and Restrictions

这部分说明了数据使用政策

3. 数据浏览Browse Data Collections

使用表上的筛选框,使用关键字快速查找感兴趣的集合。还可以单击列标题来更改排序方法。

4. 浏览分析结果Browse Analysis Results

为了提高TCIA collections的价值,TCIA 鼓励研究界发表他们对现有TCIA图像收藏的分析。此类数据的包括放射学家或病理学家注释、图像分类、分割、放射组学特征或导出/再处理图像。与提交新的图像集合类似,这些数据由TCIA顾问组进行相关性审查,并使用我们的正常流程进行策划,以确保数据被de-identified。然而,TCIA不能保证分析本身的质量(例如,在给定扫描上分割的准确性)。在决定这些分析是否对他们的工作有用之前,研究人员应该仔细审查数据和任何相关的出版物。

5. 检索放射学Search Radiology Portal

左侧边框栏用于查找数据

右侧用于查看

选择数据集添加购物车

下载

下载的格式为.tcia。TCIA文件是TCIA清单数据。

想要下载和打开数据必须安装NBIA Data Retriever。小编是windows系统,首先下载安装包,然后安装。

然后再打开小编刚刚下载的文件,并下载到桌面

下载好的文件:

最终文件是.dcm格式。dcm文件是一种数位成像,广泛运用于医学领域,但并不是仅仅局限于医学。本身dcm只是一种特殊的图像文件,它可以用来存储各种图像信息,这种特殊的图像文件也只能用专用的软件才能打开。

检索图像查看软件并下载安装:

最后小编是在这里下载的:http://www.bkill.com/download/160726.html

最后打开我们刚刚下载的图像文件(竟然是这个样子的,很奇妙):

6. 搜索组织病理学Search Histopathology Portal

(1)CPTAC

从临床蛋白组学肿瘤分析联盟(Clinical Proteomic Tumor Analysis Consortium,CPTAC)的collections中搜索和可视化数据,以分析可能与相应的蛋白组学、基因组学和临床数据相关的癌症表型。

(2)TCGA

从癌症基因组图谱(The Cancer Genome Atlas, TCGA)收集中搜索和可视化数据,以调查可能与相应基因组和临床数据相关的癌症表型。

(3)其他数据集

7. TCIA程序化接口Rest API

这部分主要介绍了TCIA程序化接口(REST API)的使用方法

8. 数据分析中心Data Analysis Centers

数据分析中心(DAC)是一种工具或网站,通过连接到TCIA编程接口(REST API)或镜像Collections.,为下载、可视化或分析TCIA数据提供附加功能。如果你已经开发了一些符合这些标准的东西,可以联系Collections.,这样TCIA可以把它添加到这个页面。TCIA也会与你合作,以确保你的网站/工具提供足够的attributions和返回TCIA的链接,以符合TCIA的数据使用政策和限制。

9. 数据使用统计Data Usage Statistics

03

提交数据Submit Your Data

1. 新TCIA数据集New TCIA Dataset

这里介绍了向TCIA提交新的影像数据集的过程。如果是利用了现有的TCIA数据,希望发布你的分析,也可以在这里找到操作说明。

2. 现有TCIA数据集的分析Analysis of Existing TCIA Datasets

除了发布新的TCIA数据集,TCIA鼓励发布来自现有TCIA数据集的分析。例子(见之前上传的分析数据集)包括图像标签、注释、器官/肿瘤片段和放射体/病理特征。

3. Submission and De-identification Overview

这部分是提供TCIA关于数据收集、识别和管理的协议细节。

04

相关研究Research Activities

1. 基于TCIA的研究Publications Based on TCIA

这里列举了引用TCIA的数据进行研究的工作,并进行了分类。

2. 蛋白质基因组学成像Imaging Proteogenomics

TCIA支持一个寻求连接癌症表型和基因型的研究社区。为了实现这一目标,TCIA连接临床图像与患者基因组数据和蛋白质组数据的数据集。要访问相应基因组和/或蛋白质组数据的数据集,请使用主页上的“Supporting Data”栏来筛选“Genomics”和/或“Proteomics”数据集。这些数据中有一部分是由研究团体提供的,但其中大部分是作为NIH大规模数据收集活动的一部分收集的。

3. 临床试验成像Imaging Clinical Trials

临床试验的影像学数据提供了将影像学特征与临床试验分析、相关临床数据和患者结果联系起来的机会。从2019年开始,NCI癌症成像计划信息学实验室正在支持一个额外的TCIA图像数据收集中心,该中心特别关注临床试验数据。许多TCIA临床试验数据集将来自NCI国家临床试验网络(NCTN),该网络是组织和临床医生的集合,协调和支持美国和加拿大超过3000个地点的癌症临床试验。NCTN为NCI-funded的治疗、筛查和诊断试验提供基础设施,以改善癌症患者的生活。NCTN明确要求在https://nctn-data-archive.nci.nih.gov/view-trials中共享患者级临床数据,而TCIA作为该档案的图像存储库。

4. 挑战比赛Challenge Competitions

TCIA收集的数据已经并将继续用于图像分析挑战或比赛,如图像分割或肿瘤分类。下面描述了利用TCIA数据的具体挑战。请注意,这些挑战并不是由TCIA员工管理的,如果浏览细节的话,可能会被送到与TCIA无关的网站去了解更多信息。

5. COVID-19

新型COVID-19感染患者有多种临床表现和预后。他们可能是无症状的感染检测呈阳性,或只表现出轻微的感冒样症状。最近的临床经验表明,感染患者的胸部成像可能显示特定的肺部表现,可用于对患者进行隔离和预测严重感染后遗症。到目前为止,大多数经验都是胸部CT和放射学检查。事实证明,对COVID-19感染患者使用成像技术对患者分类、对预后不良的风险评估(特别是在危险人群中)和随访都很有价值。除了呼吸系统,先进的成像技术也被用于追踪COVID-19在肾脏、肝脏、心脏和神经系统方面的后遗症。同时,从活组织切片和死后标本中提取的数字病理图像也在不断增长。一些机构正在进行全身MR或CT虚拟尸检。

中国和欧洲的早期研究清楚地证明了定量图像分析(包括基于机器学习的放射学分析)在区分病毒性肺炎和COVID-19 ARDS方面的有效性。截至2020年7月7日,NLM LitCovid文献中心列出了超过1400篇主要基于本地数据集分析COVID-19患者CT图像数据的发表研究。这些初步发现需要大量的、多国开放获取的数据进行验证。

NIH已经启动了National COVID Cohort Collaborative (N3C) 项目,以收集和分析COVID-19相关的临床数据,目前不包括影像学数据。NCI Cancer Imaging Program (CIP)利用TCIA作为资源公开图像集。

小编总结

TCIA数据库提供了大量的放射学和组织病理学图像数据集,可以搜索、浏览和过滤功能,还能从满足搜索标准的多个集合下载图像。同时也允许软件开发人员在他们的脚本和应用程序中构建对TCIA数据的访问。TCIA还创建数据分析中心(DACs),为可视化或分析TCIA数据提供了额外的功能。TCIA还鼓励研究人员在TCIA发表他们的分析结果。潜在的分析可能包括肿瘤分割、放射组学特征、导出/再处理图像和放射学家评估。用户可以在分析结果目录中查看其他TCIA用户发布的分析。

引用:

Clark K, Vendt B, Smith K, et al. The Cancer Imaging Archive (TCIA): Maintaining and Operating a Public Information Repository. Journal of Digital Imaging. 2013; 26(6): 1045-1057. doi: 10.1007/s10278-013-9622-7.

END