初步认识TCGA

肿瘤基因组图谱(TCGA)计划是由美国National Cancer Institute(NCI)和National Human Genome Research Institute(NHGRI)于2006年联合启动的项目,研究的癌症类型从最开始的多形性成胶质细胞瘤(GBM)到现在为止共有39种,涉及29种癌症器官,1万多个肿瘤样本,27万多份文件,当然其项目也将于2017年接近尾声。

网址:https://portal.gdc.cancer.gov/

TCGA中数据类型主要有以下几种:

  • Clinical:病人的一般情况、诊治情况、TNM分期、肿瘤病理、生存情况等

  • mRNA:mRNA芯片或者RNA-Seq测得的mRNA表达量

  • microRNA:microRNA芯片或者microRNA-Seq测得的microRNA表达量

  • Copy Number:SNP芯片得到的肿瘤组织比对正常组织的染色体上各片段的比值

  • Mutation:肿瘤组织测序结果相对参考基因组的核苷酸突变,包括插入和缺失等变化

  • Protein:蛋白芯片测序得到的约200种常见癌症相关蛋白的表达量

  • Methylation:甲基化芯片测得的DNA甲基化数据

其中mRNA-Seq,miRNA-Seq以及Methylation Array被广泛使用

mRNA-Seq数据分为3种:

  1. HTSeq-Counts
  2. HTSeq-FPKM
  3. HTSeq-FPKM-UQ

前两个比较好理解,第三个跟第二个的区别在于不同的标准化方法,公式可参考https://docs.gdc.cancer.gov/Data/Bioinformatics_Pipelines/Expression_mRNA_Pipeline/

TCGA数据等级:

  1. level1:原始数据
  2. level2:处理过的数据
  3. level3:经过分割、解释的数据
  4. level4:感兴趣的区域或概要

总而言之,前面2个层级的数据一般是拿不到的,需要权限,一般也只有国外的PI才能申请到(听说的),我们一般拿到的open数据就属于那种已经标准化后的数据

TCGA样本分类:

除了要知道数据等级外,我们还需要了解TCGA的样本分类,比如哪个是正常样本,哪个是肿瘤样本

一般我们可以看到样品名称如:TCGA-19-2619-10A,我们需要关注的是最后一位10A,一般来说01代表癌症样本,11代表癌旁样本。其实从01-09是tumor,癌症样本;10-29是normal,癌旁样本。只是其中分的比较细

具体可参考官网说明:https://wiki.nci.nih.gov/display/TCGA/TCGA+barcode

TCGA数据下载:

官网有自带的下载方式:选中数据 -> 加入购入车 -> download -> cart -> 顺便也下载metadata

还有不少推荐使用Firehose:http://gdac.broadinstitute.org/ -> data-browse -> 然后按照自己需求下载样本数据即可

第一次接触TCGA数据库,初步整理一下,后续根据文献实践再总结分析过程了