下载cBioPortal中的文章相关数据

之前一直以为cBioPortal是用于可视化分析癌症基因组(TCGA, ICGC)等数据的网站,后来才发现其还收录了不少研究论文的原始上传数据

整合进cBioPortal的基因组数据类型包括体细胞突变,DNA copy-number alterations(CNAs),Mrna和microRNA(miRNA)表达,DNA甲基化,蛋白质富集,磷酸化蛋白富集。
cBioportal中文教程

最近因为有个需求希望能下载到BioPortal上某个研究的全部原始数据,尝试了不少方法,最终找到可以在Github上下载BioPortal网站上所有文章的数据,步骤略微繁琐,因此整理下


cBioPortal网站做了一个R包-cgdsr使用户能通过一个基于R的API端口访问其每个癌症数据集使用R语言的cgdsr包获取TCGA数据

这个R包主要提供以下几个函数进行查询数据:

  1. 加载cgdsr包,创建一个对象来连接cbioportal server

    library(cgdsr)
    # Create CGDS object
    mycgds = CGDS("http://www.cbioportal.org/")
    
  2. 查询cbioportal包含的研究数据的study id

    # Get list of cancer studies at server
    study_id <- getCancerStudies(mycgds)[,c(1,2)]
    
  3. 看看某个study id(如nsclc_pd1_msk_2018)的所包含的数据类型有哪些(如mutate data等)以及case类型

    profiles <-  getGeneticProfiles(mycgds, "nsclc_pd1_msk_2018")
    cases <- getCaseLists(mycgds, "nsclc_pd1_msk_2018")
    
  4. 最后看下特定一个基因的数据情况,如下是突变数据

    res <- getProfileData(mycgds, c("CDK4","RARA"), "nsclc_pd1_msk_2018_mutations", "nsclc_pd1_msk_2018_all")
    

除了R的API端口外,BioPortal网站还提供了web的API端口,结果跟R的API大同小异

但是我最近在查看一篇文献的时候,发现其文章的全部数据是放在BioPortal上的,并且也在BioPortal上搜了其相关界面。但是BioPortal网站只提供了其数据的一些可视化分析结果,而我需要其文章上传的全部原始数据,而R和web的API端口也无法满足这需求

这时在网上搜寻方法的时候看到有人提到BioPortal的Github上可以下载到全部数据,因此在Github上发现果然有相关方法:https://github.com/cBioPortal/datahub

The datahub is a repository for store data only. It contains staging files which are pre-validated and can be loaded directly into the cBioPortal

但是其是用git-lfs来管理这些文件的

Git LFS 是 Github 开发的一个 Git 的扩展,用于实现 Git 对大文件的支持

所以我们需要先安装git lfs先(以ubuntu为例),依次输入命令就行;其主要步骤是先将安装Git,然后将git-lfs放到你的apt源里,然后在用apt来安装git-lfs,最后显示Git LFS initialized.即说明安装成功

sudo apt-get install git
curl -s https://packagecloud.io/install/repositories/github/git-lfs/script.deb.sh | sudo bash
sudo apt-get install git-lfs
git lfs install

接着用git将datahub仓库克隆到服务器上

git clone https://github.com/cBioPortal/datahub.git
cd datahub
git lfs install --local --skip-smudge

最后可以是通过git-lfs将study id的相关数据都拉下来(注:这个stduy id是要在datahub/public里有的才行)

git lfs pull -I public/nsclc_pd1_msk_2018
cd public/nsclc_pd1_msk_2018/

最后可以看到数据都下载到nsclc_pd1_msk_2018文件夹中了,包含了完整的数据,非常好用,有需求的可以试试哈

anlan@ubuntu:~/datahub/public/nsclc_pd1_msk_2018$ ls -lh
总用量 2.3M
drwxrwxr-x 2 anlan anlan 4.0K  9月 22 00:00 case_lists
-rw-rw-r-- 1 anlan anlan  18K  9月 22 00:03 data_clinical_patient.txt
-rw-rw-r-- 1 anlan anlan  27K  9月 22 00:03 data_clinical_sample.txt
-rw-rw-r-- 1 anlan anlan 261K  9月 22 00:03 data_CNA.txt
-rw-rw-r-- 1 anlan anlan  24K  9月 22 00:03 data_fusions.txt
-rw-rw-r-- 1 anlan anlan 6.6K  9月 22 00:03 data_gene_matrix.txt
-rw-rw-r-- 1 anlan anlan 2.2K  9月 22 00:03 data_gene_panel_impact341.txt
-rw-rw-r-- 1 anlan anlan 2.6K  9月 22 00:03 data_gene_panel_impact410.txt
-rw-rw-r-- 1 anlan anlan 2.9K  9月 22 00:03 data_gene_panel_impact468.txt
-rw-rw-r-- 1 anlan anlan 638K  9月 22 00:03 data_mutations_extended_mskcc.txt
-rw-rw-r-- 1 anlan anlan 637K  9月 22 00:03 data_mutations_extended.txt
-rw-rw-r-- 1 anlan anlan  147  9月 22 00:00 meta_clinical_patient.txt
-rw-rw-r-- 1 anlan anlan  145  9月 22 00:00 meta_clinical_sample.txt
-rw-rw-r-- 1 anlan anlan  273  9月 22 00:00 meta_CNA.txt
-rw-rw-r-- 1 anlan anlan  229  9月 22 00:00 meta_fusions.txt
-rwxrwxr-x 1 anlan anlan  152  9月 22 00:00 meta_gene_matrix.txt
-rw-rw-r-- 1 anlan anlan  284  9月 22 00:00 meta_mutations_extended.txt
-rw-rw-r-- 1 anlan anlan  375  9月 22 00:00 meta_study.txt
-rw-rw-r-- 1 anlan anlan 618K  9月 22 00:03 nsclc_pd1_msk_2018_data_cna_hg19.seg
-rw-rw-r-- 1 anlan anlan  229  9月 22 00:00 nsclc_pd1_msk_2018_meta_cna_hg19_seg.txt

本文出自于http://www.bioinfo-scrounger.com转载请注明出处