NCBI/Ensembl ID的转换

一般来说,我们现在平时用的最多的数据库应该算NCBI和Ensembl了,所以我们应该对其的一些名词要有一定的了解,如:

对于NCBI来说

Gnen ID即Entrez gene ID,其是NCBI给予不同基因的一个代号(标识符),用于对不同数据库进行联合搜索的搜索引擎,也被其他众多的数据库使用。Entrez gene ID就是一系列数字,比较好辨识,但一般都记不住

Gene Symbol相当于基因的官方名字,如TP53这样的

还有一些RefSeq Accession Number:

RNA的ID,如NM_(mRNA),NR_(RNA),XM_(mRNA, Predicted model),XR_(RNA, Predicted model)

Protein的ID,如AP_(Annotated on AC_ alternate assembly),NP_,YP_(Associated with an NM_ or NC_ accession),XP_(Predicted model, associated with an XM_ accession),XP_(Predicted model, annotated on NZ_ genomic records)

还有AC_(Genomic, Complete genomic molecule, usually alternate assembly),NC_(Genomic, Complete genomic molecule, usually reference assembly),NG_(Genomic, Incomplete genomic region)

对于Ensembl来说

Ensembl ID主要由五部分组成:

  1. ENS:这个开头表示这个是Ensembl id
  2. 物种:也是几个英文字母,MUS代表小鼠,如果是人则为空
  3. 类型:E代表exon,FM代表Ensembl protein family,G代表gene,GT代表gene tree,P代表protein,R代表regulatory feature,T代表transcript
  4. 一系列数字
  5. 版本号

其实只要注意前面3个部分就行了

两者的转换

可以用R包,如org.Hs.eg.db

也可以用脚本,这时就要借助一些NCBI的基因相关文件,如gene2ensembl,gene2accession,gene_info

下载地址:ftp://ftp.ncbi.nlm.nih.gov/gene/DATA/

比如gene2ensembl文件 gene2symbl 第一列:物种 ID
第二列:gene entrez ID
第三列:Ensembl_gene ID
第四列:RNA的NCBI ID 第五列:RNA的Ensembl ID 第六列:Protein的NCBI ID 第七列:Protein的Ensembl ID

gene2accession文件
主要存储了每个物种下,Gene ID对应的RNA、Protein以及genomic的信息

gene_info文件 主要存储gene的描述信息,当然包括gene id对应的gene symbol

参考来源:http://www.biotrainee.com/thread-411-1-1.html