KEGG——BRITE && PATHWAY(KEGG功能注释)

做个笔记,记录下KEGG的BRITE和PATHWAY

KEGG BRITE is a collection of manually created hierarchical text (htext) files capturing functional hierarchies of various biological objects, especially those represented as KEGG objects.(依据KEGG数据库,通过人工收集,对生物层面进行分级注释的数据,其实也就是一个有层级关系的文件)

BRITE table files are now used to focus more on such multi-column attributes rather than hierarchy relationships.

KEGG BRITE incorporates many different types of relationships including:

  1. Genes and Proteins
  2. Compounds and Reactions
  3. Drugs
  4. Diseases
  5. Organisms and Cells

http://www.kegg.jp/kegg/brite.html

KEGG PATHWAY is a collection of manually drawn pathway maps representing our knowledge on the molecular interaction, reaction and relation networks for(主要于展现分子间作用、反应以及关系网络,由以下七大部分组成):

  1. Metabolism
  2. Genetic Information Processing
  3. Environmental Information Processing
  4. Cellular Processes
  5. Organismal Systems
  6. Human Diseases
  7. Drug Development

http://www.kegg.jp/kegg/pathway.html

不管是KEGG BRITE还是KEGG PATHWAY都在持续更新中,如:
http://www.kegg.jp/kegg/docs/upd_kegg.html#brite
http://www.kegg.jp/kegg/docs/upd_kegg.html

以上这么多信息,一般我们都不会全部用到。一般的用法我们只想关注我们某个基因处于哪个KEGG PATHWAY,再者这个通路又是属于哪个生物学功能,over了。

比如我有一个gene对应的K号为K11251

那么我可以在http://www.kegg.jp/dbget-bin/www_bget?K11251查到:

  • 其所在通路有

    ko04217 Necroptosis
    ko05034 Alcoholism
    ko05322 Systemic lupus erythematosus

  • 每个通路所属的生物学功能(KEGG Orthology)

    04217 Cellular Processes, Cell growth and death, Necroptosis
    05322 Human Diseases,Immune diseases,Systemic lupus erythematosus
    05034 Human Diseases,Substance dependence,Alcoholism

当手头上不止一个gene的情况下时,则需要进行批量提取信息

需要准备两个文件:

  1. 如果我们只关系pathway maps的KEGG Brite信息,那么只需要进入http://www.kegg.jp/kegg-bin/get_htext?htext=ko00001,然后Download htext,获得ko00001.keg文件,里面有所有K号对应的KEGG PATHWAY信息

    • 例如A Metabolism表示下面的的pathway均属于Metabolism大类,同理B Overview表示下面的pathway属于Metabolism下的一个Overview小类,依次往下将pathway进行了分类

    • 例如C 01200 Carbon metabolism表示一个叫Carbon metabolism的通路ko01200

    • 例如D K00844 HK; hexokinase [EC:2.7.1.1]表示名为HK的K00844,其描述信息为hexokinase [EC:2.7.1.1],是一种酶。

    因此我们只要将上述文件用脚本进行解析,即可获得所有的K号所对应的kegg maps信息,当然我们也可以找特定物种的,例如http://www.kegg.jp/kegg-bin/get_htext?htext=hsa00001,下载人类hsa00001.keg文件。里面除了K号与pathway对应信息外,还有K号所对应的gene id。这点很有用!

  2. 第二个文件则是对kegg pathway的生物学功能注释信息文件(仅对通路),那么只需要进入http://www.kegg.jp/kegg-bin/get_htext?br08901.keg,然后Download htext,获得br08901.keg文件,里面有kegg pathway对应的功能注释信息

    • 例如

      A<b>Cellular Processes</b>
      B  Transport and catabolism
      C    04144  Endocytosis
      

      则表示名为Endocytosis通路ko04144的生物学功能为Cellular Processes下的Transport and catabolism功能

    因此我们只要知道通路的ko号,则可以轻易知道其所属的功能

如要批量注释,则需要进行脚本将上述两个文件整合在一起即可。当然最重要的一点是,要先知道所有gene所对应的K号,这则需要通过其他方法才能获得,比如kegg的KOALA或者KAAS等工具了。

PS. KAAS是一个web式自动注释K号工具,如果有KEGG数据库的话,可以本地化的哦,可惜现在想要获得KEGG数据需要收费才行咯