CDS预测之同源比对

在基因组研究逐渐成熟步入商业化后,转录组、蛋白组以及代谢组在科研领域的使用也有了大幅度的增加。在转录组中,一些公司的报告式样式中必有一项为CDS预测,但是各个公司使用的方法各有不同。CDS预测除了自个研究需要外,一个比较重要的用处是构建蛋白序列库,这也是转录组和蛋白组关联分析的桥梁。

CDS预测方法比较常见的有:

  1. 基于同源序列预测,nr库比对,选取阅读框
  2. 基于一定的模型预测

软件可以有:estscan、transdecoder(真核 RNA-SEQ)、Prodigal(微生物 RNA-SEQ)

以一公司生信报告为例:

文件: 无参转库组拼接获得的unigene

步骤:

  1. 将unigene使用blastx比对到NR蛋白数据库(evalue 1e-5)
  2. 将符合阈值的比对结果中最好的一条信息提取出来,需要提取的信息有:query序列比对上的起始位置,终止位置,比对上nr库的注释信息以及阅读框(可参照Blast-xml格式解析 http://www.bioinfo-scrounger.com/archives/82)
  3. 然后根据起始位置和终止位置将query核酸序列翻译为蛋白序列(按照5′-3’的顺序)
  4. 对于nr库没比对上的序列,继续对比swissprot数据库,然后再重复步骤3
  5. 对于swissprot数据库也没对上的序列,则采用软件预测其ORF,从而获得这部分unigene的氨基酸序列

以上步骤1-4均可以脚本实现。

软件的话,公司推荐的为estscan,个人觉得transdecoder也不错,找个机会把两者比较下试试。