CDS预测之同源比对

在基因组研究逐渐成熟步入商业化后，转录组、蛋白组以及代谢组在科研领域的使用也有了大幅度的增加。在转录组中，一些公司的报告式样式中必有一项为CDS预测，但是各个公司使用的方法各有不同。CDS预测除了自个研究需要外，一个比较重要的用处是构建蛋白序列库，这也是转录组和蛋白组关联分析的桥梁。 CDS预测方法比较常见的有：

基于同源序列预测，nr库比对，选取阅读框
基于一定的模型预测

软件可以有：estscan、transdecoder（真核 RNA-SEQ）、Prodigal（微生物 RNA-SEQ）

以一公司生信报告为例：

文件：无参转库组拼接获得的unigene

步骤：

将unigene使用blastx比对到NR蛋白数据库（evalue 1e-5）
将符合阈值的比对结果中最好的一条信息提取出来，需要提取的信息有：query序列比对上的起始位置，终止位置，比对上nr库的注释信息以及阅读框（可参照Blast-xml格式解析 http://www.bioinfo-scrounger.com/archives/82）
然后根据起始位置和终止位置将query核酸序列翻译为蛋白序列（按照5'-3'的顺序）
对于nr库没比对上的序列，继续对比swissprot数据库，然后再重复步骤3
对于swissprot数据库也没对上的序列，则采用软件预测其ORF，从而获得这部分unigene的氨基酸序列

以上步骤1-4均可以脚本实现。

软件的话，公司推荐的为estscan，个人觉得transdecoder也不错，找个机会把两者比较下试试。

本文出自于http://www.bioinfo-scrounger.com转载请注明出处