SAM格式的学习

Sam格式在NGS中是一个不可或缺的格式,所以我们必须对其有一定了解。网上有很多文章对其有讲解,我当初也是看了那些文章入门的,当然最后只懂了每列是干嘛用的,但是具体每个标识代表什么含义却一知半解。虽然这不影响后续的学习以及相关的分析,但是对于这个一个这么重要的格式来说,这是不够的。

比如我们都知道SAM格式分为头部分和比对部分,那么头部分每个符号代表什么意思呢

我们知道SAM格式主要应用在测序数据mapping到参考基因组上(或者其他序列),那么知道什么是线性比对,什么是嵌合比对以及多重比对;还有片段(segment)和读段(read)的区别呢

我们也知道SAM格式的第2列是FLAG,那我们了解每个FLAG的含义吗,等等

以上我们一般只能说粗略了解,直到我看到一朋友分享的 https://github.com/samtools/hts-specsSAM格式介绍,才发现自己以前所了解的实在太浅薄了

因此不打算自己来写SAM格式的介绍,推荐大家看这个pdf

这PDF从比对的基础术语到SAM格式的每个标识的含义都做了非常详细的解释,自认为如果我自己来写的话,也一般只能说清楚其他一小部分的内容,最后还是半懂不懂。

比如这PDF先以一个小例子初步说明比对是怎么样的

然后介绍了几个关键的术语,有助于后面的理解

接着介绍头部分的的几个标签的含义以及如何使用;比对部分的每列的含义,其中个人觉得比较需要理解的是FLAG列和CIGAR列;前者比较常见,用处也比较大;后者我也是看了才明白其含义,之前也是一知半解,其简要的用字母和数字表达了比对的信息

接着推荐了SAM格式的操作

最后还介绍了下BAM格式

如果上述的pdf还无法让人明白FLAG的话(比如我自己),推荐看http://www.samformat.info/sam-format-flag,你可以选择输入任何一个FLAG值来看其对应的含义,其右边也对FLAG进行了分类,比如:

只有一端比对上的FLAG值有

73, 133, 89, 121, 165, 181, 101, 117, 153, 185, 69, 137

双端都没比对上的有FLAG值有

77, 141

双端比对在正确的insert size以及正确的方向上的FLAG值有

99, 147, 83, 163

如果还是有些不明白的话,可以看http://seqanswers.com/forums/showthread.php?p=71753,作者在2012年就很好的将SAM格式的FLAG做了通俗的解释及分类,比如:

其对paired reads分为了”All Good”和”All Bad”;并对”All Good”再次细分为:

Some values mean “all good” i.e. that both reads in the pair have aligned

65 - 0001000001 - this is first read in pair and both reads aligned the forward strand.
129 - 0010000001 - This is second read of pair and both reads aligned the forward strand.

Sometimes both reads of a pair are flipped (reverse complemented) before mapping

113 - 0001110001 - "this is the first read of a pair, both reads in pair were flipped and both mapped".
177 - 0001110001 - "this is the second read of a pair, both reads in pair were flipped and both mapped".

Other times only one of the reads in a pair is flipped though both of them map

81 - 0001010001 - "this is the first read of pair, both reads mapped, we had to flip this read, but mate is in forward orientation".
161 - 0010100001 - "this is second read, this one is forward but we flipped its mate and both reads mapped".
97 - 0001100001 - "this is first read, its mate is flipped but this is forward. Both mapped".
145 - 0010010001 - "this is second read. it is flipped but its mate is not. Both mapped".

这些可以很好的对上面的理解进行了补充说明,非常不错。

总体上,对于SAM格式的理解,在上述资料看完后绝对会有很好的提升

本文出自于http://www.bioinfo-scrounger.com转载请注明出处