Differential expression in proteomics

在之前一篇博文Bioinformatics for Proteomics Data
中提到,蛋白组学生物信息分析一般要经过图谱识别和定量两个步骤,其中定量这步对于后续的差异表达蛋白的筛选又至关重要,尤其现在蛋白质谱技术在一些生物标记物发掘中的应用。一般现在蛋白组学定量技术可以大致分为标记定量技术(iTRAQ)和非标记定量技术(Label-free),两者的显著差别在于是否用同位素标签进行标记,后者相比前者,因为不需要进行标记,所以费用相对来说较低,而且所需的样本总量少。Label-free是通过比较不同样本中相对应的肽段强度,进而对蛋白进行相对定量

Label-free定量技术又可以分为基于谱图数(Spectra Count)和基于肽段母离子强度(signal intensity)两种方法,后者更为准确?使用更为广泛?因此我准备基于这两种方法,对后续筛选差异蛋白的统计学方法的选择进行下总结,主要通过几篇已发表的文献

Spectra Count

标题:Comparative analysis of statistical methods used for detecting differential expression in label-free mass spectrometry proteomics

发表:2015年,JOURNAL OF PROTEOMICS期刊

主要研究思路:基于模拟的蛋白组学数据(Spectral count data),通过七种统计方法来筛选差异蛋白,以FDR 0.01/0.05为阈值,评估最终筛选出来的差异蛋白的Sensitivity,Specificity,Precision以及AUC等指标(每个模拟数据集的差异蛋白是已知的),希望能找出一个最佳的统计学方法来用于筛选下游的差异表达蛋白。

  • 涉及的统计学方法如下

    1. Student’s t-test:非配对,非等方差,双尾的T检验
    2. Significance analysis of microarrays (SAM)
    3. Spectral index (SpI)
    4. Normalized spectral abundance factor (NSAF)
    5. Normalized spectral abundance factor-power law global error model (NSAF-PLGEM)
    6. QSpec
    7. DESeq
  • 按照统计学上归类

    1. T检验和SAM属于基于(对数)正态分布假设,经典统计学派
    2. DESeq属于在负二项式分布模型上,基于非(对数)正态分布假设,经典统计学派
    3. QSpec属于在泊松模型基础上的,基于分层贝叶斯估计,贝叶斯学派
    4. NSAF,NSAF-PLGEM等先用标准化的谱丰度因子对蛋白表达谱进行了归一化处理,然后再进行T-检验
  • 测试数据集

    数据集包括模拟的数据集(符合泊松分布)和CPTAC data,后者是由Clinical Proteomic Tumor Analysis Consortium提供的数据

结论:在作者的设定的考量因素(Effect sizes和Proportion sizes)下,没有一个统计学方法有非常突出的表现。

在Effect sizes(在原本数据的基础上,分别增加20%-200%的值)方面,综合考虑灵敏度和准确性,DESeq, QSpec and the t-test表现的较好;在Proportion sizes(增加每个数据集的差异蛋白数目,分别增加1%-50%)方面,QSpec and DESeq有着较高的准确性和稳定的灵敏度。

针对模拟数据,作者发现其结果和CPTAC data一致性较好,说明这些符合泊松分析的模拟数据能很好的代表label-free的定量结果(这里是针对Spectral count data)

作者认为最常用的T检验没有QSpec和DESeq表现的好,可能是由于模拟数据并不符合正态分布,NSAF也是一样;而SAM表现的较差,作者认为是由于模拟样本数据不够所致

综合考虑,作者认为QSpec and DESeq在用于筛选差异蛋白中,有着较好的真阳性并控制了假阳性,而其他方法的假阳性过高,因此建议未来差异蛋白分析选用这两种统计学方法

标题:A multi-model statistical approach for proteomic spectral count quantitation

发表:2016年,JOURNAL OF PROTEOMICS期刊

这篇文章作者主要介绍了其开发的一款可以用于蛋白组spectral count定量差异分析的方法-MultiSpec。这方法主要整合了edgeR,DESeq和baySeq三种差异分析方法,其基于的理由是:spectral count分布类似于RNA-seq的,因此可以利用RNA-seq这几种分析方法来应用到蛋白组分析中。整篇文章主要将了如何整合这三种从RNA-seq嫁接过来的差异分析方法来用于蛋白组的差异分析,比如:针对这三个方法得出的FDR值,MultiSpec则是采用其三种值的中位数作为最终的FDR值

signal intensity

对于一些数据并不是以spectra Count定量的,而是以signal intensity(或者说峰面积作为强度值)来定量,那么可能上述的类RNA-seq的统计学方法就不太适用了,下面这篇文章作者探讨了对于signal intensity data,该选择怎样合适的分析方法来筛选差异表达的肽段/蛋白

标题:Identification of differentially expressed peptides in high-throughput proteomics data

发表:2017年,Briefings in Bioinformatics期刊

  • 涉及的统计学方法如下:

    1. Two-sample t-test
    2. Empirical Bayes test (limma)
    3. MSstats
    4. Generalized linear model with a gamma distribution(GLM-Gamma)

    Two-sample t-test属于标准的T-检验,并假定了这测试数据是符合正态分布并且方差齐性;Empirical Bayes test (limma)则也类似于T检验,其最早是应用于芯片数据,后来也逐渐支持RNA-seq数据以及蛋白组数据,其对普通的T-检验做了改进,能更好的适应一些有偏差的数据;MSstats则是专门用于处理LC-MS/MS data,其能根据数据情况自动选择合适的模型;GLM-Gamma这个广义线性模型适用于当数据不太符合正态分布时,也适用于有偏差的肽段强度分布

  • 测试数据集,主要由两部分组成:

    1. Ab initio proteomics simulation

      从头模拟了一批符合正态分布的数据,每一批模拟数据有3000个肽段,其中300个是差异表达的,log2foldchange是1-4之间,并按照Label-free的特性,模拟了空值的存在

    2. Resampling-based simulation

      由于上述模拟数据没有考虑到样本来源的一些特性,因此作者又以重取样的方式,将prostaglandin E2 (PGE2) data用MaxQuant查库(选择Homo sapiens的swissprot库)并做标准化处理,将AROM data用Mascot查库(mouse swissprot库)并做标准化处理。这种resampling-based的数据保留了真实数据的一些特性。由于作者只从上述data中取样了一个处理组,因而需要再根据foldchange模拟测试数据,并且考虑到样本重复数的问题,还额外模拟了2-N个重复的数据(我似乎没讲清楚。。。)

  • 空值的处理方法如下:

    1. halfLocal
    2. Random tail imputation
    3. Multiple imputation

结论:当重复数低于3个时,几个统计学方法的灵敏度都处于很低的水平,因此在生物学重复方面,不管哪个统计学方法,至少3个生物学是必须的

limma方法在三个数据集中都表现最佳的灵敏度,有其当重复数较低时尤为明显;但随着重复数逐渐升高,limma,t-tests and gamma的差别也随之缩小(根据图可看出,这得在重复数达到10以上才行。。。)

对于重复数而言,当重复数在2时,这些统计学方法所获得真实的FDR显得异常的高(对于模拟数据而言,那些确定的差异蛋白的FDR理应该都处于0.05以下);但当重复数达到3及以上后,这些FDR则逐渐倾向于保持在0.05以下,其中MSstats在ab initio data 数据集中表现较差,结合上述的灵敏度,limma还是最佳的差异分析方法

对于limma表现,作者给出的理解是:在有许多缺失值存在的label-free数据中,limma相比其他统计学方法只需要较少的自由度就可以对蛋白表达量进行检验,这也是由于其可以通过error sharing来增加自由度(相比其他方法而言)

不仅在两两组进行差异分析外,在多组比较时,limma也表现最佳,随着重复数增加,这些方法的灵敏度也随之增加

如果在差异分析之前,将缺失值进行补充,作者发现填充缺失值相比未填充时,灵敏度都有略微的提升,但也增加了假阳性,所以补空并不是后续差异分析所必须的(至少对于这篇文章的测试数据而言)

对于缺失值,作者也做了点解释,按照其总结label-free数据的缺失值的由来可以分为两部分:第一是一部分肽段并没有被选中并定量,这导致这肽段的丢失;第二是一部分肽段的表达量未达到仪器的检测线。尽管后者出现的概率比前者要高,在分析时无法确定某个缺失值到底是哪个原因导致的,这也导致了无法只选择一种补空方法来预处理

总之,作者在填充空值/不填充空值以及各个重复数等条件下,limma均表现出最佳的结果。但作者最后也说了,数据集之间的差异也会导致结果的差异,因此不能排除数据集的偶然性结果

Summary

这里我只是调研了几篇文献,并不代表最终的结果。从上述的结果来看,对于label-free数据,如果是spectra Count定量方法,由于其分布属于泊松分布,则在后续差异分析时采用DESeq or QSpec方法来筛选差异蛋白;如果是signal intensity定量方法(个人觉得可能更加常见点),其强度值取log2后,符合正态分布(但可能会有点偏差),可以用limma来代替常规的Two-sample t-test。

本文出自于http://www.bioinfo-scrounger.com转载请注明出处