甲基化芯片入门学习-基础知识(一)

基本概念梳理

  1. 什么是DNA甲基化

    DNA甲基化是表观遗传学的中最为常见的一种修饰,其主要形式包括:5-甲基胞嘧啶 (5-mC)、少量的N6-甲基腺嘌呤 (N6-mA) 以及7-甲基鸟嘌呤(7-mG)。

    目前常说的DNA甲基化一般指CpG岛甲基化,即在DNA甲基化转移酶(DNMTs)的作用下使CpG二核苷酸5’端的胞嘧啶转变为5’甲基胞嘧啶。

    哺乳动物体细胞的DNA胞嘧啶甲基化主要发生在CpG岛;CpG岛(CpG islands)指CpG序列密度相比整个基因组来说是特别高的富集区域,一般位于启动子附近,5’端非翻译区或第一个外显子;一般CpG岛序列长度在500bp以上,GC含量高于55%以及CpG出现比率大于0.65,40%的启动子区域含有CpG岛。

    CpG shores and shelves分别是指距CpG岛边缘2kb与4kb的区域,哺乳动物中的非CpG甲基化主要是发生在胚胎发育阶段和脑组织中

    基因组中60%-90%的CpG都被甲基化,未甲基化的CpG形成CpG岛,位于结构基因启动子的核心序列和转录起始点

  2. DNA甲基化的作用

    一般来说,DNA甲基化主要作用在于调控基因的表达,即基因启动子区域CpG岛的甲基化水平越高,其对应基因的表达水平就相对越低;DNA甲基化受到甲基化酶(如DNMT3A)和去甲基化酶(TET2)的调控。

    在转录水平的抑制机制一般存在以下几点:

    1. DNA胞嘧啶甲基化后改变了DNA的空间构想,导致转录因子无法正常地与DNA结合,从而导致转录水平下降
    2. 甲基化DNA与MeCP家族结合,改变了染色质的结构,抑制基因转录的发生
    3. CpG岛的异常甲基化导致一些组蛋白发生去乙酰化,从而改变了染色质的结构(使空间高度螺旋化),失去转录活性

    除了对转录水平抑制外,在一些肿瘤研究中发现DNA甲基化会导致一些癌基因表达量的上升;在正常人基因组中,CpG岛中的CpG通常是非甲基化的,而CpG岛外的CpG则一般是被甲基化的;当肿瘤发生后,CpG岛局部发生高甲基化以及基因组则呈现DNA低甲基化;前者会导致抑癌基因表达量下降,从而使得癌细胞形成以及存活效率上升,后者则会导致癌基因甲基化水平降低而活化,以及一些转座子的活化进而导致染色体稳定性下降,最终导致恶性肿瘤的发生。

    除了CpG岛的甲基化水平的变化会导致肿瘤的发生外,CpG shores and shelves的异常甲基化也会导致其基因转录水平的抑制

  3. DNA甲基化检测方法

    DNA甲基化测序技术按照不同原理及方法,有很多选择,具体可查看:DNA甲基化研究方法(测序法)

    但是平时听得最多的还属DNA甲基化芯片技术(illumina的450k/850K芯片)和全基因组甲基化测序(WGBS),可见下图

    Cytosine Modifications

  4. 甲基化芯片原理

    这次学习的是甲基化芯片,因此主要了解的是DNA甲基化芯片的检测原理,主要参考Illumina HumanMethylation450 BeadChip (甲基化450k芯片) 预处理初探

    甲基化芯片的原理是基于亚硫酸盐处理后的DNA序列杂交的信号探测,亚硫酸盐处理是将非甲基化的胞嘧啶变成尿嘧啶,而甲基化的胞嘧啶则保持不变,然后再将尿嘧啶转化为胸腺嘧啶,最后进行芯片杂交;Illumina的450K芯片采用两种assay:Infinium I和Infinium Ⅱ,前者有两种bead(微珠),分别是甲基化M和非甲基化U,后者则是一种bead(不区分甲基化和非甲基化)。

    具体理解可查看文档Infinium Methylation Coverage Technical Note,以及下面这张图,注:左边一列是非甲基化的GpC locus,右边是甲基化的GpC locus,上下分别是Infinium I 和Infinium Ⅱ :

    1. 如图A:Infinium I,在未甲基化的GpC locus,U型bead尾部为A,与未甲基化CpG位点相匹配,能够成功进行单核苷酸延伸并被检测到(U型磁珠发光),而M型bead尾部为G,与未甲基化位点不能匹配,没有信号产生;在甲基化的GpC locus,M型bead能与甲基化CpG位点相匹配,单核苷酸延伸并产生信号(M型磁珠发光),而U型bead则不匹配,不产生信号
    2. 如图B:Infinium Ⅱ探针则不区分M和U,探针尾部为C,配对后只加入单个碱基(ddNTP-BioT, ddNTP-DNP),然后根据荧光颜色判断加入碱基的类型,进而确定该位点是否被甲基化
    3. 探针长度为50bp,基于假设在50bp内的CpG位点具有相同的甲基化状态,具有区域相关性
    4. 通过计算甲基化和非甲基化位点的荧光信号比例,可确定某位点的甲基化水平(Beta值=M/(M+UM))

    Methylation  2 Infinium

    现在最新的应该是850K甲基化芯片了,其覆盖的甲基化位点更多,可看illumina官网对其的介绍https://www.illumina.com.cn/techniques/microarrays/methylation-arrays.html,主要优势在于:

    1. 全基因组范围内,可检测>850000个甲基化位点,包括:CpG 岛、非CpG和差异甲基化位点、FANTOM5增强子、ENCODE染色质、ENCODE转录因子结合位点、miRNA启动子区域
    2. 98%的技术重复率以及与450K芯片98%的重复率
    3. 保留了>90%的450K甲基化位点

获取文章测序数据

按照生信技能树论坛教程所提供的教程450K甲基化芯片数据处理传送门,以这篇文章The relationship between DNA methylation, genetic and expression inter-individual variation in untransformed human fibroblasts为例进行学习

本文研究的背景:DNA甲基化在调控基因表达方面起着重要的作用,当DNA甲基化出现的转录起始位置附近时与基因表达的抑制有着关联,而个体间甲基化水平的变异以及环境或者遗传因素对基因表达的关联研究的较少。

作者对来自于62个个体中的fibroblast样本进行了序列突变、基因表达以及DNA甲基化整合研究,然后分别对三者的联系做了一定的解释,最后的结论就是三者有较多的联系并且with considerable involvement of chromatin features and some discernible involvement of sequence variation

从文章的Materials and methods可知,作者使用是Illumina的Infinium HumanMethylation450
BeadChips,我先从GSE上下载芯片的原始数据,https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE52025,下载GSE52025_RAW.tar文件

由于作者研究内容比较复杂,我就只取文章450 K methylation array那部分内容来尝试,比如过滤标准

We excluded probes with ≥90% sequence similarity to multiple genomic locations, probes with sequence variants in the probebinding region and probes located on sex chromosomes, leaving 392,904 probes for further analyses.

作者是根据HapMap数据库来去除变异位点的,这里我还是用比较简单的SNPdb数据库

For removal of variant-containing probes HapMap (release 28, 30 CEU trios) annotated variants were imputed with 1000 Genomes project variants (pilot), and probes mapping more than one variant were removed.

参考资料:

http://www.biotrainee.com/thread-438-1-1.html

本文出自于http://www.bioinfo-scrounger.com转载请注明出处