0%

当我们需要一些NGS数据时,一般会想到去NCBI或者EBI的数据库中下载。但是当我们用wget下载时,如果网络不给力的话,那只能是龟速的下载,对于那些几十G或者上百G的数据,那就实在无能为力了。这时我们可以使用Aspera来下载NGS数据

Read more »

当你不满足只是在RStudio上只能自己查看自己写的shinyapp时,但又没服务器作为媒介来分享自己的shiny程序,那么shinyapp.io是你不二的选择。

Read more »

一般来说,我们现在平时用的最多的数据库应该算NCBI和Ensembl了,所以我们应该对其的一些名词要有一定的了解,如:

Read more »

InterPro是一个数据库,其提供蛋白序列的功能分析并归纳为一个个蛋白家族,同时还预测了presence of domains和important sites。为了将蛋白分类,InterPro使用先验模型,整合了不同的数据库形成一个整体

Read more »

ComplexHeatmap其实是一个很全面的R包,它除了可以绘制简单热图还有其他复杂实用的热图,这里主要简单的介绍一下如何用这个R包来绘制简单热图

Read more »

Usage

DT包主要用到的函数是datatable(),其参数如下:

datatable(data, options = list(), class = "display", callback = JS("return table;"), 
rownames, colnames, container, caption = NULL, filter = c("none", "bottom", 
    "top"), escape = TRUE, style = "default", width = NULL, height = NULL, 
elementId = NULL, fillContainer = getOption("DT.fillContainer", NULL), autoHideNavigation = getOption("DT.autoHideNavigation", 
    NULL), selection = c("multiple", "single", "none"), extensions = list(), 
plugins = NULL)

下面主要介绍下几个参数的用法

Read more »

首先需要说明的是,limma是一个非常全面的用于分析芯片以及RNA-Seq的差异分析,按照其文章所说:

limma is an R/Bioconductor software package that provides an integrated solution for analysing data from gene expression experiments.

在这我只是对其中的一种情况进行简单的总结,比如这个包可以处理RNA-Seq数据,我简单的以两个比较组进行分组为例,至于其他分组情况,请看limma说明文档,有非常详细的说明,非常亲民。

Read more »

DESeq2和EdgeR都可用于做基因差异表达分析,主要也是用于RNA-Seq数据,同样也可以处理类似的ChIP-Seq,shRNA以及质谱数据。

这两个都属于R包,其相同点在于都是对count data数据进行处理,都是基于负二项分布模型。因此会发现,用两者处理同一组数据,最后在相同阈值下筛选出的大部分基因都是一样的,但是有一部分不同应该是由于其估计离散度的不同方法所导致的。

Read more »

TransDecoder按照其官网的说明,主要用于识别转录本序列中的潜在的编码区域,也就是预测CDS。转录本可以由RNA-Seq数据通过Trinity组装来的,也可以由RNA-Seq比对到参考基因组上构建的转录本。

Read more »

例如,在我们对鉴定到的差异蛋白做GO功能注释后,通常会计算一个p值。当某个蛋白的p值小于0.05(5%)时,我们通常认为这个蛋白在两个样本中的表达是有差异的。但是仍旧有5%的概率,这个蛋白并不是差异蛋白。那么我们就错误地否认了原假设(在两个样本中没有差异表达),导致了假阳性的产生(犯错的概率为5%)。

Read more »

在基因组研究逐渐成熟步入商业化后,转录组、蛋白组以及代谢组在科研领域的使用也有了大幅度的增加。在转录组中,一些公司的报告式样式中必有一项为CDS预测,但是各个公司使用的方法各有不同。CDS预测除了自个研究需要外,一个比较重要的用处是构建蛋白序列库,这也是转录组和蛋白组关联分析的桥梁。

Read more »

本地BLAST比对后,如果使用outfmt 5参数的话,会产生一个xml格式的文件,里面的比对信息不像tabular(outfmt 6)那样简显,但是对比信息却很完整。简单列举一些常用的信息。

Read more »

Blast的应该算生信入门过程中使用频率最高的软件之一了,而且一些软件的原理也是基于序列比对的基础上的。NCBI提供web版序列比对,在KEGG上的KAAS也是提供比对功能然后查找KEGG id。数量不多的序列可以根据NCBI网页上即可进行比对,但是面对几千上万条序列,则需要本地BLAST进行比对。

Read more »

RNA-seq测序方法

  1. 在测mRNA过程中,首先要去除rRNA。以人为例,在抽提的总RNA中,95%的RNA是rRNA,2%的RNA是mRNA,剩下的则是lncRNA、microRNA、siRNA等。

  2. rRNA整个人类当中是非常保守的,在各个组织器官中也是非常稳定的,因此这些测序结果对我们的研究是没有用处的。mRNA则是RNA中比较重要的部分。

  3. Illumina公司的Truseq RNA建库方法是应用最广泛的一种,真核普通转录组为例:

    • 首先以mRNA的Poly(A)(高等生物特有的)这个特点,让带有Poly(T)探针的磁珠与总RNA进行杂交,使mRNA和磁珠相结合在一起。
    • 接着回收磁珠,将带有Poly(A)的mRNA从磁珠上洗脱下来。
    • 然后用镁离子溶液将洗脱下来的mRNA打成片段,被打断的mRNA片段用随机引物逆转录出第一链的cDNA,再合成出第二链,这样就有了双链cDNA。
    • 对双链cDNA末端修复,加A加接头。
    • 片段选择,PCR扩增、纯化(如果样本中存在污染物,则需要结合试剂盒进一步纯化)。
      Read more »

Github真是一样非常有用的工具
一般一些人会把解决某个问题的代码放在其Github下,可以分享自己的成果,也可以收藏别人的所展示的成果,还可以参与别人项目的讨论,对我来说,暂时还是一个仓库用,比如放置一些流程的代码。。

Read more »

写博客的目的 2017-03-24

首先我并不是正统学生信出身,因此我没有经历过生物信息学课程完整的学习过程。

读研学了3年生物,在毕业前半年突然发现自己如果继续按照去生物/药企公司-做实验-继续做实验这套路走下去的话,内心不知为何是抗拒的。比较幸运的是,那时接触到2代测序这个概念,就萌发了踏入生信这个领域的想法。

从完全不懂到略微了解生信是干什么的,大约花了半年时间。期间除了工作上的知识以及技术外,还不断的学习了生信的一些相关技能。最初我是将所有知识点记在本子上,然后发现这样效率太低了。 然后我将学习的内容和保存在电脑上,这样只要有需要就可以随时在电脑上翻到以前别人总结的或者自己总结的知识。

当有一天为了查一个问题的解法,但从百度到google查了一天无果时,真希望有个人能将这个问题放在了网上。而且一般来说,百度搜不到的问题都能在google上搜到,对于这一点,我还是蛮佩服老外的分享能力。因此我在想,我也将我自己的所整理的笔记分享到网上,让一些想获取类似问题解答方法的人能够获得启发。

因此从生信领域来说,这博客所写的内容可能并不系统,深度由于自身原因知识储备的局限性可能也是比较浅。可能还会有些随意的笔记。我只能尽可能的写一些自己的经验,或许能帮上一些像我一样刚刚进入生信的初学者。

分享经验,从我做起~~~

Read more »