0%

适当的样本量是保证体外诊断临床试验能得到准确评价的必要条件。如果研究目的是评价某指标的诊断价值,样本量计算根据诊断指标的不同而不同。如果诊断指标是灵敏度,根据灵敏度和设定的精确度可以估算所需的"有病"例数;如果诊断指标是特异度,根据特异度和精确度估算出的是"无病"的例数;如果诊断指标是ROC曲线下面积,根据ROC曲线下面和特定的精确度可以计算出"有病"的例数

Read more »

以下均参考自EP28-A3C (Defining, Estimating, and Verifying Reference Intervals in the Clinical Laboratory)

以下只是笔记,可能不会详细描述细节


Reference interval一般是一个范围值,假如我们想知道95%的区间,则相当于估计2.5%(lower)和97.5%(upper)分位数。在医学上,一般取upper作为主要的reference limit

Read more »

Fitting a Line to Scatter Plots

以下均参考自EP09-A3

临床实验室比对试验研究时,首先进行偏差图分析,如果不理想,再进行线性拟合回归分析。厂家在建立和确定对比声明时,必须进行回归分析

在做回归分析前需要先确定基本假设,这个假设是基于偏差图的结论;因此在确定选用何用回归方法前,需要先确定差值的分布情况

Read more »

如果想合并多个GEO数据集或者TCGA数据集,批次效应是无法绕过的问题(尤其在寻找差异基因的时候)

在针对NGS数据,或者high-dimensional数据(gene expression/RNA sequencing/methylation/brain imaging data)而言,sva包是一个比较好的选择;sva包有三种处理artifacts的方法:

Read more »

在临床实验中定量测定线性(范围)评价一般会用到EP-6A方法,其中有一步骤是用多项式回归分析及线性检验

所谓的线性检验,是指对每个非线性系数(多项式回归)作T检验,判断回归系数(b2,b3..bn)与零是否有显著性差异,其中b0与b1不反映非线性,故不需对其进行检验

Read more »

本来想先一篇SAS-从入门到放弃文章,但是想想我才看了2-3天的SAS,怕被打脸。。。但是说真的:

  • SAS真不能算一门编程语言(语法相对比较简单)
  • 应用范围真不广,除了银行/药企还在招SAS程序员,其他应该比较少见了吧,网上资料也比较少
  • 对于数据分析来说有过于繁琐(写一个小功能得写好多代码,这点真不能忍。。因为我觉得数据分析在保证准确率的前提下,更加需要考虑的是效率的问题,因为数据是有时效性的。。),更加不用说建模/探索性分析(EDA)/机器学习(ML)等等;虽然SAS有专门针对这些分析的模块,但是收费(你懂的。。。)
Read more »

最近有个问题,如何用R来生成RTF报告,报告中包括一些表格和图表

这个需求在一些药企通常会用SAS来生成,但是我对于SAS不太熟练(虽然也会用一点SAS来生成一些常规表格);并且觉得SAS过于繁琐,可拓展性不够,因此想找寻一种可用R来替代的方法

Read more »

Generalized ESD Test (ESD)是Rosner教授基于Grubb's Test(或extreme studentized deviate (ESD) test)改进的识别离散值的方法

因为ESD的备择假设是数据集中有一个异常值,而现实情况下数据集中异常值不止一个;因此Rosner提出了GESD(泛化版ESD)

Read more »

整理下几个概念:

  • Risk/Absolute Risk (AR)
  • Relative risk (RR)
  • Absolute Risk Reduction (ARR) 或 Absolute Risk Difference (ARD)
  • Relative Risk Reduction (RRR) 或 Relative Risk Difference (RRD)
  • Number Needed to Treat (NNT)
  • Odds Ratio (OR)
Read more »

最近在陆陆续续收集一些可视化Covid-19数据的一些方法,主要想用R来实现;一方面对R比较熟悉,另一方面是作为后续整合到Shiny的前期准备工作,最终实现用Shiny平台来全面展示全球Covid-19的数据,类似做一个这样的网页:opsdashboard

Read more »

我在maftools包的PlotOncogenicPathways函数分析了TCGA已知的10个致癌信号通路,统计了maf文件中在各个通路下的基因数目以及患者人数等信息

我发现数据集A在TGF-Beta通路中有5个基因发生突变,数据集B则有1个基因发生突变;我想知道这两个数据集(以某个指标区分开的)在TGF-Beta通路的基因突变比例是否有显著的统计学意义

Read more »

偶尔在查阅资料的时候发现一种动态排名条形图(bar chart race),最初应该是在别人展示各国GDP的时候见过,我查了下,其是用Flourish完成的,我正好用其来可视化Covid-19全球疫情数据

Read more »

最近工作上接触到一些Covid-19新冠病毒一些信息,平时也常常看到国内外各个地区确诊患者不断的增加,但是还有一些我想了解的数据并没有在一些主流媒体上呈现出来;因此想通过自己的方式来可视化这些数据,依次解决以下问题:

  • 下载整理每天确诊/死亡/治愈的患者数据
  • 通过地图可视化方式来呈现各国各地区的最新患者数目
  • 使用常规图标来呈现各国患者的变化趋势
    Read more »

Co-mutation and exclusion analysis in R这篇文章中提到maftools包的somaticInteractions()函数可以做Co-mutation/exclusion分析及可视化

由于结果图中展示的颜色有点问题,因此我去查看了下其源码,发现其是参考文献:Combining gene mutation with gene expression data improves outcome prediction in myelodysplastic syndromes

Read more »

Confusion Matrix,及混淆矩阵,用于展示模型预测精度的一种较为常见的方法;其属于分类模型评价方法中的一种,其他还有收益图(Gain),提升图(Lift),ROC等

对于最常见的二元分类来说,它的混淆矩阵是2x2的,以wiki图为例:

Read more »