一般我们是将检测结果跟临床金标准进行比较,常见的诊断指标如灵敏度、特异度、阳性预测值和阴性预测值等。但是当在方法学比较没有临床金标准(即对照方法不是临床金标准)时,那么我们就无法估计其实际的灵敏度和特异度,此时可以考虑用阳性一致性(positive percent agreement, PPA)和阴性一致性(negative percent agreement, NPA),这种情况还是比较常见的(比如在组织诊断中)
(Weighted) Deming regression
Symbols count in article: 1.5k Reading time ≈ 1 mins.
以下内容参考EP09-A3和一些网上资料
平时研究工作中我们会用到最小二乘法的线性回归来做线性拟合;但是对于检测仪器(器械诊断领域)的方法学比较或者仪器间比较试,我们不仅要考虑Y所引入的随机误差,还需要考虑X所引入的随机误差,这时最小二乘法就不适用了,可以考虑用Deming回归
Time-dependent ROC 曲线
Symbols count in article: 5.2k Reading time ≈ 5 mins.
概念
通常我们对于biomarker的预测模型会用ROC曲线来评价其性能,但是对于一些生存资料数据的预测模型或者需要加入时间因素,则会使用时间依赖(time dependent)的ROC曲线
Pivoting data in R
R中一些包及函数,由于其实用便捷性,总会不经意间改变人们的代码习惯,比如pivot(旋转)数据
Sample size in IVD
Symbols count in article: 4k Reading time ≈ 4 mins.
适当的样本量是保证体外诊断临床试验能得到准确评价的必要条件。如果研究目的是评价某指标的诊断价值,样本量计算根据诊断指标的不同而不同。如果诊断指标是灵敏度,根据灵敏度和设定的精确度可以估算所需的"有病"例数;如果诊断指标是特异度,根据特异度和精确度估算出的是"无病"的例数;如果诊断指标是ROC曲线下面积,根据ROC曲线下面和特定的精确度可以计算出"有病"的例数
Analysis of Reference Value
Symbols count in article: 3.1k Reading time ≈ 3 mins.
以下均参考自EP28-A3C (Defining, Estimating, and Verifying Reference Intervals in the Clinical Laboratory)
以下只是笔记,可能不会详细描述细节
Reference interval一般是一个范围值,假如我们想知道95%的区间,则相当于估计2.5%(lower)和97.5%(upper)分位数。在医学上,一般取upper作为主要的reference limit
Fitting a Line to Scatter Plots(Regression Analysis)
Symbols count in article: 3.6k Reading time ≈ 3 mins.
Fitting a Line to Scatter Plots
以下均参考自EP09-A3
临床实验室比对试验研究时,首先进行偏差图分析,如果不理想,再进行线性拟合回归分析。厂家在建立和确定对比声明时,必须进行回归分析
在做回归分析前需要先确定基本假设,这个假设是基于偏差图的结论;因此在确定选用何用回归方法前,需要先确定差值的分布情况
R语言-sva包处理批次效应
如果想合并多个GEO数据集或者TCGA数据集,批次效应是无法绕过的问题(尤其在寻找差异基因的时候)
在针对NGS数据,或者high-dimensional数据(gene expression/RNA sequencing/methylation/brain imaging data)而言,sva
包是一个比较好的选择;sva
包有三种处理artifacts的方法:
多项式回归(Polynomial regression)及线性检验
在临床实验中定量测定线性(范围)评价一般会用到EP-6A方法,其中有一步骤是用多项式回归分析及线性检验
所谓的线性检验,是指对每个非线性系数(多项式回归)作T检验,判断回归系数(b2,b3..bn)与零是否有显著性差异,其中b0与b1不反映非线性,故不需对其进行检验
Github多人协作-代码提交与冲突解决
之前很少参与多人协作的开发,最多给一些开源项目提交一些bug或者代码,因此对于github的多人协作的操作处于只知其概念而不知道其如何实现。。。
合并RTF文件
本来想先一篇SAS-从入门到放弃文章,但是想想我才看了2-3天的SAS,怕被打脸。。。但是说真的:
- SAS真不能算一门编程语言(语法相对比较简单)
- 应用范围真不广,除了银行/药企还在招SAS程序员,其他应该比较少见了吧,网上资料也比较少
- 对于数据分析来说有过于繁琐(写一个小功能得写好多代码,这点真不能忍。。因为我觉得数据分析在保证准确率的前提下,更加需要考虑的是效率的问题,因为数据是有时效性的。。),更加不用说建模/探索性分析(EDA)/机器学习(ML)等等;虽然SAS有专门针对这些分析的模块,但是收费(你懂的。。。)
Using huxtables in rmarkdown to export RTF
最近有个问题,如何用R来生成RTF报告,报告中包括一些表格和图表
这个需求在一些药企通常会用SAS来生成,但是我对于SAS不太熟练(虽然也会用一点SAS来生成一些常规表格);并且觉得SAS过于繁琐,可拓展性不够,因此想找寻一种可用R来替代的方法
SIR models in R
前段时间逛Kaggle的时候,发现有个对于Covid-19的预测比赛(COVID19 Global Forecasting (Week 4)),其给出的数据有以下几列:
- Province_State,省
- Country_Region,国家
- Date,日期
- ConfirmedCases,确诊人数
- Fatalities,死亡人数
识别离群点-ESD(Generalized ESD)
Symbols count in article: 2.8k Reading time ≈ 3 mins.
Generalized ESD Test (ESD)是Rosner教授基于Grubb's Test(或extreme studentized deviate (ESD) test)改进的识别离散值的方法
因为ESD的备择假设是数据集中有一个异常值,而现实情况下数据集中异常值不止一个;因此Rosner提出了GESD(泛化版ESD)
Measures of risk
Symbols count in article: 2.7k Reading time ≈ 2 mins.
整理下几个概念:
- Risk/Absolute Risk (AR)
- Relative risk (RR)
- Absolute Risk Reduction (ARR) 或 Absolute Risk Difference (ARD)
- Relative Risk Reduction (RRR) 或 Relative Risk Difference (RRD)
- Number Needed to Treat (NNT)
- Odds Ratio (OR)
诊断试验评价指标
Symbols count in article: 4.5k Reading time ≈ 4 mins.
整理下一些评价指标,一般数据是从下面这种frequency表开始统计的
R-交互式表格展示Covid-19数据
最近在陆陆续续收集一些可视化Covid-19数据的一些方法,主要想用R来实现;一方面对R比较熟悉,另一方面是作为后续整合到Shiny的前期准备工作,最终实现用Shiny平台来全面展示全球Covid-19的数据,类似做一个这样的网页:opsdashboard
Proportions Test in R
我在maftools
包的PlotOncogenicPathways
函数分析了TCGA已知的10个致癌信号通路,统计了maf文件中在各个通路下的基因数目以及患者人数等信息
我发现数据集A在TGF-Beta通路中有5个基因发生突变,数据集B则有1个基因发生突变;我想知道这两个数据集(以某个指标区分开的)在TGF-Beta通路的基因突变比例是否有显著的统计学意义
Flourish可视化Covid-19
偶尔在查阅资料的时候发现一种动态排名条形图(bar chart race),最初应该是在别人展示各国GDP的时候见过,我查了下,其是用Flourish完成的,我正好用其来可视化Covid-19全球疫情数据
COVID-19可视化-Plotly
最近工作上接触到一些Covid-19新冠病毒一些信息,平时也常常看到国内外各个地区确诊患者不断的增加,但是还有一些我想了解的数据并没有在一些主流媒体上呈现出来;因此想通过自己的方式来可视化这些数据,依次解决以下问题:
- 下载整理每天确诊/死亡/治愈的患者数据
- 通过地图可视化方式来呈现各国各地区的最新患者数目
- 使用常规图标来呈现各国患者的变化趋势