KeepNotes blog

0%

Agreement statistics in diagnostic accuracy

Posted on 2020-11-03 Edited on 2020-12-20 In Biometrics , BiomedicalStats
Symbols count in article: 1.5k Reading time ≈ 1 mins.

一般我们是将检测结果跟临床金标准进行比较，常见的诊断指标如灵敏度、特异度、阳性预测值和阴性预测值等。但是当在方法学比较没有临床金标准（即对照方法不是临床金标准）时，那么我们就无法估计其实际的灵敏度和特异度，此时可以考虑用阳性一致性（positive percent agreement, PPA）和阴性一致性（negative percent agreement, NPA），这种情况还是比较常见的（比如在组织诊断中）

(Weighted) Deming regression

Posted on 2020-10-31 Edited on 2020-12-20 In Biometrics , BiomedicalStats
Symbols count in article: 1.5k Reading time ≈ 1 mins.

以下内容参考EP09-A3和一些网上资料

平时研究工作中我们会用到最小二乘法的线性回归来做线性拟合；但是对于检测仪器（器械诊断领域）的方法学比较或者仪器间比较试，我们不仅要考虑Y所引入的随机误差，还需要考虑X所引入的随机误差，这时最小二乘法就不适用了，可以考虑用Deming回归

Time-dependent ROC 曲线

Posted on 2020-10-09 Edited on 2020-12-20 In Biometrics , BiomedicalStats
Symbols count in article: 5.2k Reading time ≈ 5 mins.

概念

通常我们对于biomarker的预测模型会用ROC曲线来评价其性能，但是对于一些生存资料数据的预测模型或者需要加入时间因素，则会使用时间依赖（time dependent）的ROC曲线

Pivoting data in R

Posted on 2020-10-08 Edited on 2021-05-14 In Programming-Notes , R
Symbols count in article: 2.6k Reading time ≈ 2 mins.

R中一些包及函数，由于其实用便捷性，总会不经意间改变人们的代码习惯，比如pivot（旋转）数据

Sample size in IVD

Posted on 2020-09-06 Edited on 2023-07-07 In Biometrics , BiomedicalStats
Symbols count in article: 4k Reading time ≈ 4 mins.

适当的样本量是保证体外诊断临床试验能得到准确评价的必要条件。如果研究目的是评价某指标的诊断价值，样本量计算根据诊断指标的不同而不同。如果诊断指标是灵敏度，根据灵敏度和设定的精确度可以估算所需的"有病"例数；如果诊断指标是特异度，根据特异度和精确度估算出的是"无病"的例数；如果诊断指标是ROC曲线下面积，根据ROC曲线下面和特定的精确度可以计算出"有病"的例数

Analysis of Reference Value

Posted on 2020-08-27 Edited on 2020-12-20 In Biometrics , BiomedicalStats
Symbols count in article: 3.1k Reading time ≈ 3 mins.

以下均参考自EP28-A3C (Defining, Estimating, and Verifying Reference Intervals in the Clinical Laboratory)

以下只是笔记，可能不会详细描述细节

Reference interval一般是一个范围值，假如我们想知道95%的区间，则相当于估计2.5%(lower)和97.5%(upper)分位数。在医学上，一般取upper作为主要的reference limit

Fitting a Line to Scatter Plots(Regression Analysis)

Posted on 2020-08-27 Edited on 2020-12-20 In Biometrics , BiomedicalStats
Symbols count in article: 3.6k Reading time ≈ 3 mins.

Fitting a Line to Scatter Plots

以下均参考自EP09-A3

临床实验室比对试验研究时，首先进行偏差图分析，如果不理想，再进行线性拟合回归分析。厂家在建立和确定对比声明时，必须进行回归分析

在做回归分析前需要先确定基本假设，这个假设是基于偏差图的结论；因此在确定选用何用回归方法前，需要先确定差值的分布情况

R语言-sva包处理批次效应

Posted on 2020-07-05 In Bioinformatics-Notes , TCGA
Symbols count in article: 1.9k Reading time ≈ 2 mins.

如果想合并多个GEO数据集或者TCGA数据集，批次效应是无法绕过的问题（尤其在寻找差异基因的时候）

在针对NGS数据，或者high-dimensional数据（gene expression/RNA sequencing/methylation/brain imaging data）而言，sva包是一个比较好的选择；sva包有三种处理artifacts的方法：

多项式回归（Polynomial regression）及线性检验

Posted on 2020-07-04 Edited on 2020-12-20 In Statistics
Symbols count in article: 3.1k Reading time ≈ 3 mins.

在临床实验中定量测定线性（范围）评价一般会用到EP-6A方法，其中有一步骤是用多项式回归分析及线性检验

所谓的线性检验，是指对每个非线性系数（多项式回归）作T检验，判断回归系数（b2,b3..bn）与零是否有显著性差异，其中b0与b1不反映非线性，故不需对其进行检验

Github多人协作-代码提交与冲突解决

Posted on 2020-06-25 Edited on 2021-08-31 In Learning-Notes , Essay
Symbols count in article: 593 Reading time ≈ 1 mins.

之前很少参与多人协作的开发，最多给一些开源项目提交一些bug或者代码，因此对于github的多人协作的操作处于只知其概念而不知道其如何实现。。。

合并RTF文件

Posted on 2020-06-25 Edited on 2020-06-28 In Learning-Notes , Essay
Symbols count in article: 3.1k Reading time ≈ 3 mins.

本来想先一篇SAS-从入门到放弃文章，但是想想我才看了2-3天的SAS，怕被打脸。。。但是说真的：

SAS真不能算一门编程语言（语法相对比较简单）
应用范围真不广，除了银行/药企还在招SAS程序员，其他应该比较少见了吧，网上资料也比较少
对于数据分析来说有过于繁琐（写一个小功能得写好多代码，这点真不能忍。。因为我觉得数据分析在保证准确率的前提下，更加需要考虑的是效率的问题，因为数据是有时效性的。。），更加不用说建模/探索性分析(EDA)/机器学习(ML)等等；虽然SAS有专门针对这些分析的模块，但是收费（你懂的。。。）

Using huxtables in rmarkdown to export RTF

Posted on 2020-06-22 In Programming-Notes , R
Symbols count in article: 4.9k Reading time ≈ 4 mins.

最近有个问题，如何用R来生成RTF报告，报告中包括一些表格和图表

这个需求在一些药企通常会用SAS来生成，但是我对于SAS不太熟练（虽然也会用一点SAS来生成一些常规表格）；并且觉得SAS过于繁琐，可拓展性不够，因此想找寻一种可用R来替代的方法

SIR models in R

Posted on 2020-06-21 Edited on 2020-12-20 In Statistics
Symbols count in article: 8.3k Reading time ≈ 8 mins.

前段时间逛Kaggle的时候，发现有个对于Covid-19的预测比赛（COVID19 Global Forecasting (Week 4)），其给出的数据有以下几列：

Province_State，省
Country_Region，国家
Date，日期
ConfirmedCases，确诊人数
Fatalities，死亡人数
Read more »

识别离群点-ESD(Generalized ESD)

Posted on 2020-06-19 Edited on 2020-12-20 In Biometrics , BiomedicalStats
Symbols count in article: 2.8k Reading time ≈ 3 mins.

Generalized ESD Test (ESD)是Rosner教授基于Grubb's Test(或extreme studentized deviate (ESD) test)改进的识别离散值的方法

因为ESD的备择假设是数据集中有一个异常值，而现实情况下数据集中异常值不止一个；因此Rosner提出了GESD（泛化版ESD）

Measures of risk

Posted on 2020-06-14 Edited on 2020-12-20 In Biometrics , BiomedicalStats
Symbols count in article: 2.7k Reading time ≈ 2 mins.

整理下几个概念：

Risk/Absolute Risk (AR)
Relative risk (RR)
Absolute Risk Reduction (ARR) 或 Absolute Risk Difference (ARD)
Relative Risk Reduction (RRR) 或 Relative Risk Difference (RRD)
Number Needed to Treat (NNT)
Odds Ratio (OR)

诊断试验评价指标

Posted on 2020-05-26 Edited on 2020-12-20 In Biometrics , BiomedicalStats
Symbols count in article: 4.5k Reading time ≈ 4 mins.

整理下一些评价指标，一般数据是从下面这种frequency表开始统计的

R-交互式表格展示Covid-19数据

Posted on 2020-05-24 In Learning-Notes , Essay
Symbols count in article: 6.5k Reading time ≈ 6 mins.

最近在陆陆续续收集一些可视化Covid-19数据的一些方法，主要想用R来实现；一方面对R比较熟悉，另一方面是作为后续整合到Shiny的前期准备工作，最终实现用Shiny平台来全面展示全球Covid-19的数据，类似做一个这样的网页：opsdashboard

Proportions Test in R

Posted on 2020-05-19 Edited on 2020-05-24 In Statistics
Symbols count in article: 2.9k Reading time ≈ 3 mins.

我在maftools包的PlotOncogenicPathways函数分析了TCGA已知的10个致癌信号通路，统计了maf文件中在各个通路下的基因数目以及患者人数等信息

我发现数据集A在TGF-Beta通路中有5个基因发生突变，数据集B则有1个基因发生突变；我想知道这两个数据集（以某个指标区分开的）在TGF-Beta通路的基因突变比例是否有显著的统计学意义

Flourish可视化Covid-19

Posted on 2020-05-18 Edited on 2020-05-24 In Learning-Notes , Essay
Symbols count in article: 2.6k Reading time ≈ 2 mins.

偶尔在查阅资料的时候发现一种动态排名条形图（bar chart race），最初应该是在别人展示各国GDP的时候见过，我查了下，其是用Flourish完成的，我正好用其来可视化Covid-19全球疫情数据

COVID-19可视化-Plotly

Posted on 2020-05-13 In Learning-Notes , Essay
Symbols count in article: 11k Reading time ≈ 10 mins.

最近工作上接触到一些Covid-19新冠病毒一些信息，平时也常常看到国内外各个地区确诊患者不断的增加，但是还有一些我想了解的数据并没有在一些主流媒体上呈现出来；因此想通过自己的方式来可视化这些数据，依次解决以下问题：

下载整理每天确诊/死亡/治愈的患者数据
通过地图可视化方式来呈现各国各地区的最新患者数目
使用常规图标来呈现各国患者的变化趋势
Read more »