Bootstrap，样本量有限情况下，预测模型评估的好方法！

2022年3月26日 672点热度 0人点赞 0条评论

临床科研与meta分析

分享科研方法，科研资讯，临床知识！包括科研设计、SCI论文、meta分析，以及生物医学前沿进展、临床医疗技巧…… 无论是医护、科研人员、学生、还是广大非医学朋友，这里都有您想要的内容！

1332篇原创内容

?点击关注、星标我们

Bootstrap(自助法、自举法)是非参数统计中一种重要的估计统计量方差，进而进行区间估计的统计方法。

Bootstrap通过对给定数据集进行有放回的重抽样以创建多个模拟数据集，生成一系列待检验统计量的经验分布，可以计算标准误差、构建置信区间并对多种类型的样本统计信息进行假设检验。

Bootstrap无需假设一个特定的理论分布，便可生成统计量的置信区间并能检验统计假设，更易于理解以及适用于更多条件，因此常作为传统假设检验的替代方法。

Bootstrap方法最早由美国斯坦福大学统计学教授Efron于1979年提出，是基于大量计算的一种模拟抽样统计推断方法。

Bootstrap方法的原理其实很简单，它设有一个容量为n的数据样本，从这一样本按放回抽样的方法抽取一个容量为n的样本，这种样本称为Bootstrap样本或称为自助样本。相继地、独立地自原始样本抽取很多个Bootstrap样本，利用这些样本对总体进行统计推断。如下图所示：

Boostrap主要是用来对于预测模型进行区分度以及校准度的评估。通常我们对预测模型预测效能的评估，需要从模型区分度，校准度进行评估。前者是通过AUC来实现，后者是通过校准曲线来实现。但是在什么样本集上进行模型的验证，则有很多方法。当然最好是进行外部验证，也就是在训练集之外，再找一部分样本进行验证，得出来的结果才是可靠的。第二可以进行内部验证。Boostrap就是内部验证的一种。往往在样本量有限的情况下，更加有用。

Boostrap是内部验证的方法，结果看两点，一是两次预测模型系数可稳定；二是ROC曲线的AUC。也就是先进行一次正常Logistic回归，利用预测的概率进行ROC；然后根据Boostrap后的模型系数，手动写出方程，再次预测Bootstrap后的预测概率，然后对概率再次得到ROC；然后可以比较两次的ROC，如果相差不大说明可重复性较好。

公众号推荐

“急重症抢救”是任何临床医生&护士执业生涯都会遇到的情况！

“急重症世界”公众号，分享急危重症临床临床资讯与科研进展，搭建一个“急重症”医务人员、科研人员的交流平台~~

微信公众号名片?