Bootstrap,样本量有限情况下,预测模型评估的好方法!

2022年3月26日 372点热度 0人点赞 0条评论

?点击关注、星标我们图片


Bootstrap(自助法、自举法)是非参数统计中一种重要的估计统计量方差,进而进行区间估计的统计方法。

Bootstrap通过对给定数据集进行有放回的重抽样以创建多个模拟数据集,生成一系列待检验统计量的经验分布,可以计算标准误差、构建置信区间并对多种类型的样本统计信息进行假设检验。

Bootstrap无需假设一个特定的理论分布,便可生成统计量的置信区间并能检验统计假设,更易于理解以及适用于更多条件,因此常作为传统假设检验的替代方法。

Bootstrap方法最早由美国斯坦福大学统计学教授Efron于1979年提出,是基于大量计算的一种模拟抽样统计推断方法

Bootstrap方法的原理其实很简单,它设有一个容量为n的数据样本,从这一样本按放回抽样的方法抽取一个容量为n的样本,这种样本称为Bootstrap样本或称为自助样本。相继地、独立地自原始样本抽取很多个Bootstrap样本,利用这些样本对总体进行统计推断。如下图所示:

图片

Boostrap主要是用来对于预测模型进行区分度以及校准度的评估。通常我们对预测模型预测效能的评估,需要从模型区分度,校准度进行评估。前者是通过AUC来实现,后者是通过校准曲线来实现。但是在什么样本集上进行模型的验证,则有很多方法。当然最好是进行外部验证,也就是在训练集之外,再找一部分样本进行验证,得出来的结果才是可靠的。第二可以进行内部验证。Boostrap就是内部验证的一种。往往在样本量有限的情况下,更加有用。

Boostrap是内部验证的方法,结果看两点,一是两次预测模型系数可稳定;二是ROC曲线的AUC。也就是先进行一次正常Logistic回归,利用预测的概率进行ROC;然后根据Boostrap后的模型系数,手动写出方程,再次预测Bootstrap后的预测概率,然后对概率再次得到ROC;然后可以比较两次的ROC,如果相差不大说明可重复性较好。

公众号推荐

“急重症抢救”是任何临床医生&护士执业生涯都会遇到的情况!

“急重症世界”公众号,分享急危重症临床临床资讯与科研进展,搭建一个“急重症”医务人员、科研人员的交流平台~~


微信公众号名片?

图片



图片

版权声明

本微信转载文章出于非商业性的教育和科研目的,如转载稿、图片涉及版权等问题,请立即联系我们,我们会予以更改或删除相关文章,保证您的权益。 

图片

图片

37620Bootstrap,样本量有限情况下,预测模型评估的好方法!

这个人很懒,什么都没留下

文章评论