关于Bootstrap的通俗讲解

本文介绍了一种面向应用的、基于大量计算的统计推断--Bootstrap法。它是以原始数据为基础的模拟抽样统计推断法,用于研究原始数据的某统计量的分布特征, 特别适用于那些难以用常规方法导出的参数的区间估计、假设检验等问题。

正儿八经的摘要

统计推断是从样本推断相应的总体, 有参数法和非参数法。早期的统计推断是以大样本为基础的。自从W S . Go sse t 在 1908 年发现了 t分布后, 就开创了小样本的研究。RA F ish e r 在1920 年提出了似然 (likelood) 的概念, 一直被认为是高效的统计推断思维方法, P ea r s o n ,Fish e r , N ey m an , W a l d 等人在这方面的卓越成就, 使统计推断进入了新的纪元。半个多世纪以来, 这种思维一直占有主导地位, 统计学家研究的主流就是如何将这种思维付诸实践, 极大似然函数的求解是这一研究的关键问题。当今计算机技术的高度发展, 使统计研究及其应用跃上了一个新台阶。这不仅提高了计算的速度, 而且可以把统计学家从求解数学难题中解放出来, 并逐渐形成一种面向应用的、基于大量计算的统计思维------模拟抽样统计推断, Boot s t rap 法就是其中的一种。

关于名字的小故事

关于 boots t rap 的译名: boots t rap 意指靴带, 来自短语: “ p u l lonese l f up b y one′ s boots t rap" , 18世纪 R E R a s p e 的小说《巴龙历险记》 ( A b ven 2tu re s o f B a r o n M u n ch au sen ) : 巴龙掉到湖里,沉到湖底, 在他绝望的时候, 他用自己靴子上的带子把自己拉了上来。现意指不借助别人的力量, 凭自己的努力, 终于获得成功; 在这里“boo t s t rap ”法是指用原样本自身的数据抽样得出新的样本及统计量, 根据其意笔者将其译成“ 自举” 法。

Bootstrap是重新改变统计学的一个想法。统计推断的主体总是一个的随机变量分布。在这个分布很复杂无法假设合理的参数模型时，bootstrap提供了一种非参数的推断方法，依靠的是对观测到的样本的重新抽样（resampling），其实是用empirical distribution去近似真正的distribution。

通俗的原理讲解

来简单讲讲Bootstrap， Bootstrap，即“拔靴法”（不知道翻得对不对），是用小样本来估计大样本的统计方法。举个栗子来说明好了，（我不会贴一个举栗子的图片的放心！）

你要统计你们小区里男女比例，可是你全部知道整个小区的人分别是男还是女很麻烦对吧。

于是你搬了个板凳坐在小区门口，花了十五分钟去数，准备了200张小纸条，有一个男的走过去，你就拿出一个小纸条写上“M”，有一个女的过去你就写一个“S”。

最后你回家以后把200张纸条放在茶几上，随机拿出其中的100张，看看几个M，几个S，你一定觉得这并不能代表整个小区对不对。

然后你把这些放回到200张纸条里，再随即抽100张，再做一次统计。

…………

如此反复10次或者更多次，大约就能代表你们整个小区的男女比例了。

你还是觉得不准？没办法，就是因为不能知道准确的样本，所以拿Bootstrap来做模拟而已.

整理自网络

参考文献：

1 B oo t s t r ap 估计及其应用