本文介绍了一种面向应用的、 基于大量计算的统计推断--Bootstrap法 。 它是以原始数据为基础的模拟抽样统计推断法,用于研究原始数据的某统计量的分布特征, 特别适用于那些难以用常规方法导出的参数的区间估计、假设检验等问题。
正儿八经的摘要
统计推断是从样本推断相应的总体, 有参数法和非参数法。 早期的统计推断是以大样本为基础的 。自从W S . Go sse t 在 1908 年发现了 t分布后, 就开创了小样本的研究。RA F ish e r 在1920 年提出了似然 (likelood) 的概念, 一直被认为 是 高 效 的 统 计 推 断 思 维 方 法, P ea r s o n ,Fish e r , N ey m an , W a l d 等人在这方面的卓越成就, 使统计推断进入了新的纪元。半个多世纪以来, 这种思维一直占有主导地位, 统计学家研究的主流就是如何将这种思维付诸实践, 极大似然函数的求解是这一研究的关键问题。当今计算机技术的高度发展, 使统计研究及其应用跃上了一个新台阶。 这不仅提高了计算的速度, 而且可以把统计学家从求解数学难题中解放出来, 并逐渐形成一种面向应用的、 基于大量计算的统计思维------模拟抽样统计推断, Boot s t rap 法就是其中的一种。
关于名字的小故事
关于 boots t rap 的译名: boots t rap 意指靴带, 来自短语: “ p u l lonese l f up b y one′ s boots t rap" , 18世纪 R E R a s p e 的小说《巴龙历险记》 ( A b ven 2tu re s o f B a r o n M u n ch au sen ) : 巴龙掉到湖里,沉到湖底, 在他绝望的时候, 他用自己靴子上的带子把自己拉了上来。现意指不借助别人的力量, 凭自己的努力, 终于获得成功; 在这里“boo t s t rap ”法是指用原样本自身的数据抽样得出新的样本及统计量, 根据其意笔者将其译成“ 自举” 法 。
Bootstrap是重新改变统计学的一个想法。统计推断的主体总是一个的随机变量分布。在这个分布很复杂无法假设合理的参数模型时,bootstrap提供了一种非参数的推断方法,依靠的是对观测到的样本的重新抽样(resampling),其实是用empirical distribution去近似真正的distribution。
通俗的原理讲解
来简单讲讲Bootstrap, Bootstrap,即“拔靴法”(不知道翻得对不对),是用小样本来估计大样本的统计方法。举个栗子来说明好了,(我不会贴一个举栗子的图片的放心!)
你要统计你们小区里男女比例,可是你全部知道整个小区的人分别是男还是女很麻烦对吧。
于是你搬了个板凳坐在小区门口,花了十五分钟去数,准备了200张小纸条,有一个男的走过去,你就拿出一个小纸条写上“M”,有一个女的过去你就写一个“S”。
最后你回家以后把200张纸条放在茶几上,随机拿出其中的100张,看看几个M,几个S,你一定觉得这并不能代表整个小区对不对。
然后你把这些放回到200张纸条里,再随即抽100张,再做一次统计。
…………
如此反复10次或者更多次,大约就能代表你们整个小区的男女比例了。
你还是觉得不准?没办法,就是因为不能知道准确的样本,所以拿Bootstrap来做模拟而已.
整理自网络
参考文献:
1 B oo t s t r ap 估计及其应用
2 知乎:统计中的 Bootstrap 方法是指什么?与Monte Carlo 方法有什么联系与区别?
3 Bootstrap方法及其在生物学研究中的应用
欢迎关注生信人
文章评论