Bootstrap是非参数统计中一种重要的估计统计量变异性,并可进行统计量区间估计的统计方法,也称为自助法。
基本介绍
- 中文名自助法
- 外文名Bootstrap
- 套用範围数理统计、数据处理
- 开发来源国外
- 别名自助法
其核心思想和基本步骤如下
(1) 採用重複抽样技术从原始样本中抽取一定数量(可自己给定,一般与原始样本相同)的样本,此过程允许重複抽样。
(2) 根据抽出的样本计算待估计的统计量T。
(3) 重複上述N次(一般大于1000),得到N个统计量T。
(4) 计算上述N个统计量T的样本方差,以此估计统计量T的方差。
应该说Bootstrap是现代统计学较为流行的一种统计方法,在小样本时效果很好。通过方差的估计可以构造置信区间等,其套用範围得到进一步延伸。
具体抽样方法举例想要知道池塘里面鱼的数量,可以先抽取N条鱼,做上记号,放回池塘。
进行重複抽样,抽取M次,每次抽取N条,考察每次抽到的鱼当中有记号的比例,综合M次的比例,在进行统计量的计算。
套用bootstrap的原因其实,在进行分析的时候,要做的就是,判断随机变数的类型,然后就是判断随机变数的数据服从什幺分布。什幺分布至关重要,因为它直接决定能不能分析。举例如果进行方差分析,就要求常态分配,如果不是常态分配,就要有补救措施,这个补救措施就是bootstrap。bootstrap还有一个用处,因为经典统计学对集中趋势比较完善,对其他一些分布参数,例如中位数,四分位数,标準差,变异係数等的区间估计不完善,所以就需要bootstrap,这种方法。bootstrap和经典统计学方法类似,一般情况参数法效率高于非参数法,,参数法最大的弊端就是需要事先有一个分布模型,如果模型不符合,分析结果可能错误,也就是白分析。
如果数据存在明显的层次,可以用分层抽样提高分析效率,spss默认是非参数bootstrap方法,并且採用完全随机抽样,所以,如果要求分层抽样,不能依靠默认,需要自己设定。
还有特别需要注意,需要多少个观测量才是最科学,最合理的,答案是1000个。少于这个数字,计算结果不準确,因为是按照百分位数法计算可信区间,所以,不能太少。如果多于1000个,多数情况下精度改善非常有限,并且浪费系统资源和计算时间。
bootstrap的spss分析中的操作步骤“分析”~“比较均值”~“均值”~选择好自变数和因变数~“选项”子对话框~“单元格统计量”~bootstrap子对话框~执行bootstrap複选框
还有一点,如果因变数符合或者大概符合常态分配,bootstrap方法就可以不用。