42digest
CLT 和 Edgeworth 扩展,用于学生中位数的 m-of-n Bootstrap 估计器

CLT and Edgeworth Expansion for m-out-of-n Bootstrap Estimators of The Studentized Median

Imon Banerjee, Sayak Chakrabarty

arXiv
2025年5月16日

最初由Bickel,Gotze和Zwet(1992)提出的m-out-n bootstrap通过重复绘制m子样本(比n小得多)来近似统计量的分布,而无需从原始样本n中替换。 它现在通常用于强推理与重尾数据,带宽选择和其他大样本应用程序。 尽管其在计量经济学,生物统计学和机器学习方面具有广泛的适用性,但在估计样品分位数时,对m-out-n bootstrap的健全性进行了严格的无参数保证。 本文通过分析从m-out-n重新采样大小为n的数据集中获得的样本分位数的估算器来建立这样的保证。 我们首先证明了一个中心极限定理,用于完全数据驱动的估算器版本,该版本在温和的时刻条件下保持,并且不涉及未知的滋扰参数。 然后,我们通过构建一个 CLT 失败的反示例来表明,当下假设本质上是紧绷的。 稍微加强假设,我们得出一个Edgeworth扩展,提供精确的收敛率,并且作为推论,Berry Esseen绑定在bootstrap近似错误上。 最后,我们通过为实用统计推导无参数渐近分布来说明我们的结果的范围,包括随机行走Metropolis-Hastings的分位数和ergodic Markov决策过程的回报,从而证明了我们理论在现代估计和学习任务中的有用性。

The m-out-of-n bootstrap, originally proposed by Bickel, Gotze, and Zwet (1992), approximates the distribution of a statistic by repeatedly drawing m subsamples (with m much smaller than n) without replacement from an original sample of size n. It is now routinely used for robust inference with heavy-tailed data, bandwidth selection, and other large-sample applications. Despite its broad applicability across econometrics, biostatistics, and machine learning, rigorous parameter-free guarantees fo...