42digest首页
使用 MPI 进行通信高效和内存感知并行引导

Communication-Efficient and Memory-Aware Parallel Bootstrapping using MPI

Di Zhang

arXiv
2025年10月18日

Bootstrapping是一种强大的统计重新采样技术,用于估计器的采样分布。 然而,对于大型数据集或大量重新采样来说,其计算成本变得令人望而却步。 本文介绍了使用消息传递接口(MPI)的并行引导算法的理论分析和设计。 我们解决了两个关键挑战:分布式环境中的高通信开销和内存限制。 我们提出了两种新颖的策略:1)本地统计聚合,通过传输足够的统计数据而不是完整的重新采样的数据集来大大减少通信,2)同步伪随机数生成,当整个数据集不能存储在单个过程中时,可以实现分布式重新采样。 我们开发通信和计算复杂性的分析模型,将我们的方法与幼稚的基线方法进行比较。 我们的分析表明,建议的方法大大减少了通信量和内存使用量,促进了大规模系统上的可扩展并行引导。

Bootstrapping is a powerful statistical resampling technique for estimating the sampling distribution of an estimator. However, its computational cost becomes prohibitive for large datasets or a high number of resamples. This paper presents a theoretical analysis and design of parallel bootstrapping algorithms using the Message Passing Interface (MPI). We address two key challenges: high communication overhead and memory constraints in distributed environments. We propose two novel strategies: 1...