Scalable Machine Learning Analysis of Parker Solar Probe Solar Wind Data
Daniela Martin, Connor O'Brien, Valmir P Moraes Filho, Jinsu Hong, Jasmine R. Kobayashi, Evangelia Samara and Joseph Gallego
我们提出了一个可扩展的机器学习框架,用于使用分布式处理和量子启发的内核密度矩阵(KDM)方法分析帕克太阳探测器(PSP)太阳风数据。 PSP数据集(2018-2024)超过150 GB,挑战传统的分析方法。 我们的框架利用Dask进行大规模统计计算和KDM来估计关键太阳风参数的单变量和双变量分布,包括太阳风速,质子密度和质子热速,以及每个参数的异常阈值。 我们揭示了内日光层的特征趋势,包括随着距离太阳的增加太阳风速,降低质子密度,以及速度和密度之间的反向关系。 太阳风结构在增强和调解极端空间天气现象方面起着关键作用,并可能引发地磁风暴;我们的分析提供了对这些过程的定量见解。 这种方法提供了一种可处理,可解释和分布式的方法来探索复杂的物理数据集,并促进对大规模现场测量的可重复分析。 处理的数据产品和分析工具已公开提供,以推进太阳能风能动力学和空间天气预报的未来研究。 本研究中使用的代码和配置文件公开可用以支持可重复性。
We present a scalable machine learning framework for analyzing Parker Solar Probe (PSP) solar wind data using distributed processing and the quantum-inspired Kernel Density Matrices (KDM) method. The PSP dataset (2018–2024) exceeds 150 GB, challenging conventional analysis approaches. Our framework leverages Dask for large-scale statistical computations and KDM to estimate univariate and bivariate distributions of key solar wind parameters, including solar wind speed, proton density, and proton ...