CIPHER: Scalable Time Series Analysis for Physical Sciences with Application to Solar Wind Phenomena
Jasmine R. Kobayashi, Daniela Martin, Valmir P Moraes Filho, Connor O'Brien, Jinsu Hong, Sudeshna Boro Saikia, Hala Lamdouar, Nathan D. Miles, Marcella Scoczynski, Mavis Stone, Sairam Sundaresan, Anna Jungbluth, Andrés Muñoz-Jaramillo, Evangelia Samara and Joseph Gallego
标记或分类时间序列是物理科学的一个持续挑战,其中专家注释稀缺,成本高昂,而且往往不一致。 然而,强大的标签对于实现理解、预测和预测的机器学习模型至关重要。 我们介绍了具有人类识别评估的聚类和索引管道(CIPHER),这是一个旨在加速物理学中复杂时间序列的大规模标记的框架。 CIPHER集成了可索引的符号聚合近似(iSAX),用于可解释的压缩和索引,基于密度的聚类(HDBSCAN)来分组反复出现的现象,以及用于高效专家验证的人成环步骤。 代表性样本由域科学家标记,这些注释在集群之间传播,以产生系统,可扩展的分类。 我们评估CIPHER在OMNI数据中分类太阳风现象的任务,这是空间天气研究的核心挑战,表明该框架恢复了有意义的现象,如日冕物质抛射和流相互作用区域。 除了这个案例研究之外,CIPHER还强调了将符号表示,无监督学习和专业知识相结合的一般策略,以解决物理科学中时间序列中的标签稀缺性。 本研究中使用的代码和配置文件公开可用以支持可重复性。
Labeling or classifying time series is a persistent challenge in the physical sciences, where expert annotations are scarce, costly, and often inconsistent. Yet robust labeling is essential to enable machine learning models for understanding, prediction, and forecasting. We present the Clustering and Indexation Pipeline with Human Evaluation for Recognition (CIPHER), a framework designed to accelerate large-scale labeling of complex time series in physics. CIPHER integrates indexable Symbolic Ag...