StarEmbed: Benchmarking Time Series Foundation Models on Astronomical Observations of Variable Stars
Weijian Li, Hong-Yu Chen, Qinjie Lin, Nabeel Rehemtulla, Ved G. Shah, Dennis Wu, Adam A. Miller, and Han Liu
时间序列基础模型(TSFM)越来越多地被作为具有高度能力的通用时间序列表示学习者。 虽然他们的训练语料库很庞大,但他们排除了天文时间序列数据。 对恒星的观测会产生peta-scale时间序列,具有独特的挑战,包括不规则采样和异质性。 我们介绍了StarEmbed,这是第一个对恒星时间序列观测("光曲线")进行先进和标准化评估的严格和标准化评估的公众基准。 我们根据三个科学动机的下游任务进行基准测试:无监督聚类、监督分类和域外源检测。 StarEmbed集成了专家审核的标签目录,以及来自Zwicky Transient Facility的多变量光曲线,产生了分布在七个天体物理类的40k手工标记光曲线。 我们评估三个TSFM(MOIRAI,Chronos,Chronos-Bolt)和一个域特异性变压器(Astromer)的零镜头表示能力,对抗手工制作的特征提取,这是天体物理学文献中长期存在的基线。 我们的结果表明,这些TSFM,特别是Chronos模型,其训练的数据完全不同于天文观测,在某些任务中可以超越既定的天体物理学基线,并有效地推广到全新的数据。 特别是,TSFM在我们的出耗源检测基准上提供最先进的性能。 通过TSFM在天文时间序列数据上的第一个基准,我们测试了其泛化的局限性,并激励了时间域天文学的范式转变,从使用特定任务,完全监督的管道转向采用通用的基础模型表示,用于分析即将发布的天文台的peta规模数据集。
Time series foundation models (TSFMs) are increasingly being adopted as highly-capable general-purpose time series representation learners. Although their training corpora are vast, they exclude astronomical time series data. Observations of stars produce peta-scale time series with unique challenges including irregular sampling and heteroskedasticity. We introduce StarEmbed, the first public benchmark for rigorous and standardized evaluation of state-of-the-art TSFMs on stellar time series obse...