42digest首页
使用MORL学习Pareto-Optimal大流行干预政策

Learning Pareto-Optimal Pandemic Intervention Policies with MORL

Marian Chen, Miri Zilka

arXiv
2025年10月2日

COVID-19大流行强调了对干预策略的迫切需要,这些战略可以平衡疾病遏制与社会经济稳定。 我们通过设计建模和评估疾病传播预防策略的框架来应对这一挑战。 我们的框架利用多目标强化学习(MORL) - 竞争目标所必需的公式 - 结合新的随机微分方程(SDE)大流行模拟器,根据全球COVID-19数据进行校准和验证。 我们的模拟器再现了全国规模的大流行动态,其保真度比强化学习(RL)大流行干预方法中常用的其他模型要高。 在这个模拟器上培训一个帕累托条件网络(PCN)代理,我们说明了COVID-19的流行病学控制和经济稳定之间的直接政策权衡。 此外,我们通过将其扩展到具有不同流行病学特征的病原体(如脊髓灰质炎和流感)来证明该框架的通用性,并展示了这些特征如何引导代理人发现根本不同的干预政策。 为了在当代决策挑战中开展工作,我们将该模型应用于麻疹疫情,量化了适度的5

The COVID-19 pandemic underscored a critical need for intervention strategies that balance disease containment with socioeconomic stability. We approach this challenge by designing a framework for modeling and evaluating disease-spread prevention strategies. Our framework leverages multi-objective reinforcement learning (MORL) - a formulation necessitated by competing objectives - combined with a new stochastic differential equation (SDE) pandemic simulator, calibrated and validated against glob...