Prompting for Policy: Forecasting Macroeconomic Scenarios with Synthetic LLM Personas
Giulia Iadisernia, Carolina Camassa
我们评估基于角色的提示是否提高了大型语言模型(LLM)在宏观经济预测任务上的表现。 使用PersonaHub语料库中的2368个经济学相关角色,我们提示GPT-4o在50个季度(2013-2025)中复制ECB专业预测者调查。 我们比较了针对人类专家小组的人为预测,跨越四个目标变量(HICP,核心HICP,GDP增长,失业)和四个预测视野。 我们还将结果与100个没有角色描述的基线预测进行比较,以隔离其效果。 我们报告两个主要发现。 首先,GPT-4o和人类预报员的准确率水平非常相似,差异在统计学上显著但实际不大。 我们对2024-2025年数据的抽样评估表明,GPT-4o可以在看不见的事件中保持有竞争力的预测性能,尽管与样本内时期相比存在显着差异。 其次,我们的消融实验没有从角色描述中显示出可测量的预测优势,这表明可以省略这些提示组件,以在不牺牲准确性的情况下降低计算成本。 我们的研究结果提供了证据,证明GPT-4o即使在样本外的宏观经济事件中也能实现有竞争力的预测准确性,如果提供相关的上下文数据,同时揭示与人类面板相比,不同的提示会产生非常均匀的预测。
We evaluate whether persona-based prompting improves Large Language Model (LLM) performance on macroeconomic forecasting tasks. Using 2,368 economics-related personas from the PersonaHub corpus, we prompt GPT-4o to replicate the ECB Survey of Professional Forecasters across 50 quarterly rounds (2013-2025). We compare the persona-prompted forecasts against the human experts panel, across four target variables (HICP, core HICP, GDP growth, unemployment) and four forecast horizons. We also compare ...