42digest
时间旅行正在作弊:与DeepFund一起为实时基金投资基准

Time Travel is Cheating: Going Live with DeepFund for Real-Time Fund Investment Benchmarking

Changlun Li, Yao Shi, Chen Wang, Qiqi Duan, Runke Ruan, Weijie Huang, Haonan Long, Lijun Huang, Yuyu Luo, Nan Tang

arXiv
2025年5月16日

大型语言模型(LLM)在财务任务中表现出显着的能力,包括财务报告总结,收益电话记录分析和资产分类。 然而,它们管理复杂基金投资的实际效力仍然没有得到足够的评估。 评估LLM驱动的交易策略的现有基准的一个基本限制是它们依赖于历史后置测试,无意中使LLM能够“时间旅行”利用其训练库中嵌入的未来信息,从而导致可能的信息泄漏和过于乐观的性能估计。 为了解决这个问题,我们推出了DeepFund,这是一个实时基金基准工具,旨在在实时市场条件下严格评估LLM。 利用多代理架构,DeepFund直接与每个模型预训练后发布的实时股票市场数据数据直接连接,以确保公平和无泄漏的评估。 对来自全球领先机构的9个旗舰LLM进行经验测试,涉及多个投资维度,包括股票级分析、投资决策、投资组合管理和风险控制,揭示重大实际挑战。 值得注意的是,即使是DeepSeek-V3和Claude-3.7-Sonnet等尖端车型也会在DeepFund的实时评估环境中产生净交易损失,突显了LLM在主动基金管理方面的现有局限性。 我们的代码可在https://github.com/HKUSTDial/DeepFund。

Large Language Models (LLMs) have demonstrated notable capabilities across financial tasks, including financial report summarization, earnings call transcript analysis, and asset classification. However, their real-world effectiveness in managing complex fund investment remains inadequately assessed. A fundamental limitation of existing benchmarks for evaluating LLM-driven trading strategies is their reliance on historical back-testing, inadvertently enabling LLMs to "time travel"-leveraging fut...