FinMaster: A Holistic Benchmark for Mastering Full-Pipeline Financial Workflows with LLMs
Junzhe Jiang, Chang Yang, Aixin Cui, Sihan Jin, Ruiyu Wang, Bo Li, Xiao Huang, Dongning Sun, Xinrun Wang
金融任务对全球经济稳定至关重要;然而,它们的执行面临着包括劳动密集型流程、低错误容忍度、数据碎片化和工具限制等挑战。 尽管大型语言模型(LLM)在各种自然语言处理任务中取得了成功,并且通过推理和上下文理解在自动化工作流程方面显示出潜力,但目前在财务中评估LLM的基准缺乏足够的特定领域数据,具有简单化的任务设计和不完整的评估框架。 为了解决这些差距,本文介绍了FinMaster,这是一个全面的财务基准,旨在系统地评估LLM在金融知识,会计,审计和咨询方面的能力。 具体来说,FinMaster由三个主要模块组成:i)FinSim,它构建模拟器,为公司复制市场动态生成合成的,符合隐私的金融数据;ii)FinSuite,它提供核心金融领域的任务,跨越183个各种类型的任务和难度级别;和iii)FinEval,开发统一的评估界面。 对最先进的LLM进行了广泛的实验揭示了财务推理中的关键能力差距,从90多个基本任务下降到仅40个这种退化显示了计算错误的传播,其中单指标计算最初展示了58 37个第一个基准,涵盖了具有挑战性任务的全管道财务工作流程。 我们希望FinMaster能够弥合研究和行业从业者之间的差距,推动LLM在现实金融实践中的采用,以提高效率和准确性。
Financial tasks are pivotal to global economic stability; however, their execution faces challenges including labor intensive processes, low error tolerance, data fragmentation, and tool limitations. Although large language models (LLMs) have succeeded in various natural language processing tasks and have shown potential in automating workflows through reasoning and contextual understanding, current benchmarks for evaluating LLMs in finance lack sufficient domain-specific data, have simplistic t...