LLM Output Drift: Cross-Provider Validation Mitigation for Financial Workflows
Raffi Khatchadourian, Rolando Franco
金融机构为调节、监管报告和客户通信部署大型语言模型(LLM),但非确定性产出(产出漂移)会破坏可审计性和信任性。 我们量化了在受监管的财务任务上跨越五个模型架构(7B-120B参数)的漂移,揭示了一种明显的反向关系:较小的模型(花岗岩-3-8B,Qwen2.5-7B)在T=0.0时实现了100%的输出一致性,而GPT-OSS-120B仅表现出12.5%的一致性(95%CI:3.5-36.0%),无论配置如何(p<0.0001,Fisher的精确测试)。 这一发现挑战了传统的假设,即更大的模型在生产部署方面普遍优于。 我们的贡献包括:(i) 财务校准的确定性测试线束,结合贪婪的解码(T=0.0),固定种子和SEC 10-K结构感知检索排序;(ii)使用财务校准的物质性阈值(加或减5%)和SEC引用验证对RAG,JSON和SQL输出进行特定任务的不变性检查;(iii)一个三层模型分类系统,以实现风险适当的部署决策; 我们评估了五个模型(Qwen2.5-7B通过Ollama,Granite-3-8B通过IBM watsonx.ai,Llama-3.3-70B,Mistral-Medium-2505和GPT-OSS-120B)跨越三个受监管的财务任务。 在480次运行(每个条件n=16)中,结构化任务(SQL)即使在T=0.2时保持稳定,而RAG任务显示漂移(25-75%),揭示了任务依赖的灵敏度。 跨提供商验证确认本地部署和云部署之间的确定性行为传输。 我们将我们的框架映射到金融稳定委员会(FSB),国际清算银行(BIS)和商品期货交易委员会(CFTC)的要求,展示了合规就绪AI部署的实用途径。
Financial institutions deploy Large Language Models (LLMs) for reconciliations, regulatory reporting, and client communications, but nondeterministic outputs (output drift) undermine auditability and trust. We quantify drift across five model architectures (7B-120B parameters) on regulated financial tasks, revealing a stark inverse relationship: smaller models (Granite-3-8B, Qwen2.5-7B) achieve 100% output consistency at T=0.0, while GPT-OSS-120B exhibits only 12.5% consistency (95% CI: 3.5-36.0...