随着大型语言模型(LLM)融入我们的社会和经济互动,我们需要加深对人类如何在战略环境中应对LLM对手的理解。 我们介绍了第一个受控制的货币激励的实验室实验的结果,该实验在针对其他人类和LLM的多人p-beauty竞赛中观察人类行为的差异。 我们使用主题内设计来比较个人层面的行为。 我们表明,在这种环境中,人类受试者在对抗LLM时选择的数字明显低于人类,这主要是由于“零”纳什均衡选择的流行率增加。 这种转变主要是由具有高战略推理能力的主体推动的。 玩零纳什均衡选择的受试者通过吸引LLM的推理能力以及出乎意料的合作倾向来激励他们的策略。 我们的发现为同时选择游戏中的多人人与LLM交互提供了基础见解,揭示了两个主题在对抗LLM时的行为和信念的异质性,并提出了混合人LLM系统中机制设计的重要影响。
现实世界中的人往往对未来回报有模糊的了解,对此量化是不可行的或可取的。 我们认为,语言具有不同的传达模糊信息的能力,在主观期望中起着重要但鲜为人知的角色。 从经验上讲,我们发现在他们的报告中,分析师在语言表达中包括有用的信息,而不是数字预测。 具体而言,分析师报告的文本语调具有预测误差和随后数字预测修订的预测能力,当分析师的语言模糊时,当不确定性更高时,当分析师更忙时,这种关系变得更加牢固。 总的来说,我们的理论和证据表明,一些有用的信息是模糊的,只能通过语言传达。
在许多金融预测问题中,单个单位(如贷款、债券或股票)的行为受到可观察单位级因素和宏观经济变量的影响,以及潜在的横断面效应的影响。 传统方法试图通过手工制作的摘要特征捕捉这些潜在效果。 我们提出了一个Set-Sequence模型,消除了对手工制作功能的需求。 Set 模型首先在每个时期学习共享的横截面摘要。 然后,序列模型会独立地摄取每个单元的摘要增强时间序列来预测其结果。 这两个组件在训练过程中通过任意集来共同学习。 我们的方法利用了横截面的设置性质,并且计算效率很高,相对于单位数量,线性时间生成集合摘要。 它还具有灵活性,允许使用现有的序列模型,并在推理时容纳可变数量的单位。 经验评估表明,我们的设定顺序模型显著优于股票回报预测和抵押贷款行为任务的基准。 代码将被释放。
金融任务对全球经济稳定至关重要;然而,它们的执行面临着包括劳动密集型流程、低错误容忍度、数据碎片化和工具限制等挑战。 尽管大型语言模型(LLM)在各种自然语言处理任务中取得了成功,并且通过推理和上下文理解在自动化工作流程方面显示出潜力,但目前在财务中评估LLM的基准缺乏足够的特定领域数据,具有简单化的任务设计和不完整的评估框架。 为了解决这些差距,本文介绍了FinMaster,这是一个全面的财务基准,旨在系统地评估LLM在金融知识,会计,审计和咨询方面的能力。 具体来说,FinMaster由三个主要模块组成:i)FinSim,它构建模拟器,为公司复制市场动态生成合成的,符合隐私的金融数据;ii)FinSuite,它提供核心金融领域的任务,跨越183个各种类型的任务和难度级别;和iii)FinEval,开发统一的评估界面。 对最先进的LLM进行了广泛的实验揭示了财务推理中的关键能力差距,从90多个基本任务下降到仅40个这种退化显示了计算错误的传播,其中单指标计算最初展示了58 37个第一个基准,涵盖了具有挑战性任务的全管道财务工作流程。 我们希望FinMaster能够弥合研究和行业从业者之间的差距,推动LLM在现实金融实践中的采用,以提高效率和准确性。
这项研究探讨了零镜头时间序列预测的潜力,这是一种利用预先训练的基础模型的创新方法,可以在没有特定任务微调的情况下预测死亡率。 我们使用来自50个国家和111个年龄组的数据,在三个预测领域(5年,10年和20年)中评估两种最先进的基础模型,以及传统和基于机器学习的方法。 在我们的调查中,零镜头模型显示出不同的结果:虽然CHRONOS提供了具有竞争力的短期预测,优于ARIMA和Lee-Carter模型等传统方法,但TimesFM的表现一直表现不佳。 对死亡率数据进行微调CHRONOS显著提高了长期的准确性。 随机森林模型,根据死亡率数据进行训练,取得了最佳的整体表现。 这些发现强调了零镜头预测的潜力,同时强调了仔细模型选择和特定领域适应的必要性。
本文介绍了一种新的方法来绘制新兴技术的宇宙,利用包含丰富多样性和当代知识广度的各种源数据来创建新的数据集和多个索引,为这些技术提供新的见解。 Cosmos 1.0数据集是23,544项技术(ET23k)的综合集合,构建成一个分层模型。 每项技术分为三个元簇(ET3)和七个主题簇(ET7),由100维嵌入向量增强。 在宇宙中,我们手动验证了100种名为ET100的新兴技术。 该数据集富含专门用于评估新兴技术格局的其他指数,包括技术意识指数,通用指数,Deeptech和技术时代指数。 该数据集包含来自维基百科的广泛元数据和来自第三方来源的链接数据,如Crunchbase,Google Books,OpenAlex和Google Scholar,用于验证构建索引的相关性和准确性。 此外,我们训练了一个分类器,以确定它们是开发“技术”还是与技术相关的“术语”。
现实世界中的人往往对未来回报有模糊的了解,对此量化是不可行的或可取的。 我们认为,语言具有不同的传达模糊信息的能力,在主观期望中起着重要但鲜为人知的角色。 从经验上讲,我们发现在他们的报告中,分析师在语言表达中包括有用的信息,而不是数字预测。 具体而言,分析师报告的文本语调具有预测误差和随后数字预测修订的预测能力,当分析师的语言模糊时,当不确定性更高时,当分析师更忙时,这种关系变得更加牢固。 总的来说,我们的理论和证据表明,一些有用的信息是模糊的,只能通过语言传达。
总价值锁定(TVL)旨在衡量存入去中心化金融(DeFi)协议中的加密资产的总价值。 虽然区块链数据是公开的,但TVL的计算方式并不很好理解。 在实践中,它在主要TVL聚合器上的计算依赖于社区成员的自我报告,并且缺乏标准化,因此很难独立核实已公布的数字。 因此,我们对部署在以太坊中的939个DeFi项目进行了系统研究。 我们研究用于计算TVL的方法,研究阻碍可验证性的因素,并最终提出该领域的标准化尝试。 我们发现有10.5台服务器;存在68种替代标准平衡查询的方法,尽管它们的使用随着时间的推移而减少;在多个协议上重复240个等量平衡查询。 这些发现表明了可验证性和透明度的限制。 因此,我们引入了“可验证的总价值锁定”(vTVL),这是一种衡量TVL的指标,可以仅依靠链上数据和标准平衡查询进行验证。 关于400个协议的案例研究表明,我们的估计与46.5这些发现的已公布数字一致,我们讨论了设计指南,以促进更可验证,标准化和可解释的TVL计算。
准确预测客户的购买意图对于业务战略的成功至关重要。 目前的研究主要集中在分析客户未来可能购买的特定类型的产品,很少关注客户是否会从事回购行为的关键要素。 预测客户是否会进行下一次购买是一项经典的时间序列预测任务。 然而,在现实世界中的购买行为中,客户群体通常会表现出不平衡 - 即有大量的偶尔买家和少数忠实客户。 这种头尾分布使传统的时序列预测方法在处理此类问题时面临一定的局限性。 为了应对上述挑战,本文提出了统一的聚类和注意力机制GRU模型(CAGRU),该模型利用多模态数据进行客户购买意向预测。 该框架首先对客户特征进行客户分析,并将客户集群化,以划定包含类似功能的不同客户集群。 然后,由GRU神经网络提取不同客户集群的时间序列特征,并引入注意力机制来捕捉序列位置的重要性。 此外,为了减轻客户细分的正面分布,我们为每个客户细分市场分别培训模型,以更准确地调整和捕捉不同客户细分市场之间行为特征的差异,以及同一客户细分市场中客户的相似特征。 我们构建了四个数据集,并进行了广泛的实验,以证明拟议的CAGRU方法的优越性。
今天的政治主要是关于影响公众的信息传递的艺术,但信息传递的数学理论 - 信息和通信理论 - 可以使这种艺术变成定性和定量的精确分析,使我们能够对政治事件进行回顾性理解并做出前瞻性预测。
在许多金融预测问题中,单个单位(如贷款、债券或股票)的行为受到可观察单位级因素和宏观经济变量的影响,以及潜在的横断面效应的影响。 传统方法试图通过手工制作的摘要特征捕捉这些潜在效果。 我们提出了一个Set-Sequence模型,消除了对手工制作功能的需求。 Set 模型首先在每个时期学习共享的横截面摘要。 然后,序列模型会独立地摄取每个单元的摘要增强时间序列来预测其结果。 这两个组件在训练过程中通过任意集来共同学习。 我们的方法利用了横截面的设置性质,并且计算效率很高,相对于单位数量,线性时间生成集合摘要。 它还具有灵活性,允许使用现有的序列模型,并在推理时容纳可变数量的单位。 经验评估表明,我们的设定顺序模型显著优于股票回报预测和抵押贷款行为任务的基准。 代码将被释放。
这项研究根据来自欧洲、英国和美国的1,083名经理的调查数据,研究了网络安全的战略作用。 研究结果表明,人们越来越认识到网络安全是竞争优势的来源,尽管企业继续面临资源有限、人才短缺和文化阻力等障碍。 大型和高科技公司倾向于采取更积极的战略,而中小企业和低技术部门则表现出更大的可变性。 在平衡安全与创新和敏捷性方面出现了关键的管理紧张关系。 欧洲、英国和美国都观察到明显的国家一级差异。 在所有背景下,领导力和员工敬业度似乎是缩小战略意图与运营实践差距的核心。
为了应对对可持续制造的不断升级的需求,本研究引入了基于模拟的方法(SBA),以模拟能源密集型随机生产系统的停止政策,该系统在实际工业环境中开发和测试。 该案例公司——一家能源密集型的铅酸电池制造商——在其热处理操作中面临巨大的过程不确定性,使静态规划效率低下。 为了评估基于传感器的潜在解决方案,SBA利用模拟传感器数据(使用马尔可维模型)来迭代完善贝叶斯能源估计值并动态调整批次特定的处理时间。 全面的数值模拟,反映了公司2024年的热处理过程,评估了SBA的节能潜力,配置稳健性以及对过程不确定性和传感器失真度的灵敏度。 结果与三种规划场景进行了基准测试:(1)优化计划处理时间(OPT);(2)公司的当前基线实践;(3)具有完全已知能源需求的理想场景。 在所有测试环境中,SBA明显优于OPT,在某些情况下,其性能甚至相当于理想场景。 与目前的基线实践相比,能源投入减少了14-25分析,进一步突出了SBA平衡能源和检验劳动成本的能力,为工业决策者提供了可操作的见解。
这项研究探讨了零镜头时间序列预测的潜力,这是一种利用预先训练的基础模型的创新方法,可以在没有特定任务微调的情况下预测死亡率。 我们使用来自50个国家和111个年龄组的数据,在三个预测领域(5年,10年和20年)中评估两种最先进的基础模型,以及传统和基于机器学习的方法。 在我们的调查中,零镜头模型显示出不同的结果:虽然CHRONOS提供了具有竞争力的短期预测,优于ARIMA和Lee-Carter模型等传统方法,但TimesFM的表现一直表现不佳。 对死亡率数据进行微调CHRONOS显著提高了长期的准确性。 随机森林模型,根据死亡率数据进行训练,取得了最佳的整体表现。 这些发现强调了零镜头预测的潜力,同时强调了仔细模型选择和特定领域适应的必要性。
因果网络提供了一个直观的框架来理解时间序列系统中的影响结构。 然而,周期的存在会模糊动态关系,阻碍分层分析。 这些网络通常通过多变量预测建模进行识别,但执行循环约束显着增加了计算和分析复杂性。 尽管最近取得了进展,但仍然缺乏简单、灵活的方法,很容易根据具体问题实例进行调整。 我们提出了一种拟合鰰次射向自回归过程的进化方法,并引入了一种新的分层表示,直接模拟时间序列系统中的结构元素。 在模拟数据集上,我们的模型保留了无约束模型的大部分预测准确性,并优于基于排列的替代品。 当应用于100个加密货币返回系列的数据集时,我们的方法生成了无约束模型的关键结构属性的鰰�状因果网络。 鰰凿网络是不受约束网络的大约子图,大多数删除的链接来自低影响力节点。 鉴于特征保存的高度,我们得出结论,这种加密货币价格系统在很大程度上是分层的。 我们的发现展示了一种灵活,直观的方法来识别时间序列系统中的分层因果网络,并广泛应用于计量经济学和社交网络分析等领域。
准确可靠的日内电价概率预测对于管理市场不确定性和支持稳健的交易策略至关重要。 然而,当前的方法严重依赖域特征提取,无法捕捉买卖订单之间的动态,限制了形成订单簿丰富表示的能力。 此外,这些方法通常需要为不同的分位数训练单独的模型,并引入额外的程序,例如事后分位数排序或基于损失的处罚,以解决预测的上分位数低于下限的分位数问题。 这些步骤要么与模型训练解耦,要么引入额外的调谐复杂性。 为了应对这些挑战,我们提出了一种名为 OrderFusion 的编码方法,并设计了一个分层多量子化头。 OrderFusion将订单簿编码为2.5D表示,并使用量身定制的跳跃交叉注意力来模拟买卖动态,而无需域特征提取。 中位分位数头锚定和分层通过受限的残差估计其他分位数,确保单调性,无需后处理或附加调优。 我们使用德国和奥地利市场的三年订单数据对三个关键价格指数(ID1,ID2和ID3)进行了广泛的实验和消融研究。 结果表明,我们的方法为概率盘中价格预测提供了准确、可靠和统一的端到端框架。
准确的经济模拟通常需要许多实验运行,特别是当与强化学习相结合时。 不幸的是,在多智能体经济环境中训练强化学习剂可能很慢。 本文介绍了基于AI经济学家的快速模拟经济EconoJax。 EconoJax及其训练管道完全用JAX编写。 这使得EconoJax能够扩展到大人口规模并进行大型实验,同时将训练时间保持在几分钟之内。 通过对100名药剂进行的实验,我们展示了现实世界的经济行为是如何通过15分钟内通过培训出现的,而之前的工作则需要几天时间。 我们还在不同的大小动作空间进行实验,以测试一些多智能方法是否比其他方法产生更多样化的行为。 在这里,我们的发现表明,在早期作品中有时建议的不同方法,产生的行为没有显着差异。 为了帮助进一步研究,我们在Github上开源了EconoJax。
波动性聚类是一个对股票市场模式产生重大影响的关键属性。 尽管如此,开发用于准确预测未来股价波动的稳健模型是一个艰难的研究课题。 为了预测在印度国家股票市场(NSE)上市的三只股票的波动性,我们根据广义的自动回归条件异质性(GARCH),Glosten-Jagannathan-GARCH(GJR-GARCH),指数通用自动回归条件异质性(EGARCH)和LSTM框架提出了多种波动性模型。 在我们的研究中选择了部门明智的股票。 已经考虑的行业是银行,信息技术(IT)和制药。 yahoo金融已用于获取2017年1月至2021年12月的股价数据。 在提取记录中,从2017年1月到2020年12月的数据已被用于培训,并且选择了2021年的数据来测试我们的模型。 通过实施三种不同类型的GARCH模型以及LSTM模型,对预测三个部门股票波动性的表现进行了评估。 据观察,LSTM在预测制药对银行和IT部门的波动性方面表现更好。 同时,也观察到E-GARCH在银行业和IT和制药方面表现更好,GJR-GARCH表现更好。
本文介绍并正式验证了使用精益4定理证明器在N维度中一阶随机支配(FSD)的新几何框架。 传统的多维随机支配分析方法在很大程度上依赖于复杂的测量理论和多变量微积分,为举证助手的形式化创造了重大障碍。 我们的几何方法通过直接比较右上角矫正者的生存概率来表征N维FSD,绕过了复杂融合理论的需要。 我们正式化了关键定义,并证明了传统FSD要求与我们的几何表征之间的等价性。 这种方法实现了更易于处理和直观的正式验证路径,同时保持数学严谨性。 我们展示了这个框架如何直接能够在投资组合选择、风险管理和福利分析中实现多维经济问题的正式分析。 这项工作为进一步发展经济和金融领域的经过验证的决策工具奠定了基础,特别是对于需要严格担保的高风险领域。
本文调查了最近一波企业比特币(BTC)国库策略背景下加密货币与股票市场之间不断发展的联系。 我们收集了39家持有BTC的上市公司的数据集,从第一次收购到2025年4月。 使用每日对数回报,我们首先通过Pearson相关性和单因子模型回归记录显着的正相关运动,发现平均BTC beta为0.62,并隔离了12家公司,包括Strategy(前身为MicroStrategy,MSTR),表现出超过1的beta。 然后,我们将公司分为三组,反映他们对BTC,流动性和回报共同运动的风险敞口。 我们使用传输熵(TE)来捕捉信息流随着时间的推移的方向。 转移熵分析一直将BTC确定为主导信息驱动因素,在重大金融事件期间,股票对BTC进行了简短的公告驱动反馈。 我们的研究结果强调了对动态对冲比率的迫切需要,以适应不断变化的信息流。 这些发现为投资者和经理提供了在数字资产日益融入企业国债的时期风险管理和投资组合多元化的重要见解。
随着大型语言模型(LLM)融入我们的社会和经济互动,我们需要加深对人类如何在战略环境中应对LLM对手的理解。 我们介绍了第一个受控制的货币激励的实验室实验的结果,该实验在针对其他人类和LLM的多人p-beauty竞赛中观察人类行为的差异。 我们使用主题内设计来比较个人层面的行为。 我们表明,在这种环境中,人类受试者在对抗LLM时选择的数字明显低于人类,这主要是由于“零”纳什均衡选择的流行率增加。 这种转变主要是由具有高战略推理能力的主体推动的。 玩零纳什均衡选择的受试者通过吸引LLM的推理能力以及出乎意料的合作倾向来激励他们的策略。 我们的发现为同时选择游戏中的多人人与LLM交互提供了基础见解,揭示了两个主题在对抗LLM时的行为和信念的异质性,并提出了混合人LLM系统中机制设计的重要影响。
金融任务对全球经济稳定至关重要;然而,它们的执行面临着包括劳动密集型流程、低错误容忍度、数据碎片化和工具限制等挑战。 尽管大型语言模型(LLM)在各种自然语言处理任务中取得了成功,并且通过推理和上下文理解在自动化工作流程方面显示出潜力,但目前在财务中评估LLM的基准缺乏足够的特定领域数据,具有简单化的任务设计和不完整的评估框架。 为了解决这些差距,本文介绍了FinMaster,这是一个全面的财务基准,旨在系统地评估LLM在金融知识,会计,审计和咨询方面的能力。 具体来说,FinMaster由三个主要模块组成:i)FinSim,它构建模拟器,为公司复制市场动态生成合成的,符合隐私的金融数据;ii)FinSuite,它提供核心金融领域的任务,跨越183个各种类型的任务和难度级别;和iii)FinEval,开发统一的评估界面。 对最先进的LLM进行了广泛的实验揭示了财务推理中的关键能力差距,从90多个基本任务下降到仅40个这种退化显示了计算错误的传播,其中单指标计算最初展示了58 37个第一个基准,涵盖了具有挑战性任务的全管道财务工作流程。 我们希望FinMaster能够弥合研究和行业从业者之间的差距,推动LLM在现实金融实践中的采用,以提高效率和准确性。
机器学习技术在实际市场中的部署有所增加。 在这项工作中,我们探讨了大型语言模型(LLM)在多商品市场中作为自主代理部署时的战略行为,特别是在Cournot竞争框架中。 我们研究LLM是否可以独立参与反竞争行为,如串通或更具体地说是市场划分。 我们的研究结果表明,LLM可以通过动态调整定价和资源分配策略来有效地垄断特定商品,从而在没有直接的人类投入或明确的串通命令的情况下最大限度地提高盈利能力。 这些结果为希望将人工智能整合到战略角色中的企业以及负责维护公平和竞争市场的监管机构带来了独特的挑战和机遇。 该研究为进一步探索将高风险决策推迟到基于LLM的代理商的后果奠定了基础。
通过分析收益电话会议记录来预测收益意外,引起了金融研究界的日益关注。 电话会议是公司高管、分析师和股东之间的关键沟通渠道,提供有价值的前瞻性信息。 然而,这些成绩单提出了重大的分析挑战,通常包含超过5,000个单词,具有大量的冗余和行业特定的术语,为语言模型创造了障碍。 在这项工作中,我们提出了用于财务代表性增强的Spalse Autoencoder(SAE-FiRE)框架,通过提取关键信息,同时消除冗余来解决这些限制。 SAE-FiRE使用Sarse Autoencoders(SAE)来有效地识别模式并过滤噪音,并专注于捕获具有预测能力的财务信号。 实验结果表明,拟议的方法可以显著优于比较基线。
算法工具越来越多地用于招聘,以提高公平和多样性,通常是通过执行诸如性别平衡的候选人候选名单等限制因素。 然而,我们在理论上和经验上表明,在入围阶段强制执行平等代表权并不一定转化为更多样化的最终招聘,即使在招聘阶段没有性别偏见的情况下。 我们确定了影响这一结果的一个关键因素:算法筛选标准与人类招聘经理的评价标准之间的相关性 - 更高的相关性导致最终招聘的多样性降低。 使用对多家技术公司的近80万份工作申请进行大规模实证分析,我们发现,当算法筛选密切反映招聘经理的偏好时,执行平等的候选名单在招聘多样性方面产生了有限的改进。 我们提出了一个互补的算法方法,明确设计通过选择可能被经理忽视的候选人来多样化,但仍根据其评估标准具有竞争力。 经验模拟表明,这种方法显着增强了最终员工的性别多样性,而不会显着影响招聘质量。 这些发现强调了算法设计选择在实现组织多样性目标方面的重要性,并为实施面向公平的招聘算法的从业者提供了可操作的指导。