AI如何思考经济政策?尽管大型语言模型(LLM)在经济学中的应用呈指数级增长,但它们对经济问题的假设仍然是个黑箱。本文通过联合实验揭示了影响LLM评估经济政策的主要因素。研究发现,LLM对失业、不平等、金融稳定性和环境危害最为敏感,而对经济增长、通货膨胀和政府债务等传统宏观经济问题的敏感度较低。这些结果在不同场景和不同模型之间表现出显著的一致性。
图形神经网络(GNN)在广泛的图形相关任务中取得了出色的表现。 然而,它们的“黑匣子”性质对其可解释性提出了重大挑战,现有方法往往无法有效地捕捉网络内节点之间错综复杂的交互模式。 在这项工作中,我们提出了一种新的可解释性框架,GraphEXT,它利用合作博弈论和社会外部性的概念。 GraphEXT 将图形节点分割成联盟,将原始图形分解为独立的子图形。 通过将图形结构集成为外部性,并在外部性下整合Shapley值,GraphEXT通过在联盟之间节点过渡时对GNN预测的边际贡献来量化节点的重要性。 与主要关注节点属性的传统基于 Shapley 值的方法不同,我们的 GraphEXT 更加强调节点之间的交互以及结构变化对 GNN 预测的影响。 对合成和真实世界数据集的实验研究表明,GraphEXT在不同GNN架构的保真度方面优于现有的基线方法,显着增强了GNN模型的解释性。
虽然最近的研究表明,人工智能路线优化系统使出租车司机的生产率提高了14%,但这项研究表明,这些发现只捕获了人工智能在交通方面潜力的一小部分。 我们研究了将深度学习气象预测与机器学习定位优化相结合的综合天气感知AI系统,将其性能与传统操作和仅限路由的AI方法进行比较。 利用来自不同天气条件下的10,000辆出租车操作的模拟数据,我们发现天气感知的人工智能系统使驾驶员收入增长了107.3%,而仅从路线优化就提高了14%。 天气预报贡献了最大的个人生产力增长,气象条件和需求之间有很强的相关性(r=0.575)。 经济分析显示,每个司机的年收入增长了1380万日元,快速回报期和更高的投资回报。 这些发现表明,目前的人工智能文献通过狭隘地关注路由算法,大大低估了人工智能的变革潜力,而天气智能代表了未开发的89亿美元的市场机会。 我们的结果表明,未来的人工智能实施应该采用全面的方法,同时应对多个操作挑战,而不是优化孤立的功能。
强化学习(RL)应用于经济建模揭示了均衡理论的假设与学习代理的新兴行为之间的根本冲突。 虽然规范经济模型假定原子化剂充当了总市场条件的“接受者”,但天真的单剂RL模拟激励该药剂成为其环境的“操纵者”。 本文首先在具有凹凸生产的搜索和匹配模型中展示了这种差异,表明标准的RL代理学习了非平衡,单音策略。 此外,我们确定了经济折扣与RL处理时间间成本之间的不匹配引起的参数偏差。 为了解决这两个问题,我们提出了一个校准的平均场加固学习框架,该框架将代表性代理嵌入到固定的宏观经济领域,并调整成本功能以反映经济机会成本。 我们的迭代算法收敛到自洽的固定点,其中代理的策略与竞争均衡一致。 这种方法为计算社会科学更广泛领域的经济系统中的建模学习代理提供了一种可处理和理论上合理的方法。
本文提出了使用多目标线性和非线性受限优化技术优化电子设计中电容器选择的新框架。 我们展示了这种方法在最小化成本和电路板领域的有效性,同时满足关键性能要求。
图形神经网络(GNN)在广泛的图形相关任务中取得了出色的表现。 然而,它们的“黑匣子”性质对其可解释性提出了重大挑战,现有方法往往无法有效地捕捉网络内节点之间错综复杂的交互模式。 在这项工作中,我们提出了一种新的可解释性框架,GraphEXT,它利用合作博弈论和社会外部性的概念。 GraphEXT 将图形节点分割成联盟,将原始图形分解为独立的子图形。 通过将图形结构集成为外部性,并在外部性下整合Shapley值,GraphEXT通过在联盟之间节点过渡时对GNN预测的边际贡献来量化节点的重要性。 与主要关注节点属性的传统基于 Shapley 值的方法不同,我们的 GraphEXT 更加强调节点之间的交互以及结构变化对 GNN 预测的影响。 对合成和真实世界数据集的实验研究表明,GraphEXT在不同GNN架构的保真度方面优于现有的基线方法,显着增强了GNN模型的解释性。
虽然最近的研究表明,人工智能路线优化系统使出租车司机的生产率提高了14%,但这项研究表明,这些发现只捕获了人工智能在交通方面潜力的一小部分。 我们研究了将深度学习气象预测与机器学习定位优化相结合的综合天气感知AI系统,将其性能与传统操作和仅限路由的AI方法进行比较。 利用来自不同天气条件下的10,000辆出租车操作的模拟数据,我们发现天气感知的人工智能系统使驾驶员收入增长了107.3%,而仅从路线优化就提高了14%。 天气预报贡献了最大的个人生产力增长,气象条件和需求之间有很强的相关性(r=0.575)。 经济分析显示,每个司机的年收入增长了1380万日元,快速回报期和更高的投资回报。 这些发现表明,目前的人工智能文献通过狭隘地关注路由算法,大大低估了人工智能的变革潜力,而天气智能代表了未开发的89亿美元的市场机会。 我们的结果表明,未来的人工智能实施应该采用全面的方法,同时应对多个操作挑战,而不是优化孤立的功能。
强化学习(RL)应用于经济建模揭示了均衡理论的假设与学习代理的新兴行为之间的根本冲突。 虽然规范经济模型假定原子化剂充当了总市场条件的“接受者”,但天真的单剂RL模拟激励该药剂成为其环境的“操纵者”。 本文首先在具有凹凸生产的搜索和匹配模型中展示了这种差异,表明标准的RL代理学习了非平衡,单音策略。 此外,我们确定了经济折扣与RL处理时间间成本之间的不匹配引起的参数偏差。 为了解决这两个问题,我们提出了一个校准的平均场加固学习框架,该框架将代表性代理嵌入到固定的宏观经济领域,并调整成本功能以反映经济机会成本。 我们的迭代算法收敛到自洽的固定点,其中代理的策略与竞争均衡一致。 这种方法为计算社会科学更广泛领域的经济系统中的建模学习代理提供了一种可处理和理论上合理的方法。
我们使用具有随机任务的学科内设计来了解使用AI检索增强生成(RAG)工具的有效性,以帮助分析师完成信息提取和数据注释任务。 我们复制了一个现有的、具有挑战性的现实世界注释任务,在一组数千页的公开披露文件上,从具有异构和不完整的信息内容的全球系统重要性银行(GSIB)的一组数千页的公开披露文件。 我们测试两种治疗条件。 首先,一个“天真”的AI使用条件,其中注释者只使用工具,并且必须接受他们给出的第一个答案。 第二,一个“交互式”的AI治疗条件,注释者交互式地使用该工具,并在必要时使用他们的判断来跟进其他信息。 与仅限人类基线相比,AI工具的使用将任务执行速度提高了10倍,并提高了任务准确性,特别是在交互条件下。 我们发现,当推断到全部任务时,与仅限人类的方法相比,这些方法可以节省长达268小时。 此外,我们的研究结果表明,注释器技能,不仅与主题领域,而且与人工智能工具,是任务性能的准确性和速度的一个因素。
了解大型语言模型(LLM)代理在战略互动中的表现至关重要,因为这些系统越来越多地自主参与经济和道德上相应的决策。 我们使用规范的经济游戏评估LLM偏好,发现与人类行为的重大偏差。 像GPT-4o这样的模型表现出过度的合作和有限的激励敏感性,而推理模型,如o3-mini,与回报最大化策略更一致。 我们提出了一个监督的微调管道,它使用来自经济推理的合成数据集,使LLM代理与经济偏好保持一致,专注于两个程式化的偏好结构。 在第一个,效用只取决于个人回报(homo economicus),而效用也依赖于第二优先结构(homo morals)中的康德普遍化的概念。 我们发现基于小数据集的微调将LLM代理行为转移到相应的经济代理。 我们进一步评估微调代理商在两个应用中的行为:涉及自动驾驶汽车的道德困境和竞争市场中的算法定价。 这些例子说明了通过实现结构化偏好结构所嵌入的不同规范目标如何影响市场和道德结果。 这项工作有助于一个可复制的,具有成本效益的和经济基础的管道,以使用道德经济原则来调整AI偏好。
全球供应链的规模和复杂性日益扩大,导致各个领域面临新的挑战,例如由于港口的等候线长、材料短缺和通货膨胀导致的供应链中断。 再加上供应链的规模和大量数据的可用性,应对这些挑战的努力导致人们对将机器学习方法应用于供应链的许多方面的兴趣越来越大。 与其他解决方案不同,ML技术,包括Random Forest,XGBoost,LightGBM和神经网络,可以更快地做出预测和近似最优解决方案。 本文介绍了一个自动化的ML框架,通过检测欺诈活动,预测维护需求和预测材料回单来增强供应链安全。 使用大小不同的数据集,结果表明欺诈检测实现了88
由大型语言模型(LLM)驱动的机器有可能在各种任务中增强人类,这一发展对商业环境产生了深远的影响,在这些商业环境中,有效的沟通,协作和利益相关者信任至关重要。 为了探索如何与LLM而不是人类在这样的环境中改变合作行为,我们使用了囚徒的困境游戏 - 几个现实世界的管理和经济场景的代理。 在实验1(N=100)中,参与者进行了三十轮重复游戏,对抗人类,经典机器人和LLM(GPT,实时)。 在实验2(N=192)中,参与者对人类或LLM进行了单枪游戏,其中一半允许与对手进行通信,使LLM能够利用比老一代机器的关键优势。 与LLM的合作率 - 虽然与与人类对手的互动相比降低了约10-15个百分点 - 尽管如此仍然很高。 这一发现在实验2中特别引人注目,其中自私行为的心理成本降低。 虽然允许关于合作的沟通并没有缩小人机行为差距,但它增加了与人类和LLM平等合作的可能性(88
人们在做决定时越来越依赖AI建议。 有时,这样的建议可以促进自私的行为。 当个人遵守促进自私的人工智能建议时,他们是如何感知和惩罚的? 为了研究这个问题,我们以社会心理学的理论为基础,将机器行为和行为经济方法结合起来。 在预先注册的、财务激励的实验中,评估人员可以惩罚真正的决策者,他们(i)接受了人工智能、人类或没有建议。 建议(ii)鼓励自私或亲社会行为,决策者(iii)自私地行事,或者在控制条件下,表现得亲社会。 评估人员进一步将责任分配给决策者及其顾问。 结果显示,(i)亲社会行为受到的惩罚很少,而自私的行为受到的惩罚要高得多。 专注于自私的行为,(二)与没有接受建议相比,自私的行为在亲社会建议后受到更严厉的惩罚,在自私的建议之后更宽松地受到惩罚。 最后,(三)虽然自私的决策者在遵循人工智能时被认为比人类的建议更负责任,但两个建议来源之间的惩罚并不不同。 总的来说,行为和建议内容会形成惩罚,而建议来源则没有。
我们使用多类机器学习分类器来识别表现优于或表现不佳的其他股票。 由此产生的长空投资组合实现了每年夏普比率1.67(价值加权)和3.35(同等加权),年度阿尔法值从29%到48%不等。 这些结果在控制机器学习回归后持续存在,并且在大盘股中保持强劲。 用预测的概率来衡量机器的不确定性会损害预测性能。 具有较高机器不确定性的股票获得较低的回报,特别是当人类信息不确定性的代理与机器不确定性一致时。 与文献一致,这种效应是由过去的表现不佳者驱动的。
本文提出了使用多目标线性和非线性受限优化技术优化电子设计中电容器选择的新框架。 我们展示了这种方法在最小化成本和电路板领域的有效性,同时满足关键性能要求。
AI如何思考经济政策?尽管大型语言模型(LLM)在经济学中的应用呈指数级增长,但它们对经济问题的假设仍然是个黑箱。本文通过联合实验揭示了影响LLM评估经济政策的主要因素。研究发现,LLM对失业、不平等、金融稳定性和环境危害最为敏感,而对经济增长、通货膨胀和政府债务等传统宏观经济问题的敏感度较低。这些结果在不同场景和不同模型之间表现出显著的一致性。
共享移动服务(SMS),例如,需求响应式运输或乘车共享,可以改善低密度地区的移动性,而传统公共交通(PT)通常服务不足。 这种改善通常通过基本绩效指标来衡量,例如等待或旅行时间。 然而,这些基本指标并没有说明短信可以为领土提供的最重要贡献,即增加用户获得周围机会的潜力,如工作、学校、企业等。 这种潜力可以通过基于异构体的可及性指标来衡量,该指标计算了在有限的时间内可达到的机会数量,因此公众很容易理解。 已经对短信对可获取性的潜在影响进行了定性讨论,并对公平性的影响进行了实证研究。 然而,到目前为止,还没有定量方法来计算通过短信实现的基于异色酮的指标。 这项工作填补了这一空白,提出了第一种方法来计算由传统PT和SMS组成的PT系统的异构体可访问性,作为访问和进出PT集线器的支线。 该方法基于通过Kriging进行的空间-时间统计分析。 它作为输入观察到的短信旅行,并在图表中总结它们。 在这样的图中,计算异构体可访问性指标。 我们将建议的方法应用于巴黎 - 萨克莱郊区关于需求响应运输的MATSim模拟研究。
在本文中,我们探讨了大型语言模型(LLM)如何通过系统地比较它们与全球人类参与者的反应来处理财务决策。 我们向七种领先的LLM提出了一组常用的财务决策问题,包括GPT系列(GPT-4o,GPT-4.5,o1,o3-mini),Gemini 2.0 Flash和DeepSeek R1的五种型号。 然后,我们将它们的输出与来自涵盖53个国家的数据集的人类响应进行比较。 我们的分析揭示了三个主要结果。 首先,LLM通常表现出风险中立的决策模式,在面对彩票类型的问题时,倾向于与预期价值计算一致的选择。 其次,在评估当前和未来之间的权衡时,LLM偶尔会产生与规范推理不一致的反应。 第三,当我们研究跨国相似性时,我们发现LLM的总体反应与来自坦桑尼亚的参与者的反应最为相似。 这些发现有助于理解LLM如何模仿类人的决策行为,并突出其产出中潜在的文化和培训影响。
本文概述了一种激励驱动和分散的方法,以大规模验证数字内容的真实性。 广泛的错误信息,人工智能生成内容的爆炸式增长以及对传统新闻来源的依赖,需要一种新的内容真实性和真相探索方法,以适应现代的数字世界。 通过使用智能合约和数字身份将“信任”纳入发布内容的奖励功能,而不仅仅是参与,我们认为,通过基于社区的治理模式,可以促进自我推动的范式转变,以打击错误信息。 本文中描述的方法要求内容创作者在事实索赔中持有财务抵押品,要求公正的陪审团审查捐款的财务奖励。 我们假设,通过正确的财务和社会激励模式,用户将积极参与众包事实检查,内容创作者将更多地关注他们的证明。 这是一篇探索性文件,有许多悬而未决的问题和问题值得进一步分析和探索。
投资放牧,一种家庭模仿他人决定而不是依靠自己的分析的现象,对金融市场和家庭行为产生了重大影响。 过度的投资放牧可能会减少投资,导致家庭消费的枯竭,这被称为挤出效应。 虽然现有的研究已经对投资放牧对消费的影响进行了定性研究,但该领域的定量研究仍然有限。 在这项工作中,我们调查了投资放牧影响下家庭的最佳投资和消费决策。 我们制定了一个优化问题,以模拟投资放牧如何影响家庭决策。 基于最优的控制理论,我们解决最优投资和消费决策的分析解决方案。 我们从理论上分析投资放牧对家庭消费决策的影响,并证明挤出效应的存在。 我们进一步探索利率、超额收益率和波动性等参数如何影响挤出效应。 最后,我们进行真正的数据测试,以验证我们对挤出效应的理论分析。 这项研究对于理解投资放牧对家庭消费的影响至关重要,并为寻求刺激消费和减轻投资放牧对经济增长的负面影响的政策制定者提供了有价值的见解。
随着数字支付技术的进步,全球各国央行越来越多地开始探索实施央行数字货币(CBDC)。 本文全面回顾了CBDC系统设计和实施的最新发展。 通过分析2018年至2025年间发表的135篇研究论文,该研究对CBDC设计分类和生态系统框架进行了深入研究。 该论文以CBDC设计金字塔为基础,通过彻底调查分类账技术的创新,选择共识机制以及与离线支付和数字钱包集成相关的挑战,完善并扩展了关键的建筑元素。 此外,它概念化了CBDC生态系统。 对26个现有的CBDC系统进行了详细的比较分析,分为四个维度:系统架构、分类账技术、访问模型和应用领域。 调查结果显示,最常见的配置包括双层架构、分布式账本技术(DLT)和基于令牌的访问模型。 然而,在应用领域没有出现主导趋势。 值得注意的是,最近的研究表明,人们越来越关注利用CBDC进行跨境支付,以解决当前系统中的低效和结构性延误。 最后,本文为未来的研究提供了几个前瞻性的建议。
背景:通过机器学习预测创业成功是一个快速增长的领域,但对关键预测因素的发现往往是分散的和特定于上下文的。 这使得很难辨别出稳健的模式,并强调需要系统地综合证据。 方法:本研究进行定量荟萃分析,以综合基于AI的启动评估中关于预测重要性的文献。 我们进行了系统审查,以确定13项实证研究的最终样本,这些实证研究报告了具有可排名特征的重要性。 从这些论文中,我们提取并分类了58个独特的预测因子,使用加权重要性分数(WIS)来合成它们的重要性,该分数平衡了特征的平均排名与其外观频率。 我们还进行了主持人分析,以调查预测因素的重要性如何随着上下文的变化而变化(例如,成功定义)。 结果:我们的汇总分析表明,最一致的强预测因素是基础属性的四重奏:公司特征(例如,年龄,位置),投资者结构(例如,投资者质量),数字和社会牵引(例如,在线动力)和融资历史。 主持人的分析进一步揭示了这种层次结构高度依赖上下文。 例如,预测近期融资里程碑会提升交易眼前环境的重要性,同时预测长期退出优先考虑基本面的公司和投资者特征。 结论:最能预测创业成功的因素不是普遍的,而取决于创业公司的目标、阶段和用于评估的数据。 我们的发现指出文献中潜在的“便利性偏见”,其中预测值可能与数据可访问性有关。 最后,我们强调需要标准化的报告做法,以便在实地建立更健全、更累积的知识。
潘多拉的盒子问题(魏茨曼1979)是经济理论的核心模型,它捕获了代理人(潘多拉)寻找最佳替代品(盒子)。 我们研究这个问题的一个重要概括,即代理人可以完全打开盒子,收取一定的费用,以显示其确切价值,或者以较低的成本部分打开它们。 这引入了信息获取和成本效率之间的新权衡。 我们建立了硬度结果,并采用一系列技术进行随机优化,以对此模型进行全面分析。 这包括(1)确定最优策略的结构属性,提供有关最优决策的见解;(2)问题松弛的推导和可证明的近乎最优的解决方案;(3)在特殊但非平凡的情况下对最优策略的表征;(4)一项广泛的数值研究,比较各种政策的表现,并提供有关最优政策的额外见解。 在整个过程中,我们展示了基于阈值的直观策略,扩展Pandora的框最佳解决方案可以有效地指导搜索决策。
这项研究调查了大型语言模型(LLM)在根据工作描述筛选简历时是否表现出一致的行为(信号)或随机变化(噪声),以及它们的表现与人类专家相比如何。 使用受控数据集,我们跨上下文(No Company, Firm1 [MNC], Firm2 [Startup], Reduced Context)测试了三个LLM(Claude,GPT和Gemini),这些LLM(Claude,GPT和Gemini)具有相同和随机的简历,以三个人类招聘专家为基准测试。 对差异的分析发现,8个LLM条件中有四个存在显著的平均差异,LLM与人类评价之间一直存在显著差异(p < 0.01)。 配对测试显示GPT强烈适应公司环境(p < 0.001),双子座部分(P = 0.038 for Firm1)和Claude minimally(p > 0.1),而所有LLM都与人类专家不同。 元认知分析强调了适应性加权模式,这些模式与人类评估方法明显不同。 研究结果表明,LLM提供了可解释的模式,并提供了详细的提示,但与人类的判断有很大差异,告知他们在自动化招聘系统中的部署。
本文介绍了一种新的达尔文代理模型(ABM)方法论宏观经济预测,利用进化原理来实现显着的计算效率和新兴的现实主义。 与依赖大型公司分析的复杂行为规则的传统DSGE和ABM方法不同,我们的框架采用了简单的“常识”规则,代表直接服务于最终消费者的小公司。 主题病学将家庭视为经济动态的主要驱动因素,企业在有限的互动社区中通过基于市场的自然选择进行调整。 我们证明,这种方法在受到投入产出表结构的限制时,会产生现实的经济模式,包括财富分配、公司规模分布和部门就业模式,而无需广泛的参数校准。 使用46个国家的FIGARO输入输出表,并将奥地利作为案例研究,我们表明模型再现了经验规律,同时保持标准笔记本电脑的计算效率,而不是要求超级计算集群。 主要发现包括:(1)从最小行为假设中出现现实的公司和就业分布,(2)通过进化动力学准确再现初始社会会计矩阵值,(3)仅使用5-6个国别参数来成功校准以补充FIGARO数据,(4)计算性能使消费硬件能够完全模拟。 这些结果表明,进化的ABM方法可以通过捕获分散的市场适应来提供强大的政策见解,同时避免传统DSGE和综合ABM模型的计算复杂性。