AI如何思考经济政策?尽管大型语言模型(LLM)在经济学中的应用呈指数级增长,但它们对经济问题的假设仍然是个黑箱。本文通过联合实验揭示了影响LLM评估经济政策的主要因素。研究发现,LLM对失业、不平等、金融稳定性和环境危害最为敏感,而对经济增长、通货膨胀和政府债务等传统宏观经济问题的敏感度较低。这些结果在不同场景和不同模型之间表现出显著的一致性。
本文介绍了使用随机结构的储罐计算机(SSRC)识别和模拟金融和经济系统的方法。 拟议的框架利用结构保护嵌入和图知情耦合矩阵来建模代理间动力学,增强可解释性。 受限优化方案可确保学习模型满足随机和结构约束。 两个实证案例研究,代理之间的资源竞争的动态行为模型,以及区域通货膨胀网络动态,说明了该方法在捕获和预测复杂的非线性模式以及在不确定性下进行可解释的可解释性分析的有效性。
图形神经网络(GNN)在广泛的图形相关任务中取得了出色的表现。 然而,它们的“黑匣子”性质对其可解释性提出了重大挑战,现有方法往往无法有效地捕捉网络内节点之间错综复杂的交互模式。 在这项工作中,我们提出了一种新的可解释性框架,GraphEXT,它利用合作博弈论和社会外部性的概念。 GraphEXT 将图形节点分割成联盟,将原始图形分解为独立的子图形。 通过将图形结构集成为外部性,并在外部性下整合Shapley值,GraphEXT通过在联盟之间节点过渡时对GNN预测的边际贡献来量化节点的重要性。 与主要关注节点属性的传统基于 Shapley 值的方法不同,我们的 GraphEXT 更加强调节点之间的交互以及结构变化对 GNN 预测的影响。 对合成和真实世界数据集的实验研究表明,GraphEXT在不同GNN架构的保真度方面优于现有的基线方法,显着增强了GNN模型的解释性。
网络拍卖中的战略证明要求竞标者不仅如实报告其估值,而且还尽最大努力邀请来自社交网络的邻居。 与规范拍卖相反,在 Myerson 的 Lemma 中的价值货币分配是一个基石,但战略网络拍卖的分配规则的一般原则仍然缺失。 我们表明,由于缺乏这样的原则,即使是单单位需求的多单元网络拍卖的扩展也带来了意想不到的困难,所有开创性的研究都未能证明战略。 在这个领域,我们首次确定了两类关于网络的单调分配规则:邀请-抑郁单调性(ID-MON)和邀请-促进单调性(IP-MON)。 它们包括网络拍卖的所有现有分配规则作为特定实例。 对于任何给定的ID-MON或IP-MON分配规则,我们描述了策略性支付规则的存在和充分条件,并表明在所有此类支付规则中,收入最大化规则存在并且计算可行。 有了这些结果,现在解决了与一心一意的竞标者进行组合网络拍卖的障碍。
在销售一种或多种商品的设定中,已有各种论文以不同形式和目的表明,买家估值分布的微小变化可能只会导致可提取收入的微小变化。我们为此证明了一个简单、清晰、方便且通用的陈述:设X和Y为k种可加性商品的随机估值,W(X,Y)为它们之间的Wasserstein距离(或称"推土机距离");则有√Rev(X)-√Rev(Y) ≤ √W(X,Y)。这进一步意味着,对X的任何最优机制进行简单的显式修改(即"统一折扣"),可以保证对于任何在Wasserstein距离上与X接近的Y都几乎是最优的。
本文介绍了使用随机结构的储罐计算机(SSRC)识别和模拟金融和经济系统的方法。 拟议的框架利用结构保护嵌入和图知情耦合矩阵来建模代理间动力学,增强可解释性。 受限优化方案可确保学习模型满足随机和结构约束。 两个实证案例研究,代理之间的资源竞争的动态行为模型,以及区域通货膨胀网络动态,说明了该方法在捕获和预测复杂的非线性模式以及在不确定性下进行可解释的可解释性分析的有效性。
图形神经网络(GNN)在广泛的图形相关任务中取得了出色的表现。 然而,它们的“黑匣子”性质对其可解释性提出了重大挑战,现有方法往往无法有效地捕捉网络内节点之间错综复杂的交互模式。 在这项工作中,我们提出了一种新的可解释性框架,GraphEXT,它利用合作博弈论和社会外部性的概念。 GraphEXT 将图形节点分割成联盟,将原始图形分解为独立的子图形。 通过将图形结构集成为外部性,并在外部性下整合Shapley值,GraphEXT通过在联盟之间节点过渡时对GNN预测的边际贡献来量化节点的重要性。 与主要关注节点属性的传统基于 Shapley 值的方法不同,我们的 GraphEXT 更加强调节点之间的交互以及结构变化对 GNN 预测的影响。 对合成和真实世界数据集的实验研究表明,GraphEXT在不同GNN架构的保真度方面优于现有的基线方法,显着增强了GNN模型的解释性。
虽然最近的研究表明,人工智能路线优化系统使出租车司机的生产率提高了14%,但这项研究表明,这些发现只捕获了人工智能在交通方面潜力的一小部分。 我们研究了将深度学习气象预测与机器学习定位优化相结合的综合天气感知AI系统,将其性能与传统操作和仅限路由的AI方法进行比较。 利用来自不同天气条件下的10,000辆出租车操作的模拟数据,我们发现天气感知的人工智能系统使驾驶员收入增长了107.3%,而仅从路线优化就提高了14%。 天气预报贡献了最大的个人生产力增长,气象条件和需求之间有很强的相关性(r=0.575)。 经济分析显示,每个司机的年收入增长了1380万日元,快速回报期和更高的投资回报。 这些发现表明,目前的人工智能文献通过狭隘地关注路由算法,大大低估了人工智能的变革潜力,而天气智能代表了未开发的89亿美元的市场机会。 我们的结果表明,未来的人工智能实施应该采用全面的方法,同时应对多个操作挑战,而不是优化孤立的功能。
我们提出了从选择和响应时间数据中恢复偏好参数的一般方法。 我们的方法在专用于流行的漂移扩散模型(DDM)时产生快速(1/n为n n数据点)收敛率的估计,但广泛适用于DDM的泛化以及使用响应时间数据的替代决策模型。 本文为时间间选择实验开发了一个经验应用,表明响应时间的使用提供了预测的准确性,并且对于估计经济相关的参数很重要。
强化学习(RL)应用于经济建模揭示了均衡理论的假设与学习代理的新兴行为之间的根本冲突。 虽然规范经济模型假定原子化剂充当了总市场条件的“接受者”,但天真的单剂RL模拟激励该药剂成为其环境的“操纵者”。 本文首先在具有凹凸生产的搜索和匹配模型中展示了这种差异,表明标准的RL代理学习了非平衡,单音策略。 此外,我们确定了经济折扣与RL处理时间间成本之间的不匹配引起的参数偏差。 为了解决这两个问题,我们提出了一个校准的平均场加固学习框架,该框架将代表性代理嵌入到固定的宏观经济领域,并调整成本功能以反映经济机会成本。 我们的迭代算法收敛到自洽的固定点,其中代理的策略与竞争均衡一致。 这种方法为计算社会科学更广泛领域的经济系统中的建模学习代理提供了一种可处理和理论上合理的方法。
我们使用具有随机任务的学科内设计来了解使用AI检索增强生成(RAG)工具的有效性,以帮助分析师完成信息提取和数据注释任务。 我们复制了一个现有的、具有挑战性的现实世界注释任务,在一组数千页的公开披露文件上,从具有异构和不完整的信息内容的全球系统重要性银行(GSIB)的一组数千页的公开披露文件。 我们测试两种治疗条件。 首先,一个“天真”的AI使用条件,其中注释者只使用工具,并且必须接受他们给出的第一个答案。 第二,一个“交互式”的AI治疗条件,注释者交互式地使用该工具,并在必要时使用他们的判断来跟进其他信息。 与仅限人类基线相比,AI工具的使用将任务执行速度提高了10倍,并提高了任务准确性,特别是在交互条件下。 我们发现,当推断到全部任务时,与仅限人类的方法相比,这些方法可以节省长达268小时。 此外,我们的研究结果表明,注释器技能,不仅与主题领域,而且与人工智能工具,是任务性能的准确性和速度的一个因素。
拍卖是在各个市场广泛实施的重要机制,例如搜索引擎的关键字拍卖,古董拍卖等。 由于信息不完善、激励兼容性(IC)和个人合理性(IR)的限制,寻找最佳的拍卖机制是极其困难的。 除了传统的经济方法外,一些人最近还试图使用深度学习方法找到最佳的(单次)拍卖。 与那些专注于单一拍卖的尝试不同,我们开发双拍卖的深度学习方法,其中需求和供应方面都存在不完美的信息。 以前对单一拍卖的尝试不能直接适用于我们的背景,这些尝试还受到有限的可推广性,确保约束的效率低下和学习波动的影响。 我们在设计深度学习模型以解决更复杂的问题方面进行了创新,并解决了前几个模型的三个限制。 具体来说,我们通过利用基于变压器的架构将市场参与者建模为不同市场规模的序列来实现可推广性;我们利用约束值的数字特征并预先处理它们以获得更高的学习效率;我们开发梯度冲突消除方案来解决学习波动问题。 广泛的实验评估证明了我们对经典和机器学习基线方法的优越性。
了解大型语言模型(LLM)代理在战略互动中的表现至关重要,因为这些系统越来越多地自主参与经济和道德上相应的决策。 我们使用规范的经济游戏评估LLM偏好,发现与人类行为的重大偏差。 像GPT-4o这样的模型表现出过度的合作和有限的激励敏感性,而推理模型,如o3-mini,与回报最大化策略更一致。 我们提出了一个监督的微调管道,它使用来自经济推理的合成数据集,使LLM代理与经济偏好保持一致,专注于两个程式化的偏好结构。 在第一个,效用只取决于个人回报(homo economicus),而效用也依赖于第二优先结构(homo morals)中的康德普遍化的概念。 我们发现基于小数据集的微调将LLM代理行为转移到相应的经济代理。 我们进一步评估微调代理商在两个应用中的行为:涉及自动驾驶汽车的道德困境和竞争市场中的算法定价。 这些例子说明了通过实现结构化偏好结构所嵌入的不同规范目标如何影响市场和道德结果。 这项工作有助于一个可复制的,具有成本效益的和经济基础的管道,以使用道德经济原则来调整AI偏好。
全球供应链的规模和复杂性日益扩大,导致各个领域面临新的挑战,例如由于港口的等候线长、材料短缺和通货膨胀导致的供应链中断。 再加上供应链的规模和大量数据的可用性,应对这些挑战的努力导致人们对将机器学习方法应用于供应链的许多方面的兴趣越来越大。 与其他解决方案不同,ML技术,包括Random Forest,XGBoost,LightGBM和神经网络,可以更快地做出预测和近似最优解决方案。 本文介绍了一个自动化的ML框架,通过检测欺诈活动,预测维护需求和预测材料回单来增强供应链安全。 使用大小不同的数据集,结果表明欺诈检测实现了88
由大型语言模型(LLM)驱动的机器有可能在各种任务中增强人类,这一发展对商业环境产生了深远的影响,在这些商业环境中,有效的沟通,协作和利益相关者信任至关重要。 为了探索如何与LLM而不是人类在这样的环境中改变合作行为,我们使用了囚徒的困境游戏 - 几个现实世界的管理和经济场景的代理。 在实验1(N=100)中,参与者进行了三十轮重复游戏,对抗人类,经典机器人和LLM(GPT,实时)。 在实验2(N=192)中,参与者对人类或LLM进行了单枪游戏,其中一半允许与对手进行通信,使LLM能够利用比老一代机器的关键优势。 与LLM的合作率 - 虽然与与人类对手的互动相比降低了约10-15个百分点 - 尽管如此仍然很高。 这一发现在实验2中特别引人注目,其中自私行为的心理成本降低。 虽然允许关于合作的沟通并没有缩小人机行为差距,但它增加了与人类和LLM平等合作的可能性(88
人们在做决定时越来越依赖AI建议。 有时,这样的建议可以促进自私的行为。 当个人遵守促进自私的人工智能建议时,他们是如何感知和惩罚的? 为了研究这个问题,我们以社会心理学的理论为基础,将机器行为和行为经济方法结合起来。 在预先注册的、财务激励的实验中,评估人员可以惩罚真正的决策者,他们(i)接受了人工智能、人类或没有建议。 建议(ii)鼓励自私或亲社会行为,决策者(iii)自私地行事,或者在控制条件下,表现得亲社会。 评估人员进一步将责任分配给决策者及其顾问。 结果显示,(i)亲社会行为受到的惩罚很少,而自私的行为受到的惩罚要高得多。 专注于自私的行为,(二)与没有接受建议相比,自私的行为在亲社会建议后受到更严厉的惩罚,在自私的建议之后更宽松地受到惩罚。 最后,(三)虽然自私的决策者在遵循人工智能时被认为比人类的建议更负责任,但两个建议来源之间的惩罚并不不同。 总的来说,行为和建议内容会形成惩罚,而建议来源则没有。
参与激励是一个众所周知的问题,抑制医学中的随机对照试验(RCT),以及在线平台中用户对RCTs不满的潜在原因。 我们将这个问题定义为非标准的探索探索权衡:RCT希望尽可能均匀地探索,而每个“代理”(患者或用户)更喜欢“开发”,即看起来最好的治疗方法。 我们通过利用试验和代理人之间的信息不对称来激励参与。 我们通过对抗性结果下的最坏情况估计误差来测量统计性能,这是RCT的标准目标。 就这一目标而言,我们获得了一个近乎最优的解决方案:具有特定保证的激励兼容机制,以及任何激励兼容机制的几乎匹配的不可能结果。 我们考虑三种模型变体:同质化剂(包括信念和偏好的相同“类型”),异质代理,以及利用估计类型频率以减轻罕见但困难的代理类型的影响的扩展。
这项工作引入了一个统一的框架,用于更详细地探索游戏。 在现有的文献中,玩家的策略通常被分配标量值,而纳什均衡的概念用于识别兼容的策略。 然而,这种方法缺乏玩家的内部结构,因此无法准确建模观察到的行为。 为了解决这个限制,我们提出了一个抽象的玩家定义。 这允许对玩家进行更细致的理解,并将焦点引入学习玩家面临的挑战。 与马尔可夫决策过程不同,马尔可夫决策过程将控制问题正规化,但不是代理设计,我们的框架包含标准的强化学习结构。 因此,它提供了一种语言,使游戏和学习之间能够更深层次的联系。 为了说明这种通用性的必要性,我们研究了一个简单的双人游戏,并表明即使在最基本的设置中,一个复杂的玩家也可能采用动态策略,仅靠简单的设计或兼容性分析无法捕捉到。 在离散设置中,我们考虑一个参与者,其结构包含文献中的标准估计。 我们探索与相关均衡的联系,并强调动态编程自然适用于所有估计。 在均场设置中,我们利用对称来构造 equilibria 的显式示例。 最后,我们研究与强化学习和土匪问题的联系,证明了框架的广泛适用性。
我们使用多类机器学习分类器来识别表现优于或表现不佳的其他股票。 由此产生的长空投资组合实现了每年夏普比率1.67(价值加权)和3.35(同等加权),年度阿尔法值从29%到48%不等。 这些结果在控制机器学习回归后持续存在,并且在大盘股中保持强劲。 用预测的概率来衡量机器的不确定性会损害预测性能。 具有较高机器不确定性的股票获得较低的回报,特别是当人类信息不确定性的代理与机器不确定性一致时。 与文献一致,这种效应是由过去的表现不佳者驱动的。
我们提出了一种新的方法来识别和估计矩阵时间序列的CP因子模型。 与Chang等人的广义特征分析方法不同。 (2023)相关估算器的收敛率可能遭受小特征间隙,因为渐近理论基于一些矩阵扰动分析,因此拟议的新方法享有更快的收敛率,不受任何特征间隙的影响。 它通过将问题变成几个矩阵的联合对角化来实现这一点,其元素由线性系统的基础决定,并通过仔细选择基础以避免接近共线性度(见命题5和第4.3节)。 此外,与Chang等人不同。 (2023年)要求两个因素加载矩阵为全排名,建议的新方法可以处理排名不足的因子加载矩阵。 模拟和真实矩阵时间序列数据的插图显示了拟议的新方法的优点。
我们展示了2010年美国的个人机密微数据记录。 人口和住房普查可以从已公布的表格摘要中准确重建。 九七十万人记录(70个居民中的每个居民)
大型语言模型(LLM)被广泛用于支持不同学科的各种工作流程,但它们在选择建模方面的潜力仍然相对未开发。 这项工作考察了LLM作为规范中的辅助剂的潜力,并在技术可行的情况下,估计多项式Logit模型。 我们实施了一个系统的实验框架,涉及六个领先的LLM(ChatGPT,Claude,DeepSeek,Gemini,Gemma和Llama)的13个版本,根据五个实验配置进行评估。 这些配置在三个维度上有所不同:建模目标(建议与建议和估计MNL);提示策略(Zero-Shot vs. 思想链);和信息可用性(仅限完整数据集与数据字典)。 每个LLM建议的规范都根据适合的指标,行为合理性和模型复杂性来实现,估计和评估。 研究结果表明,专有的LLM可以生成有效且行为良好的实用规范,特别是在结构化提示的指导下。 Llama和Gemma等开放重量模型难以产生有意义的规格。 克劳德4 Sonnet始终如一地生产最合适和最复杂的模型,而GPT模型则建议具有稳健和稳定的建模结果的模型。 一些LLM在仅提供数据字典时表现更好,这表明限制原始数据访问可能会增强内部推理能力。 在所有LLM中,GPT o3具有独特的能力,能够通过执行自生成的代码来正确估计自己的规格。 总体而言,结果表明LLM作为选择建模的辅助剂,不仅对模型规范,而且支持建模决策和估计,并为将这些工具集成到选择建模人员的工作流程中提供了实际指导。
本文调查了在区块链中的二元集体决策中投票授权的替代好处。 我们首先研究两个极端的投票权重分布情况:平等加权(EW),每个选民的投票权重相等,以及Dominant-Weight(DW),在任何代表团出现之前,单个选民拥有大多数投票权重。 我们表明,投票代表团倾向于使EW下的前先入为主的少数群体受益,即最初获胜概率较低的替代方案。 另一种说法是DW分布。 通过数值模拟,我们将调查结果扩展到任意投票权重分布,表明投票代表团在导致更平衡的投票权重分配时有利于前多数。 最后,在所有代理人都有同等投票权的大型社区,投票代表团对结果的影响微不足道。 作为实际结果,投票授权对于投票权高度不平衡的区块链可能是有益的,但对那些权利平衡的人则不利。 在去中心化金融(DeFi)中,广泛采用投票权,以简化治理并增加参与。 然而,代表团何时真正使成果与社区偏好保持一致仍不清楚。
本文提出了使用多目标线性和非线性受限优化技术优化电子设计中电容器选择的新框架。 我们展示了这种方法在最小化成本和电路板领域的有效性,同时满足关键性能要求。
为了识别专业知识,预测者不应该通过他们的校准分数进行测试,这些分数总是可以任意小,而是通过他们的布里尔分数。 Brier 得分是校准得分和精进得分的总和;后者测量了与相同预测的垃圾箱的排序有多好,从而证明了“专业知识”。 这就提出了一个问题,即一个人是否可以在不失去专业知识的情况下获得校准,我们称之为"校准"。 我们提供了一个简单的方法来校准任何预测,通过确定性的在线程序。 此外,我们表明,校准可以通过本身校准的随机程序来实现,然后将结果扩展到同时校准多个程序,以及持续校准的确定性程序。