数据整合方法正日益被用于提高研究效率和泛化能力。然而,这些方法的关键局限性在于假设不同数据集的结果指标是相同的——这一假设在实践中往往不成立。考虑以下阿片类物质使用障碍 (OUD) 研究:XBOT 试验和 POAT 研究,两者均评估药物对 OUD 患者戒断症状严重程度的影响(并非两项试验的主要结果)。XBOT 使用主观阿片类物质戒断量表来衡量戒断症状严重程度,而 POAT 使用临床阿片类物质戒断量表。我们分析了这种现实但具有挑战性的情况,即不同研究的结果指标不同,并且两项研究均未记录两种类型的指标。本文研究了整合具有不同结果指标的研究是否以及何时能够带来效率提升。我们引入了三组假设——具有不同强度——来关联两种结果指标。我们的理论和实证结果提出了一个警示性案例:只有在关联结果指标的最强假设下,整合才能提高渐近效率。然而,对该假设的错误设定会导致偏差。相反,较温和的假设可能产生有限样本效率提升,但随着样本量的增加,这些收益会减少。我们通过整合 XBOT 和 POAT 数据集来估计两种药物对阿片类物质使用障碍患者戒断症状的比较效果,从而说明了这些权衡。通过系统地改变关联 SOW 和 COW 量表的假设,我们展示了潜在的效率提升和偏差风险。我们的研究结果强调了在融合具有不同结果指标的数据集时,仔细选择假设的必要性,并为研究人员提供了应对现代数据整合中这一常见挑战的指导。
随着大型语言模型(LLM)融入我们的社会和经济互动,我们需要加深对人类如何在战略环境中应对LLM对手的理解。 我们介绍了第一个受控制的货币激励的实验室实验的结果,该实验在针对其他人类和LLM的多人p-beauty竞赛中观察人类行为的差异。 我们使用主题内设计来比较个人层面的行为。 我们表明,在这种环境中,人类受试者在对抗LLM时选择的数字明显低于人类,这主要是由于“零”纳什均衡选择的流行率增加。 这种转变主要是由具有高战略推理能力的主体推动的。 玩零纳什均衡选择的受试者通过吸引LLM的推理能力以及出乎意料的合作倾向来激励他们的策略。 我们的发现为同时选择游戏中的多人人与LLM交互提供了基础见解,揭示了两个主题在对抗LLM时的行为和信念的异质性,并提出了混合人LLM系统中机制设计的重要影响。
现实世界中的人往往对未来回报有模糊的了解,对此量化是不可行的或可取的。 我们认为,语言具有不同的传达模糊信息的能力,在主观期望中起着重要但鲜为人知的角色。 从经验上讲,我们发现在他们的报告中,分析师在语言表达中包括有用的信息,而不是数字预测。 具体而言,分析师报告的文本语调具有预测误差和随后数字预测修订的预测能力,当分析师的语言模糊时,当不确定性更高时,当分析师更忙时,这种关系变得更加牢固。 总的来说,我们的理论和证据表明,一些有用的信息是模糊的,只能通过语言传达。
准确的电力负荷预测对于电网稳定性、资源优化和可再生能源集成至关重要。 虽然像TimeGPT这样的基于变压器的深度学习模型在时间序列预测中获得了牵引力,但它们在长期电力负荷预测中的有效性仍然不确定。 这项研究使用ESD 2025竞赛的数据评估了从经典回归技术到高级深度学习架构的预测模型。 该数据集包括两年的历史电力负荷数据,以及五个站点的温度和全球水平辐照度(GHI),具有一天的预测视野。 由于实际测试集负载值仍未公开,因此利用预测值将累积错误,使其成为长期预测挑战。 我们使用(i)主成分分析(PCA)进行降维,(ii)将任务构建为回归问题,使用温度和GHI作为协变来预测每小时的负载,(iii)最终将24个模型堆叠以生成年度预测。 我们的结果表明,包括TimeGPT在内的深度学习模型由于训练数据和外源变量的可用性有限,未能持续超越简单的统计和机器学习方法。 相比之下,XGBoost具有最小的功能工程,在所有测试用例中提供最低的错误率,同时保持计算效率。 这凸显了深度学习在长期电力预测中的局限性,并强化了基于数据集特性而非复杂性的模型选择的重要性。 我们的研究提供了对实际预测应用的见解,并有助于正在进行的关于传统和现代预测方法之间权衡的讨论。
本文介绍了一种新的方法来绘制新兴技术的宇宙,利用包含丰富多样性和当代知识广度的各种源数据来创建新的数据集和多个索引,为这些技术提供新的见解。 Cosmos 1.0数据集是23,544项技术(ET23k)的综合集合,构建成一个分层模型。 每项技术分为三个元簇(ET3)和七个主题簇(ET7),由100维嵌入向量增强。 在宇宙中,我们手动验证了100种名为ET100的新兴技术。 该数据集富含专门用于评估新兴技术格局的其他指数,包括技术意识指数,通用指数,Deeptech和技术时代指数。 该数据集包含来自维基百科的广泛元数据和来自第三方来源的链接数据,如Crunchbase,Google Books,OpenAlex和Google Scholar,用于验证构建索引的相关性和准确性。 此外,我们训练了一个分类器,以确定它们是开发“技术”还是与技术相关的“术语”。
现实世界中的人往往对未来回报有模糊的了解,对此量化是不可行的或可取的。 我们认为,语言具有不同的传达模糊信息的能力,在主观期望中起着重要但鲜为人知的角色。 从经验上讲,我们发现在他们的报告中,分析师在语言表达中包括有用的信息,而不是数字预测。 具体而言,分析师报告的文本语调具有预测误差和随后数字预测修订的预测能力,当分析师的语言模糊时,当不确定性更高时,当分析师更忙时,这种关系变得更加牢固。 总的来说,我们的理论和证据表明,一些有用的信息是模糊的,只能通过语言传达。
用于估计和校准的数据的分区严重影响了基于概率评分的估计值器的性能,如逆概率加权(IPW)和双/偏差机器学习(DML)框架。 我们扩展了倾向分数估计的校准技术的最新进展,提高了在有限重叠,小样本量或数据不平衡等具有挑战性的环境中倾向分数的稳健性。 我们的贡献是双重的:首先,我们提供DML背景下校准估计器特性的理论分析。 为此,我们完善了倾向评分模型的现有校准框架,特别强调了分选方案在确保有效因果推断方面的作用。 其次,通过广泛的模拟,我们表明校准减少了基于逆的倾向得分估计器的方差,同时也减轻了IPW中的偏差,即使在小样本机制中也是如此。 值得注意的是,校准提高了灵活学习者的稳定性(例如梯度提升),同时保持DML的双强健性能。 一个关键的见解是,即使方法在没有校准的情况下表现良好,纳入校准步骤也不会降低性能,前提是选择适当的样品分裂方法。
人工智能的现代应用涉及在异构和潜在大规模环境中训练和部署机器学习模型。 新兴的数据多样性不仅为推进人工智能系统带来了新的可能性,而且还限制了由于隐私、安全和公平等紧迫问题而导致信息在环境中共享的程度。 基于将学习算法作为假设空间的选择对应的新特征,这项工作在直观和合理的公理方面提供了最低要求,在这种公理下,异构环境中唯一的理性学习算法是经验风险最小化(ERM),该经验风险最小化(ERM)单方面从单一环境中学习,而无需跨环境信息共享。 我们的(im)可能性结果强调了任何算法为实现集体智能(CI)而将面临的基本权衡,即跨异构环境学习的能力。 最终,在异构环境中的集体学习本质上是困难的,因为在机器学习的关键领域,如配电外通用化,联合/协作学习,算法公平性和多模态学习,对跨环境的模型预测性能进行有意义的比较是不太可能的。
数据整合方法正日益被用于提高研究效率和泛化能力。然而,这些方法的关键局限性在于假设不同数据集的结果指标是相同的——这一假设在实践中往往不成立。考虑以下阿片类物质使用障碍 (OUD) 研究:XBOT 试验和 POAT 研究,两者均评估药物对 OUD 患者戒断症状严重程度的影响(并非两项试验的主要结果)。XBOT 使用主观阿片类物质戒断量表来衡量戒断症状严重程度,而 POAT 使用临床阿片类物质戒断量表。我们分析了这种现实但具有挑战性的情况,即不同研究的结果指标不同,并且两项研究均未记录两种类型的指标。本文研究了整合具有不同结果指标的研究是否以及何时能够带来效率提升。我们引入了三组假设——具有不同强度——来关联两种结果指标。我们的理论和实证结果提出了一个警示性案例:只有在关联结果指标的最强假设下,整合才能提高渐近效率。然而,对该假设的错误设定会导致偏差。相反,较温和的假设可能产生有限样本效率提升,但随着样本量的增加,这些收益会减少。我们通过整合 XBOT 和 POAT 数据集来估计两种药物对阿片类物质使用障碍患者戒断症状的比较效果,从而说明了这些权衡。通过系统地改变关联 SOW 和 COW 量表的假设,我们展示了潜在的效率提升和偏差风险。我们的研究结果强调了在融合具有不同结果指标的数据集时,仔细选择假设的必要性,并为研究人员提供了应对现代数据整合中这一常见挑战的指导。
机器学习(ML)主要发展到解决“预测问题”。 第二阶段最小二乘(2SLS)的第一阶段是一个预测问题,表明ML第一阶段援助的潜在收益。 然而,对于ML何时帮助2SLSx2014或何时受伤,几乎没有什么指导。 我们研究将ML插入2SLS的影响,将偏置分解为三个信息组件。 从机械上讲,ML-in-2SLS程序面临着预测和因果推断设置x2014及其相互作用的共同问题。 通过模拟,我们展示了线性ML方法(例如,后拉索)工作得很好,而非线性方法(例如,随机森林,神经网络)在第二阶段估计中产生实质性偏置x2014可能超过内源性OLS的偏置。
已经进行了几项研究,通过应用各种指数来衡量以太坊的去中心化水平,以表明实体在生态系统中不同领域的相对主导地位。 然而,这些指数并没有捕捉到这些不同实体之间的任何相关性,这可能会使它们成为外部胁迫或秘密勾结的主题。 我们提出了一个指数,根据相关性因子的应用来衡量实体的相对主导地位。 我们认为,这种方法产生了更细致和准确的权力下放指数。
准确预测客户的购买意图对于业务战略的成功至关重要。 目前的研究主要集中在分析客户未来可能购买的特定类型的产品,很少关注客户是否会从事回购行为的关键要素。 预测客户是否会进行下一次购买是一项经典的时间序列预测任务。 然而,在现实世界中的购买行为中,客户群体通常会表现出不平衡 - 即有大量的偶尔买家和少数忠实客户。 这种头尾分布使传统的时序列预测方法在处理此类问题时面临一定的局限性。 为了应对上述挑战,本文提出了统一的聚类和注意力机制GRU模型(CAGRU),该模型利用多模态数据进行客户购买意向预测。 该框架首先对客户特征进行客户分析,并将客户集群化,以划定包含类似功能的不同客户集群。 然后,由GRU神经网络提取不同客户集群的时间序列特征,并引入注意力机制来捕捉序列位置的重要性。 此外,为了减轻客户细分的正面分布,我们为每个客户细分市场分别培训模型,以更准确地调整和捕捉不同客户细分市场之间行为特征的差异,以及同一客户细分市场中客户的相似特征。 我们构建了四个数据集,并进行了广泛的实验,以证明拟议的CAGRU方法的优越性。
今天的政治主要是关于影响公众的信息传递的艺术,但信息传递的数学理论 - 信息和通信理论 - 可以使这种艺术变成定性和定量的精确分析,使我们能够对政治事件进行回顾性理解并做出前瞻性预测。
这项研究根据来自欧洲、英国和美国的1,083名经理的调查数据,研究了网络安全的战略作用。 研究结果表明,人们越来越认识到网络安全是竞争优势的来源,尽管企业继续面临资源有限、人才短缺和文化阻力等障碍。 大型和高科技公司倾向于采取更积极的战略,而中小企业和低技术部门则表现出更大的可变性。 在平衡安全与创新和敏捷性方面出现了关键的管理紧张关系。 欧洲、英国和美国都观察到明显的国家一级差异。 在所有背景下,领导力和员工敬业度似乎是缩小战略意图与运营实践差距的核心。
为了应对对可持续制造的不断升级的需求,本研究引入了基于模拟的方法(SBA),以模拟能源密集型随机生产系统的停止政策,该系统在实际工业环境中开发和测试。 该案例公司——一家能源密集型的铅酸电池制造商——在其热处理操作中面临巨大的过程不确定性,使静态规划效率低下。 为了评估基于传感器的潜在解决方案,SBA利用模拟传感器数据(使用马尔可维模型)来迭代完善贝叶斯能源估计值并动态调整批次特定的处理时间。 全面的数值模拟,反映了公司2024年的热处理过程,评估了SBA的节能潜力,配置稳健性以及对过程不确定性和传感器失真度的灵敏度。 结果与三种规划场景进行了基准测试:(1)优化计划处理时间(OPT);(2)公司的当前基线实践;(3)具有完全已知能源需求的理想场景。 在所有测试环境中,SBA明显优于OPT,在某些情况下,其性能甚至相当于理想场景。 与目前的基线实践相比,能源投入减少了14-25分析,进一步突出了SBA平衡能源和检验劳动成本的能力,为工业决策者提供了可操作的见解。
准确的经济模拟通常需要许多实验运行,特别是当与强化学习相结合时。 不幸的是,在多智能体经济环境中训练强化学习剂可能很慢。 本文介绍了基于AI经济学家的快速模拟经济EconoJax。 EconoJax及其训练管道完全用JAX编写。 这使得EconoJax能够扩展到大人口规模并进行大型实验,同时将训练时间保持在几分钟之内。 通过对100名药剂进行的实验,我们展示了现实世界的经济行为是如何通过15分钟内通过培训出现的,而之前的工作则需要几天时间。 我们还在不同的大小动作空间进行实验,以测试一些多智能方法是否比其他方法产生更多样化的行为。 在这里,我们的发现表明,在早期作品中有时建议的不同方法,产生的行为没有显着差异。 为了帮助进一步研究,我们在Github上开源了EconoJax。
反事实在因果推理(CI)和可解释的人工智能(XAI)这两个不同的数据科学领域起着关键作用。 虽然反事实背后的核心思想在这两个领域保持不变 - 检查在不同情况下会发生什么 - 在如何使用和解释它们方面存在关键差异。 我们引入了一个正式的定义,其中包括CI和XAI中反事实的多方面概念。 然后,我们讨论如何在 CI vs 中使用、评估、生成和操作反事实。 XAI,突出概念和实践上的差异。 通过比较和对比两者,我们希望确定跨CI和XAI交叉施肥的机会。
本文介绍并正式验证了使用精益4定理证明器在N维度中一阶随机支配(FSD)的新几何框架。 传统的多维随机支配分析方法在很大程度上依赖于复杂的测量理论和多变量微积分,为举证助手的形式化创造了重大障碍。 我们的几何方法通过直接比较右上角矫正者的生存概率来表征N维FSD,绕过了复杂融合理论的需要。 我们正式化了关键定义,并证明了传统FSD要求与我们的几何表征之间的等价性。 这种方法实现了更易于处理和直观的正式验证路径,同时保持数学严谨性。 我们展示了这个框架如何直接能够在投资组合选择、风险管理和福利分析中实现多维经济问题的正式分析。 这项工作为进一步发展经济和金融领域的经过验证的决策工具奠定了基础,特别是对于需要严格担保的高风险领域。
新兴经济体的金融市场容易受到极端和层层叠叠的信息溢出、激增、突然停止和逆转的影响。 考虑到这一点,我们开发了一种新的在线预警系统(EWS),以检测机器学习中所谓的“概念漂移”,作为经济学的“政权转变”和统计学中的“变化点”。 该系统探索了金融信息流中的非线性,并保持稳健到沉重的尾巴和极端的依赖。 关键组成部分是使用条件熵,它捕获信息传输各种渠道的变化,而不仅仅是条件均值或方差。 我们设计了一种基线方法,并通过使用随机森林和coplas来适应现代高维设置。 我们展示了每个系统组件与新兴市场分析的相关性。 新方法在常规方法失败时检测到重大转变。 我们使用模拟来探索何时发生这种情况,当方法产生有意义的警告时,我们提供两个插图。 及早发现变化的能力有助于提高新兴市场抵御冲击的能力,并为其运营提供新的经济和金融见解。
随着大型语言模型(LLM)融入我们的社会和经济互动,我们需要加深对人类如何在战略环境中应对LLM对手的理解。 我们介绍了第一个受控制的货币激励的实验室实验的结果,该实验在针对其他人类和LLM的多人p-beauty竞赛中观察人类行为的差异。 我们使用主题内设计来比较个人层面的行为。 我们表明,在这种环境中,人类受试者在对抗LLM时选择的数字明显低于人类,这主要是由于“零”纳什均衡选择的流行率增加。 这种转变主要是由具有高战略推理能力的主体推动的。 玩零纳什均衡选择的受试者通过吸引LLM的推理能力以及出乎意料的合作倾向来激励他们的策略。 我们的发现为同时选择游戏中的多人人与LLM交互提供了基础见解,揭示了两个主题在对抗LLM时的行为和信念的异质性,并提出了混合人LLM系统中机制设计的重要影响。
准确的电力负荷预测对于电网稳定性、资源优化和可再生能源集成至关重要。 虽然像TimeGPT这样的基于变压器的深度学习模型在时间序列预测中获得了牵引力,但它们在长期电力负荷预测中的有效性仍然不确定。 这项研究使用ESD 2025竞赛的数据评估了从经典回归技术到高级深度学习架构的预测模型。 该数据集包括两年的历史电力负荷数据,以及五个站点的温度和全球水平辐照度(GHI),具有一天的预测视野。 由于实际测试集负载值仍未公开,因此利用预测值将累积错误,使其成为长期预测挑战。 我们使用(i)主成分分析(PCA)进行降维,(ii)将任务构建为回归问题,使用温度和GHI作为协变来预测每小时的负载,(iii)最终将24个模型堆叠以生成年度预测。 我们的结果表明,包括TimeGPT在内的深度学习模型由于训练数据和外源变量的可用性有限,未能持续超越简单的统计和机器学习方法。 相比之下,XGBoost具有最小的功能工程,在所有测试用例中提供最低的错误率,同时保持计算效率。 这凸显了深度学习在长期电力预测中的局限性,并强化了基于数据集特性而非复杂性的模型选择的重要性。 我们的研究提供了对实际预测应用的见解,并有助于正在进行的关于传统和现代预测方法之间权衡的讨论。
核心选择组合拍卖是流行的拍卖设计,限制价格,以消除任何一组竞标者 - 与卖方 - 重新谈判以获得更好的交易的动机。 它们有助于克服经典组合拍卖的低收入问题。 我们引入了一类新的核心选择组合拍卖,利用拍卖设计师可用的竞标者信息。 我们通过限制投标人的联合类型空间来模拟这些信息 - 这些是投标人私人估值的限制,这些限制是在投标被引出之前由拍卖设计师持有的。 首先,我们表明,类型空间信息可以克服激励兼容核心选择组合拍卖的众所周知的不可能性。 我们介绍了该不可能结果的修订和广义版本,该版本取决于类型空间传达了多少信息。 然后,我们设计了一个新的核心选择组合拍卖家族,并表明他们尽量减少竞标者偏离真实投标的动机的总和。 我们开发新的约束生成技术 - 并建立在现有的二次编程技术的基础上 - 计算核心价格,并进行实验以评估我们新拍卖的激励,收入,公平和计算优点。 我们新的核心选择拍卖直接改进了已在世界各地许多高风险拍卖中使用的现有设计。 我们设想它们将成为任何拍卖设计师工具包的有用补充。
基于大型语言模型(LLM)的搜索引擎的日益集成改变了信息检索的格局。 然而,这些系统容易受到对抗性攻击,特别是排名操纵攻击,攻击者制作网页内容以操纵LLM的排名并推广特定内容,获得比竞争对手不公平的优势。 在本文中,我们研究排名操纵攻击的动态。 我们将这个问题定义为无限重复的囚犯困境,其中多个玩家战略性地决定是否合作或攻击。 我们分析了可以持续合作的条件,确定了攻击成本、折扣率、攻击成功率以及影响玩家行为的触发策略等关键因素。 我们确定了系统动态中的临界点,表明当玩家具有前瞻性时,合作更有可能持续下去。 然而,从防御的角度来看,我们发现简单地减少攻击成功概率可以,矛盾的是,可以激励攻击在某些条件下。 此外,在某些情况下,限制攻击成功率上限的防御措施可能是徒劳的。 这些见解突出了保护基于LLM的系统的复杂性。 我们的工作为理解和减轻其脆弱性提供了理论基础和实践见解,同时强调了适应性安全策略和深思熟虑的生态系统设计的重要性。
算法工具越来越多地用于招聘,以提高公平和多样性,通常是通过执行诸如性别平衡的候选人候选名单等限制因素。 然而,我们在理论上和经验上表明,在入围阶段强制执行平等代表权并不一定转化为更多样化的最终招聘,即使在招聘阶段没有性别偏见的情况下。 我们确定了影响这一结果的一个关键因素:算法筛选标准与人类招聘经理的评价标准之间的相关性 - 更高的相关性导致最终招聘的多样性降低。 使用对多家技术公司的近80万份工作申请进行大规模实证分析,我们发现,当算法筛选密切反映招聘经理的偏好时,执行平等的候选名单在招聘多样性方面产生了有限的改进。 我们提出了一个互补的算法方法,明确设计通过选择可能被经理忽视的候选人来多样化,但仍根据其评估标准具有竞争力。 经验模拟表明,这种方法显着增强了最终员工的性别多样性,而不会显着影响招聘质量。 这些发现强调了算法设计选择在实现组织多样性目标方面的重要性,并为实施面向公平的招聘算法的从业者提供了可操作的指导。