我们提出了一种新的方法来识别和估计矩阵时间序列的CP因子模型。 与Chang等人的广义特征分析方法不同。 (2023)相关估算器的收敛率可能遭受小特征间隙,因为渐近理论基于一些矩阵扰动分析,因此拟议的新方法享有更快的收敛率,不受任何特征间隙的影响。 它通过将问题变成几个矩阵的联合对角化来实现这一点,其元素由线性系统的基础决定,并通过仔细选择基础以避免接近共线性度(见命题5和第4.3节)。 此外,与Chang等人不同。 (2023年)要求两个因素加载矩阵为全排名,建议的新方法可以处理排名不足的因子加载矩阵。 模拟和真实矩阵时间序列数据的插图显示了拟议的新方法的优点。
我们展示了2010年美国的个人机密微数据记录。 人口和住房普查可以从已公布的表格摘要中准确重建。 九七十万人记录(70个居民中的每个居民)
大型语言模型(LLM)被广泛用于支持不同学科的各种工作流程,但它们在选择建模方面的潜力仍然相对未开发。 这项工作考察了LLM作为规范中的辅助剂的潜力,并在技术可行的情况下,估计多项式Logit模型。 我们实施了一个系统的实验框架,涉及六个领先的LLM(ChatGPT,Claude,DeepSeek,Gemini,Gemma和Llama)的13个版本,根据五个实验配置进行评估。 这些配置在三个维度上有所不同:建模目标(建议与建议和估计MNL);提示策略(Zero-Shot vs. 思想链);和信息可用性(仅限完整数据集与数据字典)。 每个LLM建议的规范都根据适合的指标,行为合理性和模型复杂性来实现,估计和评估。 研究结果表明,专有的LLM可以生成有效且行为良好的实用规范,特别是在结构化提示的指导下。 Llama和Gemma等开放重量模型难以产生有意义的规格。 克劳德4 Sonnet始终如一地生产最合适和最复杂的模型,而GPT模型则建议具有稳健和稳定的建模结果的模型。 一些LLM在仅提供数据字典时表现更好,这表明限制原始数据访问可能会增强内部推理能力。 在所有LLM中,GPT o3具有独特的能力,能够通过执行自生成的代码来正确估计自己的规格。 总体而言,结果表明LLM作为选择建模的辅助剂,不仅对模型规范,而且支持建模决策和估计,并为将这些工具集成到选择建模人员的工作流程中提供了实际指导。
本文提出了一种评估政治问答环节中回答质量的新方法。我们基于给定问题文本时,回答在一组随机候选答案中被识别出的难易程度和准确性来衡量其质量。该指标反映了回答与问题的相关性和参与深度。与语义搜索类似,我们可以在观察到的问答语料库上训练语言模型来实现这一方法,而无需额外的人工标注数据。我们在加拿大下议院质询期(Question Period)的背景下展示并验证了我们的方法。分析表明,虽然有些回答与问题的语义联系较弱,暗示存在回避或模糊回答的情况,但它们通常至少具有中等相关性,远超过随机回复的预期水平。我们还发现回答质量与提问议员的党派归属存在有意义的相关性。
为最优治疗策略的价值构建置信区间是因果推断中的一个重要问题。 洞察最佳政策价值可以指导奖励最大化,个性化治疗制度的发展。 但是,由于定义最优值的功能是非可微分的,因此执行推理的标准半参数方法不能直接适用。 处理这种非差别性的现有方法大致分为两个阵营。 在一个阵营中,基于构建最佳值的平滑近似值的估算器。 这些方法在计算上是轻量级的,但通常对结果回归进行不切实际的参数化假设。 在另一个阵营中,直接消除不平稳目标的方法。 这些方法不会对滋扰函数进行参数化假设,但它们要么需要计算难以解决的滋扰估计,要么假设不切实际的L^∞滋扰收敛率,要么做出禁止不响应治疗的强烈边缘假设。 在本文中,我们重新审视了构建非可区分功能平滑近似的问题。 通过仔细控制一阶偏置和二阶余数,我们表明,基于softmax平滑度的估计器可用于估计指定为涉及滋扰组件的最大分数的参数。 特别是,这包括最佳治疗政策作为特殊情况的价值。 我们的估算器获得√(n)收敛率,避免参数限制/不现实的边际假设,并且通常具有统计学效率。
因果建模的标准方法,特别是在社会和健康科学,是Neyman和Rubin的潜在结果框架。 在这个框架中,观测被认为是从对感兴趣的变量的分布中得出的,目标是确定这种分布的参数。 尽管既定目标往往是为一些目标人口的决策提供信息,但没有直接的方法将目标人群纳入框架。 而不是模拟观察到的样本和目标人群之间的关系,这个框架中的归纳假设采取抽象抽样和独立性假设的形式。 在本文中,我们开发了一个框架的版本,将因果推断解释为有限人群的治疗性预测,其中所有假设都可以回想起来;这意味着人们不仅可以测试预测本身(没有任何根本问题),还可以在失败时调查错误来源。 由于与原始框架的紧密联系,在新框架下仍然可以分析既定方法。
我们引入了一种算法,用于识别治疗效果升高的可解释亚组,给定单个或条件平均治疗效果(CATE)的估计。 子组的特点是“规则集” - 易于理解的形式(条件A和条件B)或(条件C)的语句 - 可以在保留可解释性的同时捕获高阶交互。 我们的方法补充了估计CATE的现有方法,CATE通常产生高维度和不可解释的结果,通过总结和提取关键信息来帮助决策,政策实施和科学理解。 我们提出了一个目标函数,该函数可以交易分组大小和效应大小,并改变控制这种权衡的超参数,导致帕累托最优规则集的“边界”,其中没有一个在所有标准中占主导地位。 通过样本拆分可以实现有效的推断。 我们使用模拟和经验示例演示我们方法的实用性和局限性。
我们引入了Galerkin-ARIMA,这是一个新颖的时间序列预测框架,它将Galerkin投影技术与经典的ARIMA模型集成在一起,以捕获滞后观测中潜在的非线性依赖。 通过将固定的线性自动回归组件替换为基于 spline 的基础扩展,Gaerkin-ARIMA 通过普通最小二乘法灵活地近似过去值之间的底层关系,同时保留了 ARIMA 的移动平均结构和高斯创新假设。 我们使用两阶段的Galerkin预测为AR和MA组件提供封闭式解决方案,为渐近不偏不倚和一致性创造条件,并分析基础尺寸增长下的偏差-方差权衡。 复杂性分析表明,对于中等基础尺寸,与最大可能性ARIMA估计相比,我们的方法可以大大降低计算成本。 通过对四个合成过程的广泛模拟 - 包括嘈杂的ARMA,季节性,趋势-AR和非线性递归系列 - 我们证明Galerkin-ARIMA匹配或接近ARIMA的预测精度,同时在滚动预测任务中实现数量加快。 这些结果表明,Galerkin-ARIMA为在高容量或实时应用中建模复杂的时间序列动力学提供了一种强大而高效的替代方案。
我们提出了一种新的多任务神经网络方法,用于在随机实验中估计分配处理效果(DTE)。 虽然DTE比传统方法提供了更精细的见解,但专注于平均治疗效果(ATE)的传统方法,用回归调整方法估计它带来了重大挑战。 具体而言,由于数据不平衡,分布尾部的精度受到影响,计算效率低下是由于需要解决许多回归问题,特别是在工业中常见的大规模数据集中。 为了解决这些限制,我们的方法利用多任务神经网络来估计条件结果分布,同时结合单调的形状约束和多阈值标签学习来提高准确性。 为了证明我们提出的方法的实际有效性,我们将我们的方法应用于模拟和现实世界的数据集,包括旨在减少美国用水量的随机现场实验以及来自日本领先流媒体平台的大规模A / B测试。 实验结果一致地展示了各种数据集的卓越性能,将我们的方法确立为现代因果推断应用的稳健而实用的解决方案,需要详细了解治疗效果异质性。
主要广告平台最近通过限制广告商访问个人级数据来增加隐私保护。 平台没有提供对粒度原始数据的访问,而是只允许对数据集进行有限数量的汇总查询,从而通过添加差分私有噪声进一步保护。 本文研究广告商是否可以以及如何在这些限制性的隐私保护数据环境中设计有效的目标政策。 为了实现这一目标,我开发了一种基于贝叶斯优化的概率机器学习方法,该方法有助于动态数据探索。 由于贝叶斯优化旨在从函数中采样点以找到其最大值,因此不适用于聚合查询和目标。 因此,我引入了两个创新:(i)后验的整体更新,允许选择数据的最佳区域来查询而不是单个点,以及(ii)一个目标感知获取函数,该函数动态地选择目标任务的最信息区域。 我确定了需要使用这种“智能”查询策略的数据集和隐私环境的条件。 我将战略查询方法应用于Criteo AI Labs数据集,用于提升建模(Diemert et al., 2018),其中包含来自1400万用户的访问和转换数据。 我表明,一个直观的基准策略只实现了33
结构无关的因果推理研究如何很好地估计治疗效果,因为黑箱机器学习估计的滋扰功能(如混杂因素对治疗和结果的影响)。 在这里,我们发现答案以令人惊讶的方式取决于治疗噪声的分布。 专注于<ct.>的部分线性模型,我们首先表明,广泛采用的双机器学习(DML)估计器对于高斯治疗噪声来说是最小速率最优的,解决了<city.>的开放性问题。 同时,对于独立的非高斯处理噪声,我们通过构建具有更高阶稳健性的新实用程序来显示DML总是不理想的。 这些ACE程序使用与结构无关的累积估计器,在(r+1)st治疗累积物非零时,实现对滋扰误差的r-th顺序不敏感。 我们通过在部分线性模型中为二进制处理提供新的minimax保证来补充这些核心结果。 最后,使用合成需求估计实验,我们展示了我们高阶健壮估计器的实际好处。
该研究调查了多智能强化学习(MARL)如何改善供应链中的动态定价策略,特别是在传统ERP系统依赖于静态的、基于规则的方法的情况下,这些方法忽视了市场参与者之间的战略互动。 虽然最近的研究将强化学习应用于定价,但大多数实现仍然是单一代理,并且未能模拟现实世界供应链的相互依存性。 本研究通过评估三种MARL算法的性能来解决这一差距:MADDPG,MADQN和QMIX与基于静态规则的基线,在真实的电子商务交易数据和LightGBM需求预测模型的模拟环境中。 结果显示,基于规则的代理实现了近乎完美的公平性(耆那教指数:0.9896)和最高的价格稳定性(波动性:0.024),但它们完全缺乏竞争动态。 在MARL代理商中,MADQN表现出最激进的定价行为,波动性和最低公平性(0.5844)。 MADDPG提供更平衡的方法,支持市场竞争(股票波动:9.5 pp),同时保持相对较高的公平性(0.8819)和稳定的定价。 这些发现表明,MARL引入了静态定价规则所未捕获的新兴战略行为,并可能为动态定价的未来发展提供信息。
这项研究调查了治疗选择的适应性实验设计,也称为固定预算最佳手臂识别。 我们考虑了一个适应性程序,由治疗分配阶段组成,然后是治疗选择阶段,我们为此设计了一个适应性实验,以有效地确定最佳治疗臂,定义为预期结果最高的治疗臂。 在我们设计的实验中,治疗分配阶段由两个阶段组成。 第一阶段是试验阶段,我们将每个治疗臂以相等的比例统一分配,以消除明显次优的手臂并估计结果差异。 在第二阶段,我们按照第一阶段估计的差异分配处理武器。 在治疗分配阶段后,程序进入治疗选择阶段,我们选择样本平均值最高的治疗臂作为我们对最佳治疗臂的估计。 我们证明这种单一设计同时是渐近的minimax和贝叶斯最适合简单的遗憾,上界与我们的下界相匹配,精确常数。 因此,我们设计的实验实现了锐利的效率极限,无需为minimax和贝叶斯目标进行单独的调优。
本文研究了后漂移对过度参数化机器学习模型中样本外预测精度的影响。 我们记录了在训练和测试样本之间更改数据生成过程的加载时的性能损失。 这在可能出现制度变化的环境中至关重要,例如在金融市场。 应用于股票溢价预测,我们的结果强调了市场时机策略对子周期的敏感性以及控制模型复杂性的带宽参数。 对于普通投资者来说,我们发现专注于持有15年期可以产生非常异质的回报,特别是对于小带宽。 大带宽产生更一致的结果,但从风险调整后的回报的角度来看,吸引力要小得多。 总而言之,我们的研究结果倾向于在采用大型线性模型进行股票市场预测时建议谨慎。
这项研究调查了上下文最佳手臂识别(BAI)问题,旨在设计一个适应性实验,以确定以上下文信息(协方差)为条件的最佳治疗臂。 我们考虑在实验期间将治疗臂分配给实验单位的决策者,并根据实验结束时的背景推荐估计的最佳治疗臂。 决策者使用建议的政策,这是一个功能,提供估计的最佳治疗部门的背景。 在我们的评估中,我们关注的是最糟糕的预期遗憾,即最佳政策的预期结果与我们提出的政策之间的相对衡量标准。 我们得出预期的简单遗憾的下限,然后提出一种称为自适应抽样-政策学习(PLAS)的策略。 我们证明这种策略是最小速率最优的,因为它在遗憾上界的主要因素与实验单位数量的增加而匹配下界。
我们为气候变化的经济模型引入了一个框架,用于开发高效和可解释的气候模拟器(CE)。 该文件作出了两个主要贡献。 首先,我们提出了为宏观经济模型构建碳循环模拟器(CCE)的一般框架。 该框架被实现为广义线性多水库(箱)模型,可保存关键物理量,并可根据特定应用进行定制。 我们考虑CCE的三个版本,我们在一个简单的代表性代理经济模型中评估:(i)与DICE-2016相当的三盒设置,(ii)四盒扩展,以及(iii)一个明确捕获土地利用变化的四盒版本。 虽然三箱模型很好地再现了基准结果,而第四个水库几乎没有增加,但纳入土地利用变化对陆地生物圈碳储存能力的影响,极大地改变了大气碳储量,温度轨迹和最佳缓解路径。 其次,我们研究模式扩展技术,将CEs的全球平均温度预测转化为空间异构变暖场。 我们展示了区域基线气候,非均匀变暖以及相关的不确定性如何传播成经济损失。
算法越来越多地用于帮助高风险决策。 然而,它们的预测能力经常表现出跨人群分组的系统差异。 为了使用有限数据评估公平与准确性之间的权衡,我们提出了一个由梁、陆、穆和奥库穆拉(2024)引入的公平精度前沿的偏倚机器学习估算器。 我们得出其渐近分布,并提出推理方法来测试公平文献中的关键假设,例如(i)在训练算法时排除组身份是否是最优的,以及(ii)给定算法的歧视性替代品是否较少。 此外,我们构建了一个估计器,用于给定算法与边界上最公平点之间的距离,并表征其渐近分布。 使用蒙特卡洛模拟,我们评估推理方法的有限样本性能。 我们应用我们的框架来重新评估医院护理管理中使用的算法,并表明我们的方法产生了基于公平精度前沿的替代算法,从而提供了两个方面的改进。
我们研究分位数最优策略学习,其目标是找到一个奖励分布的 α-分位数最大的策略,其中 α∈ (0, 1)。我们关注离线设置,其生成过程涉及未观测的混淆因素。 这个问题面临三个主要挑战:(i) 分位数目标函数作为奖励分布的函数是非线性的,(ii) 未观测的混淆问题,以及 (iii) 离线数据集的覆盖不足。为了应对这些挑战,我们提出了一系列基于因果辅助的策略学习方法,这些方法在温和的条件下具有很强的理论保证。特别是,为了解决 (i) 和 (ii),我们使用因果推断工具,如工具变量和负控制,来估计分位数目标函数,通过求解非线性积分方程。然后,我们采用具有非参数模型的极小极大估计方法来求解这些积分方程,并提出构建保守的策略估计,以解决 (iii)。最终的策略是最大化这些悲观估计的策略。此外,我们提出了一种新型正则化策略学习方法,该方法更易于计算。最后,我们证明了这些方法学习的策略在离线数据集的覆盖假设下,是 𝒪̃(n^-1/2) 分位数最优的。这里,𝒪̃(·) 忽略了多对数因子。据我们所知,我们提出了第一个样本效率高的策略学习算法,用于估计存在未观测混淆时的分位数最优策略。
本文研究了大型语言模型(LLM)评估空间计量经济学中实证发现的经济稳健性和理论一致性的能力。 我们从28篇已发表的论文(2005-2024年)中创建了原创和故意更改的“反事实”摘要,这些摘要由一组不同的LLM进行评估。 LLM提供了关于变量选择,系数合理性和出版适用性的定性评估和结构化二元分类。 结果表明,虽然LLM可以熟练地评估可变选择的连贯性(GPT-4o等顶级模型的总F1得分为0.87),但当评估系数合理性和整体出版适用性等更深层次的方面时,它们的表现差异很大。 结果进一步显示,LLM的选择,论文的具体特征以及这两个因素之间的相互作用显着影响了评估的准确性,特别是对于细致入微的判断。 这些发现强调了LLM目前的优势,即协助进行初步的,更多的表面检查,以及他们在进行全面,深刻的经济推理方面的局限性,这表明在同行评审中潜在的辅助作用仍然需要强有力的人类监督。
我们考虑使用从强化学习算法收集的数据进行估计和推断。 这些算法以自适应实验为特征,在多个阶段与单个单位进行交互,根据以前的交互动态调整策略。 我们的目标是评估反事实政策后数据收集和估计结构参数,如动态处理效应,可用于信用分配和确定早期行动对最终结果的影响。 这种感兴趣的参数可以作为即时方程的解决方案,但不是人口损失函数的最小化,导致静态数据的Z估计方法。 然而,在强化学习的自适应数据收集环境中,算法部署非静止行为策略,由于波动的方差,标准估算器无法实现渐近的常态。 我们提出了一种加权 Z 估计方法,采用精心设计的自适应权重,以稳定时间变化估计方差。 我们确定了适当的加权方案,以恢复目标参数的加权 Z 估计器的一致性和渐近性,从而允许进行假设测试和构建统一置信区。 主要应用包括动态治疗效果估计和动态政策外评估。