从观察数据中估计个体化治疗效果是因果推断的核心挑战,主要是由于协变失衡和非随机治疗分配的混杂偏差。 虽然逆概率加权(IPW)是解决这个问题的既定解决方案,但它与现代深度学习框架的集成仍然有限。 在这项工作中,我们提出了重要性加权扩散蒸馏(IWDD),这是一种新颖的生成框架,将扩散模型的预训练与重要性加权分数蒸馏相结合,以实现准确和快速的因果估计 - 包括潜在的结果预测和处理效果估计。 我们演示了如何自然地将IPW纳入预训练扩散模型的蒸馏中,并进一步引入了基于随机化的调整,消除了明确计算IPW的需要,从而简化了计算,更重要的是,可以证明地减少了梯度估计的方差。 经验结果表明,IWDD实现了最先进的样本外预测性能,与其他基线相比,胜率最高,显着改善了因果估计并支持个体化治疗策略的发展。 我们将发布我们的 PyTorch 代码,用于可重复性和未来的研究。
这项研究探讨了零镜头时间序列预测的潜力,这是一种利用预先训练的基础模型的创新方法,可以在没有特定任务微调的情况下预测死亡率。 我们使用来自50个国家和111个年龄组的数据,在三个预测领域(5年,10年和20年)中评估两种最先进的基础模型,以及传统和基于机器学习的方法。 在我们的调查中,零镜头模型显示出不同的结果:虽然CHRONOS提供了具有竞争力的短期预测,优于ARIMA和Lee-Carter模型等传统方法,但TimesFM的表现一直表现不佳。 对死亡率数据进行微调CHRONOS显著提高了长期的准确性。 随机森林模型,根据死亡率数据进行训练,取得了最佳的整体表现。 这些发现强调了零镜头预测的潜力,同时强调了仔细模型选择和特定领域适应的必要性。
从观察数据中估计个体化治疗效果是因果推断的核心挑战,主要是由于协变失衡和非随机治疗分配的混杂偏差。 虽然逆概率加权(IPW)是解决这个问题的既定解决方案,但它与现代深度学习框架的集成仍然有限。 在这项工作中,我们提出了重要性加权扩散蒸馏(IWDD),这是一种新颖的生成框架,将扩散模型的预训练与重要性加权分数蒸馏相结合,以实现准确和快速的因果估计 - 包括潜在的结果预测和处理效果估计。 我们演示了如何自然地将IPW纳入预训练扩散模型的蒸馏中,并进一步引入了基于随机化的调整,消除了明确计算IPW的需要,从而简化了计算,更重要的是,可以证明地减少了梯度估计的方差。 经验结果表明,IWDD实现了最先进的样本外预测性能,与其他基线相比,胜率最高,显着改善了因果估计并支持个体化治疗策略的发展。 我们将发布我们的 PyTorch 代码,用于可重复性和未来的研究。
保险公司经常使用的广义线性模型(GLM)的质量取决于相互作用变量的选择。 寻找交互是耗时的,特别是对于具有大量变量的数据集,很大程度上依赖于精算师的专家判断,并且通常依赖于视觉性能指标。 因此,我们提出了一种自动化寻找应添加到GLM的相互作用的过程的方法,以提高其预测能力。 我们的方法依赖于神经网络和模型特定的交互检测方法,该方法的计算速度比传统使用的弗里德曼H统计或SHAP值更快。 在数值研究中,我们提供了人工生成数据和开源数据的方法的结果。
持续优化传感器位置对于在各种军事和民用应用中精确定位目标至关重要。 虽然信息理论在优化传感器放置方面显示出希望,但许多研究过度简化了传感器测量模型或忽略了移动传感器的动态约束。 为了应对这些挑战,我们采用了一个包含雷达参数和雷达目标距离的测距模型,加上模型预测路径集成(MPI)控制,以管理复杂的环境障碍和动态约束。 我们比较了基于目标状态的Cubature Kalman滤波器(CKF)的根均方误差(RMSE)对固定雷达或简化范围测量模型的拟议方法。 此外,我们可视化了雷达和目标随着时间的推移而不断变化的几何形状,突出了测量信息增益最高的区域,展示了该方法的优势。 拟议的战略在目标定位方面优于固定雷达和简化范围测量模型,在所有时间步骤的90(MC)试验的上尾实现38-74。 代码将在接受时公开。
一组音乐作品中的音频信号被建模为研究频率波动的复杂性与低音中提琴达甘巴的解释风格之间的关系的复杂网络。 基于跨学科的科学和音乐方法,我们计算光谱分解并将其频率组件转换为声音网络。 我们应用了一个最适合的分析来识别更精确地描述这些频率的行为的统计分布,并计算了中心度度量,并确定了用于表征这种网络的集团。 研究结果建议统计分布类型的统计规律,最能描述频率波动。 集中度测量证实了一段音乐中最具影响力和稳定的声音组,同时识别最大的一组指示的声音,这些声音紧密地相互作用,以识别复杂频率波动的出现。 因此,通过将声音建模为复杂的网络,我们可以清楚地将大规模统计规律的存在与与同一音乐家演奏的不同音乐事件相关的相似频率波动的存在联系起来。
密度回归模型允许通过建模完整的条件概率分布来全面了解数据。 虽然灵活的估计方法(如归化流(NF))在多个维度上工作得特别好,但由于深度学习模型的黑箱特性,解释此类模型的输入输出关系通常很困难。 相比之下,多变量结果(如多变量条件变换模型(MCTM))的现有统计方法在灵活性上受到限制,并且通常不足以表示复杂的多变量概率分布。 在本文中,我们将MCTM与最先进的自动回归NF相结合,利用MCTM的透明度来对第一步中的边缘分布的可解释特征效应进行建模,以及基于神经网络的NF技术的灵活性,以解释联合数据分布中复杂和非线性的关系。 我们在各种数值实验中展示了我们的方法的多功能性,并将其与MCTM和其他NF模型在模拟和真实世界数据上进行比较。
机器学习(ML)主要发展到解决“预测问题”。 第二阶段最小二乘(2SLS)的第一阶段是一个预测问题,表明ML第一阶段援助的潜在收益。 然而,对于ML何时帮助2SLSx2014或何时受伤,几乎没有什么指导。 我们研究将ML插入2SLS的影响,将偏置分解为三个信息组件。 从机械上讲,ML-in-2SLS程序面临着预测和因果推断设置x2014及其相互作用的共同问题。 通过模拟,我们展示了线性ML方法(例如,后拉索)工作得很好,而非线性方法(例如,随机森林,神经网络)在第二阶段估计中产生实质性偏置x2014可能超过内源性OLS的偏置。
之前的工作已经开发了一系列自动化措施(“检测器”)的学生自我调节和参与从学生日志数据。 这些措施已成功用于发现学生学习。 在这里,我们将这一研究扩展到自我调节的一个探索不足的方面:学生在课堂作业期间决定何时开始和停止学习软件。 在两项分析中,我们建立在会话级措施(例如延迟启动,早期停止)的先前工作的基础上,以评估其可靠性和预测有效性。 我们从认知导师为8-12年级(N = 222)的学生计算了一年的日志数据。 我们的研究结果表明,这些措施表现出中度至高月度的可靠性(G>.75),与游戏系统行为相当或超过。 此外,它们增强了对最终数学分数的预测,超越了先前的知识和游戏系统行为。 超越任务时间的学习结果预测的改善表明,它们捕获了与整体学习相关的更广泛的激励状态。 第二项分析证明了这些措施在i-Ready中的跨系统可推广性,他们预测了7年级学生的状态考试成绩(N = 818)。 通过利用日志数据,我们引入了系统通用的自然嵌入措施,以补充激励调查,而无需额外的仪器或中断教学时间。 我们的发现证明了会话级日志在学习结果的预测建模和学习者自我调节分析中具有广泛应用的有效和可推广的措施的潜力。
虽然基于梯度的离散采样器有效地从复杂的分布中采样,但由于这些景观固有的不连续性,它们很容易被困在局部最小值中,特别是在高维多模态离散分布中。 为了规避这个问题,我们将并行回火(也称为复制交换)与离散的朗格文提案相结合,并开发了平行锤炼增强离散朗格文提案(PTDLP),这些提案是在一系列温度下模拟的。 显著的能源差异促使样品交换,该交换受专门为离散采样设计的大都会标准的约束,以确保保持详细的平衡。 此外,我们引入了自动方案,以确定最佳温度时间表和链数,确保以最小的调调跨不同任务的适应性。 从理论上讲,我们确定我们的算法与目标能量不同步地收敛,并且与单个链相比表现出更快的混合。 经验结果进一步强调了我们的方法在从复杂的多模态离散分布(包括合成问题,受限玻尔兹曼机器和基于深度能量的模型)进行采样方面的优越性。
矿场的稳定性取决于战利品堆的精确安排,同时考虑到其地质和岩土工程特性。 然而,个人堆的现场特征构成了一项艰巨的挑战。 利用基于图像的变质桩表征技术,通过无人机系统使用远程获得的数据,是一个有前途的补充解决方案。 图像处理,如基于对象的分类和特征提取,取决于有效的分割。 这项研究完善并并列了各种分割方法,特别是基于颜色和形态的技术。 目标是加强和评估基于对象的分析途径,以便在采矿环境中进行破坏特性。 此外,在传统的分割方法和那些植根于深度学习方法之间进行比较分析。 在评估的多样化细分方法中,基于形态的深度学习分割方法,分段任何东西模型(SAM),与其他方法相比表现出卓越的性能。 这一结果强调了将先进的形态学和深度学习技术用于准确和高效的破坏堆表征的功效。 这项研究的结果为优化分割策略提供了宝贵的见解,从而推动了基于图像的技术在采矿环境中对战利品堆的表征应用。
这项研究探讨了零镜头时间序列预测的潜力,这是一种利用预先训练的基础模型的创新方法,可以在没有特定任务微调的情况下预测死亡率。 我们使用来自50个国家和111个年龄组的数据,在三个预测领域(5年,10年和20年)中评估两种最先进的基础模型,以及传统和基于机器学习的方法。 在我们的调查中,零镜头模型显示出不同的结果:虽然CHRONOS提供了具有竞争力的短期预测,优于ARIMA和Lee-Carter模型等传统方法,但TimesFM的表现一直表现不佳。 对死亡率数据进行微调CHRONOS显著提高了长期的准确性。 随机森林模型,根据死亡率数据进行训练,取得了最佳的整体表现。 这些发现强调了零镜头预测的潜力,同时强调了仔细模型选择和特定领域适应的必要性。
在高等教育中,许多机构使用算法警报来标记有风险的学生并大规模提供咨询。 虽然许多研究都集中在评估算法预测上,但对人类专家如何自由裁量干预如何在算法辅助设置中塑造结果知之甚少。 我们使用来自佐治亚州立大学算法辅助咨询程序的随机对照试验的丰富定量和定性数据来研究这个问题。 采取混合方法,我们研究顾问是否以及如何使用算法所不具备的上下文来指导干预并影响学生的成功。 我们为介入环境中的人类专业知识开发了一个因果图形框架,在纯粹的预测环境中扩展了先前关于自由裁量权的工作。 然后,我们使用结构化顾问日志和学生结果数据测试自由裁量专业知识的必要条件,确定符合统计意义标准的几个干预措施。 因此,我们估计,在治疗部门的顾问采取的3次干预措施中,有2次是"专家"针对"使用非算法背景的学生。 对顾问笔记的系统定性分析证实了这些发现,表明顾问将各种形式的背景信息(如个人情况,财务问题和学生参与)纳入他们的决策。 最后,我们使用异质治疗效应估计,探索人类自由裁量权对长期结果和公平性的更广泛影响。 我们的结果为算法支持的大学咨询的现实有效性提供了理论和实践的见解,并强调了在算法决策系统的设计,评估和实施中对人类专业知识进行会计的重要性。
我们提供实用,高效和非参数化的方法来审计部署的分类和回归模型的公平性。 虽然以前的工作依赖于固定样本大小,但我们的方法是连续的,并允许对传入的数据进行持续监控,使它们非常易于跟踪现实世界系统的公平性。 我们还允许通过概率政策收集数据,而不是从人口中统一取样。 这使得对为其他目的收集的数据进行审计。 此外,这项政策可能会随着时间的推移而改变,不同的政策可能会在不同的亚种群上使用。 最后,我们的方法可以处理由模型更改或底层人口变化引起的分布变化。 我们的方法是基于最近进展的任何时候有效的推理和游戏理论统计 - 特别是“通过投注测试”框架。 这些连接确保我们的方法可解释、快速且易于实现。 我们展示了我们的方法在三个基准公平数据集上的功效。
我们在2023年国际机器学习会议(ICML)的审查过程中进行了一项实验,要求具有多个投稿的作者根据感知的质量对其论文进行排名。 我们总共获得了1,342个排名,每个排名来自不同的作者,涵盖2,592份。 在本文中,我们介绍了如何利用作者提供的排名来改善机器学习会议上的同行评审过程的经验分析。 我们专注于同位素机制,该机制使用作者提供的排名校准原始评论分数。 我们的分析显示,这些排名校准的分数在估计地面真相“预期评论分数”方面的表现优于原始评论分数,无论是平方和绝对误差指标。 此外,我们建议对同位素机制进行一些谨慎、低风险的应用,并在同行评审中提供作者提供的排名,包括支持高级地区主席监督地区主席的建议,协助选择论文奖,以及指导紧急审查员的招聘。
面部识别技术(FRT)越来越多地用于刑事调查,但大多数对其准确性的评估都依赖于高质量的图像,这与执法部门经常遇到的图像不同。 这项研究研究了五种常见的图像降解形式 - 对比度,亮度,运动模糊,姿势移位和分辨率 - 如何影响人口群体的FRT准确性和公平性。 使用由 StyleGAN3 生成并带有 FairFace 标记的合成人脸,我们模拟退化的图像,并在 1:n 识别任务中使用 Deepface 和 ArcFace 损失来评估性能。 我们进行一项实验,发现假阳性率在基线图像质量附近达到峰值,而假阴性随着降解加剧而增加 - 特别是模糊和低分辨率。 女性和黑人的误差率一直较高,黑人女性受影响最大。 这些差异引起了人们对FRT在现实世界中调查环境中使用时的公平和可靠性的担忧。 然而,即使在最具挑战性的条件下,对于受影响最严重的亚组,FRT的准确性仍然大大高于许多传统的法医方法。 这表明,如果经过适当验证和规范,FRT应被视为一种有价值的调查工具。 然而,仅靠算法的准确性是不够的:我们还必须评估FRT在实践中的使用方式,包括用户驱动的数据操作。 此类案件突出表明,在 FRT 部署方面需要透明度和监督,以确保公平和法医的有效性。
随机对照试验(RCT)是理解因果效应的基石,然而,由于效应异质性和代表性不足,将推断扩展到目标人群带来了挑战。 我们的论文讨论了在RCT中识别和表征代表性不足的子群体这一关键问题,提出了一种新的框架,用于完善目标人群以提高可推广性。 我们引入了一种基于优化的方法,即随机设置最优树(ROOT),以表征代表性不足的群体。 ROOT通过最小化目标平均治疗效果估计的方差来优化目标亚群分布,确保更精确的治疗效果估计。 值得注意的是,ROOT为代表性不足的人群生成可解释的特征,帮助研究人员进行有效的沟通。 与替代品相比,我们的方法证明了与替代品相比的精度和可解释性,如合成数据实验所示。 我们采用我们的方法,将治疗与激动剂替代疗法(START)试验(调查阿片类药物使用障碍药物的有效性)的推理扩展到以治疗集数据集(TEDS-A)为代表的现实人群。 通过使用ROOT来完善目标人群,我们的框架提供了一种系统的方法来提高决策的准确性,并为未来在不同人群中的试验提供信息。
目的:本研究的主要目标是利用加拿大纵向研究(CLSA)提供的数据,探索将评估指标应用于不同的聚类算法,重点是认知特征。 我们工作的目标是发现潜在的临床相关集群,这些集群有助于痴呆症的发展,基于认知变化。 方法:CLSA数据集包括18,891名参与者,其中包含基线和后续评估中的数据,其中应用了聚类算法。 本分析中使用的聚类方法是K-means(KM)聚类,分层聚类(HC)和围绕药物的分区(PAM)。 我们使用多个评估指标来评估我们的分析。 对于内部评估指标,我们使用:平均轮廓宽度,正方形比率(WB.Ratio)和分离指数的总和之间,Entropy,Calinski-Harabasz指数(CH指数)和分离指数。 对于聚类比较指标,我们使用了:同质性、完整性、调整后的兰德指数(ARI)、兰德指数(RI)和变数信息。 结果:使用评估指标比较三种聚类技术的结果,K-means和Partitioning Around Medoids(PAM)产生了类似的结果。 相比之下,K-means聚类和层次聚类之间存在显著差异。 我们的研究强调了两个内部评估指标的重要性:熵和分离指数。 在聚类比较指标之间,调整后的兰德指数是一个关键工具。 结论:研究结果有可能有助于理解痴呆症。 研究人员也可以通过将建议的评估指标应用于医疗保健研究的其他领域而受益。 总体而言,我们的研究提高了使用聚类技术和评估指标来揭示医疗数据中复杂模式的理解。
好奇心和兴趣等流行情绪推动了探究过程。 本研究提出了一种新的认识论情绪,如好奇心和兴趣,使用自由能量最小化原则产生的两种类型的信息增益:Kullback-Leibler divergence(KLD)从贝叶斯后到前,它代表自由能量减少识别,和贝叶斯惊喜(BS),这代表了贝叶斯先前更新的预期信息增益。 通过应用具有额外均匀可能性的高斯生成模型,我们发现KLD和BS形成了一个惊喜的向上凸函数(最小化自由能量和预测误差),类似于Berlyne的唤醒电位函数,或Wundt曲线。 我们认为,BS和KLD的替代最大化产生了一个理想的探究周期,以惊喜的波动接近最佳唤醒水平,并且好奇心和兴趣驱动来促进循环过程。 我们详尽地分析了预测不确定性(先方差)和观测不确定性(可能性方差)对信息增益函数峰值的影响,作为最佳惊喜。 结果表明,更大的预测不确定性,意味着开放的态度,更少的观察不确定性,意味着精确的观察与注意力,预计将通过更大的探索范围提供更大的信息收益。 拟议的数学框架统一了大脑的自由能量原理和唤醒潜力理论,将Wundt曲线解释为信息增益函数,并提出了由认识式情绪驱动的理想探究过程。
层向PTQ是一种用于压缩大型语言模型(LLM)的有前途的技术,因为它的简单性和有效性而不需要再训练。 然而,这一领域的最新进展是饱和的,强调需要重新审视其核心局限性,并探索进一步的改进。 我们通过确定现有层-智能PTQ方法的一个关键限制来应对这一挑战:跨层量化误差的增长显着降低了性能,特别是在低位机制中。 为了解决这个基本问题,我们提出了量化错误传播(QEP),这是一个通用的,轻量级的和可扩展的框架,通过明确传播量化错误和补偿累积错误来增强层明智的PTQ。 QEP还提供了一个可调和的传播机制,可以防止过度拟合和控制计算开销,使框架能够适应各种架构和资源预算。 对几种LLM的广泛实验表明,QEP增强的层-智能PTQ比现有方法具有更高的精度。 值得注意的是,在极低位量化制度中,收益最为明显。
电网的拓扑结构使用信息理论方法进行估计。 通过将网格建模为图形并使用网格中单个节点的电压量级数据,使用不同的近似方法计算对节点对之间的相互信息。 使用众所周知的Chow-Liu算法,计算基于相互信息的最大生成树,以估计电网拓扑结构。 实验和结果被提出来优化这种方法,成功显示了使用MATPOWER生成的IEEE网络和使用GridLAB-D生成的数据。 该算法随后在欧盟联合研究委员会生成的IEEE网络上交叉验证。
企业网络随着攻击面的迅速扩大而变得越来越大,增加了安全控制产生的安全警报量。 安全运营中心(SOC)分析师对这些警报进行分类,以识别恶意活动,但由于大量良性警报,他们与警报疲劳作斗争。 组织正在转向托管的SOC提供商,其中问题被上下文切换和业务流程的可见性有限所放大。 引入了一个名为AACT的新系统,该系统通过学习分析师对网络安全警报的分类操作来自动化SOC工作流程。 它准确地实时预测分诊决策,允许自动关闭良性警报,并优先考虑关键警报。 这减少了SOC队列,使分析师能够专注于最严重,相关或模棱两可的威胁。 该系统已对真实的SOC数据和开放数据集进行了培训和评估,在识别良性警报的恶意警报方面获得了高性能。 此外,该系统在真实的SOC环境中表现出高精度,将向分析师显示的警报减少了61个低假阴性率为1.36。