统计学
Statistics
应用统计学
Applications
计算统计学
Computation
机器学习 (统计)
Machine Learning
污染物观察和异常值在估计认知模型的参数时经常引起问题,这些模型是代表认知过程的统计模型。 在这项研究中,我们使用与神经网络的摊销贝叶斯推理(ABI)测试并改进了参数估计的稳健性。 为此,我们对玩具示例进行系统分析,并使用流行的认知模型(DDM)分析合成和真实数据。 首先,我们用稳健统计数据的工具研究ABI对污染物的敏感性:经验影响函数和分解点。 接下来,我们提出了数据增强或噪声注入方法,该方法在训练过程中将污染分布纳入数据生成过程。 我们检查了几个候选分布,并评估其相对于标准估算器的准确性和效率损失的性能和成本。 在训练过程中从Couchy分布中引入污染物,大大增加了神经密度估计器的稳健性,通过边界影响函数和更高的分解点进行测量。 总体而言,建议的方法是直接和实用的,并且在异常检测或移除具有挑战性的领域具有广泛的适用性。
低温电子显微镜(cryo-EM)是一种强大的成像技术,用于从随机定向粒子的嘈杂断层扫描图像中重建三维分子结构。 我们引入了一种新的数据融合框架,称为双矩(MoDM)方法,它从在不同方向分布下获得的投影图像的二阶时刻的两个实例中重建分子结构 - 一个均匀,另一个不均匀和未知。 我们证明这些时刻通常独特地决定底层结构,最多是全局旋转和反射,我们开发了一种基于凸放松的算法,仅使用二阶统计来实现准确的恢复。 我们的研究结果展示了在不同实验条件下收集和建模多个数据集的优势,这表明利用数据集多样性可以大大提高计算成像任务中的重建质量。
本文首先,为了克服传统ARX模型的缺点,定义了间隔数和真实矩阵之间的新运算符,然后将其应用于传统的ARX模型,以获得一种可以处理区间数据的新型结构间隔ARX模型,该模型被定义为区间ARX模型(IARX)。 其次,IARX模型应用于基于移动模式的建模。 最后,为了验证提议的建模方法的有效性,它应用于烧结过程。 模拟结果表明,使用新型区间ARX模型的移动模式建模对模型参数的变化是稳健的,并且使用建议的IARX建模的性能优于之前的工作。
经济学和生物统计学中的因果和非参数估计值通常可以被视为应用于未知结果回归函数的线性函数的平均值。 天真地学习回归函数,并在有偏见的估算器中抽取目标功能结果的样本平均值,并且已经开发了丰富的去向性文献,其中还学习了目标estimand的所谓Riesz表示者(RR)(目标学习,双ML,自动去偏差等)。 通过其派生的功能形式学习RR可能具有挑战性,例如由于极端逆概率权重或需要学习条件密度函数。 这些挑战促使了自动去差(AD)的最新进展,其中RR是通过最小化定制损失直接学习的。 我们提出时刻受限的学习作为一种新的RR学习方法,解决了AD中的一些缺点,限制了预测的时刻,提高了RR估计的鲁棒性,以优化超参数。 虽然我们的方法与特定类别的学习者无关,但我们使用神经网络来说明它,并使用半合成数据评估平均治疗/衍生效应估计的问题。 我们的数字实验显示了与技术基准状态相比性能的提高。
我们重新审视了在差异隐私下生成合成数据的问题。 为了解决基于边缘的方法的核心限制,我们提出了与贝叶斯网络结构(PrAda-GAN)的私有自适应生成对抗网络(Private Adaptive Generative Adversarial Network),它集成了基于GAN和基于边缘的方法的优势。 我们的方法采用顺序生成器架构来捕获变量之间的复杂依赖关系,同时自适应地规范学习结构,以促进底层贝叶斯网络中的间距。 从理论上讲,我们在参数距离、变量选择误差和Wasserstein距离上建立了递减边界。 我们的分析显示,利用依赖性sarsity可显著提高收敛率。 经验上,合成和真实世界数据集的实验表明,PrAda-GAN在隐私利用权衡方面优于现有的表格数据合成方法。
这项研究调查了半监督设置中的治疗效果估计,我们不仅可以使用标准三重协变,治疗指标和结果,还可以使用未标记的辅助协变。 对于这个问题,我们开发效率边界和高效估计器,其渐近方差与效率约束一致。 在分析中,我们引入了两种不同的数据生成过程:一样本设置和双样本设置。 一个样本设置考虑了我们可以观察数据集一部分的治疗指标和结果的情况,也称为审查设置。 相比之下,双样本设置考虑两个具有标记和未标记数据的独立数据集,也称为案例控制设置或分层设置。 在这两种设置中,我们发现通过合并辅助协变,我们可以降低效率边界并获得一个渐近方差小于没有这种辅助协变的渐变的估计器。
有效的需求预测对于跨行业的库存管理、生产规划和决策至关重要。 选择适当的模型和合适的特征来有效地捕获数据中的模式是需求预测的主要挑战之一。 在现实中,当记录的销售有零时,这变得更加复杂,这可能会自然发生,或者是由于一些异常,如库存和记录错误。 滥用零可能导致应用不适当的预测方法,从而导致决策不力。 此外,需求本身可能具有不同的基本特征,能够区分一种类型和另一种类型可能在准确性和决策方面带来实质性的好处。 我们提出了一个基于模型的两级分类框架,在第一步中,识别人为发生的零,并在第二步中,将需求分类为可能的类型之一:常规/间歇性平滑/笨重,分数/计数。 该框架依赖于统计建模和信息标准。 我们认为,不同类型的需求需要不同的特征,并在经验上表明,与没有生成特征和两阶段框架的情况下直接应用于数据集相比,它们倾向于提高预测方法的准确性并降低库存成本。
本文介绍并讨论了使用LASSO方法的正则化回归和模型选择的估计形式 - 最小绝对收缩和选择运算符。 LASSO被认为是应用于高维计量经济学的主要监督学习方法之一,允许使用大量数据和多个相关控件。 解决了现代计量经济学中高维度性的后果和作为规范化程序基础的稀疏原则的概念问题。 该研究研究了主要的双后选择和后正则化模型,包括应用于工具变量模型的变化。 还简要介绍了Lassopack例程包,其语法以及HD,HDS(High-Dimension Sparse)和IV-HDS模型的例子,其中涉及固定效果估算器的组合。 最后,讨论了该方法在以空运为重点的研究中的潜在应用,重点是关于航空公司和飞机燃料消耗的运行效率的实证研究。
多种治疗方法的同步应用在许多领域越来越普遍,如医疗保健和营销。 在这种情况下,重要的是要估计治疗组合产生的单一治疗效果和相互作用治疗效果。 以前的研究已经建议使用具有子网络的独立结果网络进行交互,或者将捕获处理与变体自动编码器相似的任务嵌入网络结合起来。 然而,这些方法由于相关处理之间缺乏参数共享而受到影响,或者对不必要的潜在变量的估计降低了因果效应估计的准确性。 为了解决这些问题,我们提出了一个新的深度学习框架,其中包含一个任务嵌入网络和一个具有平衡惩罚的表示学习网络。 任务嵌入网络可实现跨相关处理模式的参数共享,因为它编码了单一效应和交互效应特有的贡献。 具有平衡惩罚的表示学习网络从观察到的协方差中非参数地学习表示,同时减少不同处理模式的表示分布的距离。 这个过程减轻了选择偏差,避免了模型的错误指定。 模拟研究表明,所提出的方法优于现有基线,应用于现实世界的营销数据集证实了我们框架的实际意义和实用性。
确定具有不同治疗反应的患者亚组是为未来临床试验的医疗建议、指南和设计提供信息的重要任务。 现有的治疗效果估计方法主要依赖于随机对照试验(RCTs),该试验往往具有更均匀的患者组,使其与发现现实世界临床实践中遇到的人群中的亚组不太相关。 为RCT建立的分组分析在应用于观察性研究时存在显着的统计偏差,这些研究受益于更大,更具代表性的人群。 我们的工作引入了一种新的,结果引导的亚组分析策略,用于确定RCT和观察研究中治疗反应的亚组。 因此,它将自身定位在个性化和平均治疗效果估计之间,以发现具有独特治疗反应的患者亚组,这对于可能影响治疗指南的可操作见解至关重要。 在实验中,我们的方法明显优于随机和观察治疗机制中当前最先进的亚组分析方法。
我们解决了在网络中同时估计弧线旅行时间的问题,以及用于战略和战术网络规划目的的路线选择模型参数。 此外,在关于道路交通网络的文献中,这些相互依赖的任务已经分别处理。 我们说明忽略这种相互依赖性会导致错误的路由选择模型参数估计。 我们提出了一种方法,用于最大可能性估计,以解决适用于任何可区分路线选择模型的同步估计问题。 此外,我们的方法允许在不同粒度水平上自然地混合观测,包括嘈杂或部分路径数据。 基于纽约市真实出租车数据的数字结果表明,我们的方法表现强劲,即使与仅专注于弧线旅行时间估计的基准方法相比也是如此。
移动健康(mHealth)技术的无处不在性扩大了将强化学习整合到传统临床试验设计中的机会,使研究人员能够在研究期间学习个性化的治疗政策。 LowSalt4Life 2(LS4L2)是最近的一项试验,旨在通过基于应用程序的干预减少高血压患者的钠摄入量。 一种强化学习算法,部署在其中一个试验域中,旨在发送提醒通知,以促进应用程序参与在通知有效的情况下,即当参与者可能在未来30分钟内打开应用程序时,而不是当先前数据表明降低有效性时。 这种算法可以通过减轻参与者负担和更有效地促进行为改变来改善基于应用程序的mHealth干预。 在学习算法的实现过程中,我们遇到了各种挑战,我们将其作为模板,用于解决未来部署强化学习算法的试验中的挑战。 我们提供基于LS4L2的模板解决方案,用于解决以下关键挑战:(i)定义相关奖励,(ii)确定有意义的优化时间尺度,(iii)指定允许自动化的稳健统计模型,(iv)平衡模型的灵活性与计算成本,以及(v)解决逐渐收集的数据中的缺失值。
减少维度是现代数据科学的一项基本任务。 已经提出了几种专门根据通过局部嵌入考虑数据非线性的投影方法。 这种方法通常基于当地的社区结构,需要调整定义这种地方结构的邻居的数量,以及预测数据的低维空间的维度。 这种选择严重影响了由此产生的嵌入的质量。 在本文中,我们利用最近提出的固有维度估算器,该估算器还根据一些理想的标准返回最佳的本地适应性社区尺寸。 原则上,可以使用这个自适应框架来对依赖于本地邻居结构的任何尺寸减小算法进行最佳的超参数调整。 现实世界和模拟数据集上的数字实验表明,当用于各种学习任务时,建议的方法可用于显着改进众所周知的投影方法,通过定量指标和低维可视化的质量来衡量改进。
我们为基于贝叶斯模型的大规模二进制和分类数据集聚类提出了联合学习方法。 我们引入了一个原则性的“分而治标”的推理程序,使用局部合并的变异推理,并并行删除数据批次内的移动,然后跨批次进行“全局”合并移动,以查找全局聚类结构。 我们表明,这些合并移动只需要每个批次中数据的摘要,从而实现跨本地节点的合并学习,而无需共享完整的数据集。 模拟和基准数据集的经验结果表明,与现有的聚类算法相比,我们的方法表现良好。 我们通过将其应用于大规模电子健康记录(EHR)数据来验证该方法的实际实用性。
变量逻辑回归是一种流行的方法,用于近似贝叶斯推理,在机器学习的许多领域广泛使用,包括:贝叶斯优化,强化学习和多实例学习等等。 然而,由于证据下界的复杂性,作者已经转向使用蒙特卡洛,四边形或边界来执行推理,这些方法成本很高,或者对真正的后验度很差。 在本文中,我们介绍了对softplus函数的期望的新绑定,并随后展示了如何将其应用于变异逻辑回归和高斯过程分类。 与其他边界不同,我们的建议不依赖于扩展变体家族,或引入额外的参数来确保边界紧密。 事实上,我们表明这种约束比最先进的更紧密,由此产生的变向后实现了最先进的性能,同时比蒙特卡洛方法计算得更快。
我们引入了一种基于 Cluster Catch Digraphs (CCD) 的聚类的新方法。 新方法通过使用采用空间随机性测试的新变体来解决RK-CCD的限制,该测试使用最近邻距离(NND)而不是RK-CCD使用的Ripley的K函数。 我们进行全面的蒙特卡洛分析,以评估我们方法的性能,考虑诸如尺寸、数据集大小、集群数量、集群数量和集群间距离等因素。 我们的方法对于高维数据集特别有效,可与依赖 KS 型统计或 Ripley 的 KS-CCD 和 RK-CCD 相媲美或优于 KS-CCD。 我们还使用真实和复杂的数据集评估我们的方法,将它们与众所周知的聚类方法进行比较。 同样,我们的方法表现出具有竞争力的性能,产生具有理想性能的高质量集群。 关键词:基于图形的聚类,聚类捕获digraphs,高维数据,最近的邻居距离,空间随机性测试
这项研究提出了反事实用户行为预测的新框架,将结构因果模型与基于变压器的生成式人工智能相结合。 为了对虚构的情况进行建模,该方法创建了因果图,绘制了用户交互、采用指标和产品功能之间的联系。 该框架通过使用以因果变量为条件的生成模型,在反事实条件下生成现实的行为轨迹。 在来自Web交互,移动应用程序和电子商务的数据集上进行测试,该方法优于传统的预测和提升建模技术。 产品团队可以在部署前有效地模拟和评估可能的干预措施,这要归功于该框架通过因果路径可视化提高了可解释性。
本工作旨在通过利用相关性信息来提高并行大规模排序选择(R S)问题的样本效率。我们修改了并行计算中常用的"分治"框架,增加了一个基于相关性的聚类步骤,将其转变为"聚类并治"。在对称基准场景下的分析结果表明,这一看似简单的修改为广泛使用的一类样本最优R S过程带来了𝒪(p)的样本复杂度降低。我们的方法具有两个关键优势:1)不需要高精度的相关性估计或精确聚类,2)可以与各种现有R S过程无缝集成,同时实现最优样本复杂度。理论上,我们开发了一个新颖的梯度分析框架来分析样本效率并指导大规模R S过程的设计。我们还引入了一种专为大规模场景定制的新型并行聚类算法。最后,在神经架构搜索等大规模人工智能应用中,我们的方法展示了优越的性能。
可解释表示学习是现代机器学习的核心挑战,特别是在神经成像、基因组学和文本分析等高维环境中。 目前的方法往往难以平衡可解释性和模型灵活性的竞争需求,限制了它们从复杂数据中提取有意义的见解的有效性。 我们引入了非负Stiefel近似流(NSA-Flow),这是一种通用矩阵估计框架,将思想从稀疏的矩阵因子化、正交化和受限的歧义学习中统一起来。 NSA-Flow通过重建保真度和柱式装饰之间的持续平衡来强制执行结构化稀疏性,由单个可调重量参数化。 该方法在Stiefel流形附近以平滑流运行,具有非负性和自适应梯度控制的近端更新,产生同时稀疏,稳定和可解释的表示。 与经典的正则化方案不同,NSA-Flow提供了一种直观的几何机制,用于在全球结构水平上操纵时空,同时简化潜在特征。 我们证明,NSA-Flow目标可以顺利优化,并与现有管道无缝集成,以减少尺寸,同时提高模拟和真实生物医学数据中的可解释性和泛化。 对Golub白血病数据集和阿尔茨海默病的实证验证表明,NSA-Flow约束可以保持或提高相关方法的性能,几乎没有额外的方法努力。 NSA-Flow为可解释的ML提供了一个可扩展的通用工具,适用于数据科学领域。
情境线性优化(CLO)使用预测性上下文特征来降低目标中随机成本系数的不确定性,从而提高决策性能。 一个规范的例子是随机的最短路径问题,随机边缘成本(例如,旅行时间)和上下文特征(例如,滞后的交通,天气)。 虽然CLO的现有工作假设完全观察到的成本系数向量,但在许多应用中,决策者只观察到与历史上每个选择的决策相应的部分反馈。 在本文中,我们研究土匪反馈设置(例如,仅观察到每个历史路径的整体旅行时间)和半土匪反馈设置(例如,还观察到每个选定路径上各个段的旅行时间)。 我们提出了具有不同类型反馈的CLO的统一离线学习算法,遵循强大的诱导经验风险最小化(IERM)框架,该框架集成了估计和优化。 我们为 IERM 提供了一种新的快速后悔,允许错误指定的模型类和灵活的估计方法选择。 为了解决部分反馈的IERM,我们还量身定制了可计算处理的代理损失。 我们独立兴趣理论的一个副产品是IERM的快率遗憾,具有完整的反馈和错误指定的政策类。 我们使用模拟和真实数据上的随机最短路径示例,以数值方式比较不同方法的性能,并提供经验结果的实际见解。
继续滚动加载更多