先前数据拟合网络(PFN)已成为表格数据集预测的有希望的基础模型,无需调整即可在小到中数据大小上实现最先进的性能。 虽然PFNs是由贝叶斯思想驱动的,但它们并没有为预测手段,分位数或类似数量提供任何不确定性量化。 我们提出了一个有原则和有效的抽样程序,以根据Martingale后验,为此类估计构建贝叶斯后验,并证明其趋同。 几个模拟和真实世界的数据示例展示了我们在推理应用中方法的不确定性量化。
高斯过程(GP)作为灵活的机器学习模型,通过内置的不确定性量化方法实现了回归和函数近似,因此越来越受欢迎。 然而,当训练数据量大或底层函数包含难以由固定内核表示的多尺度特征时,GP会受到影响。 为了解决前者,通过大规模数据对GP的训练通常通过诱导点近似(也称为稀疏GP回归(GPR))进行,其中GPR中的协方差矩阵的大小通过在数据集上的贪婪搜索而大大减少。 为了帮助后者,深度全科医生已经获得了牵引力,通过结合多个全科医生来解决多尺度特征。 深度全科医生的后推断需要取样,或者更常见的是变异近似。 变化近似导致大规模的随机,非凸优化问题,由此产生的近似往往错误地表示不确定性。 在这项工作中,我们将变异学习与MCMCM相结合,开发了一种基于粒子的期望最大化方法,以同时在大规模数据(可变)中找到诱导点,并准确训练全科医生(基于采样)。 其结果是对大规模数据进行深度全科医生培训的高效和准确方法。 我们在标准基准问题上测试我们的方法。
顺序蒙特卡洛(SMC)方法为贝叶斯不确定性量化提供了一种有原则的方法,但传统上受到全批梯度评估需求的限制。 我们通过将随机梯度哈密尔顿蒙特卡洛(SGHMC)提案纳入SMC,引入可扩展变体,从而实现基于小型批量的高效采样。 我们生成的 SRCSGHMC 算法优于标准随机梯度下降 (SGD) 和深度集成,包括图像分类、异种 (OOD) 检测和传输学习任务。 我们进一步证明,SMCSGHMC可减轻过拟合并改善校准,为将预训练的神经网络转换为校准良好的贝叶斯模型提供了灵活、可扩展的途径。
用户和实体行为分析(UEBA)是数据分析的一个广泛分支,试图建立正常的行为配置文件,以检测异常事件。 在用于检测异常的技术中,Deep Autoencoders构成了UEBA任务中最有前途的深度学习模型之一,允许可解释的安全事件检测,可能导致个人数据泄漏,劫持系统或访问敏感业务信息。 在这项研究中,我们介绍了基于UEBA的可解释的异常检测框架的第一个实现,该框架利用Deep Autoencoders与Doc2Vec相结合来处理数值和文本特征。 此外,基于神经网络的理论基础,我们提供了一个新颖的证明,证明了完全连接神经网络的两个广泛使用的定义的等效性。 实验结果表明,拟议的框架能力可以检测从真实攻击数据中有效生成的真实和合成异常,表明这些模型不仅提供了对异常的正确识别,而且还提供了可解释的结果,从而重建了异常的可能起源。 我们的研究结果表明,拟议的UEBA框架可以无缝集成到企业环境中,补充现有的安全系统,以便进行可解释的威胁检测。
顺序蒙特卡洛(SMC)方法为贝叶斯不确定性量化提供了一种有原则的方法,但传统上受到全批梯度评估需求的限制。 我们通过将随机梯度哈密尔顿蒙特卡洛(SGHMC)提案纳入SMC,引入可扩展变体,从而实现基于小型批量的高效采样。 我们生成的 SRCSGHMC 算法优于标准随机梯度下降 (SGD) 和深度集成,包括图像分类、异种 (OOD) 检测和传输学习任务。 我们进一步证明,SMCSGHMC可减轻过拟合并改善校准,为将预训练的神经网络转换为校准良好的贝叶斯模型提供了灵活、可扩展的途径。
生成方法(Gen-AI)被审查,其特定目标是解决机器学习和贝叶斯推理中的任务。 生成模型需要模拟大型训练数据集,并使用深度神经网络来解决监督学习问题。 为此,我们需要高维回归方法和减少维度的工具(即特征选择)。 Gen-AI方法的主要优点是它们能够无模型,并使用深度神经网络来估计条件密度或后五分位数。 为了说明生成方法 ,我们分析了著名的埃博拉数据集。 最后,我们总结一下未来研究的方向。
专家混合(MoE)模型构成了统计学和机器学习中广泛使用的集成学习方法,以其灵活性和计算效率而闻名。 它们已成为许多最先进的深度神经网络架构中不可或缺的组成部分,特别是用于分析不同领域的异构数据。 尽管它们取得了实际成功,但模型选择的理论理解,特别是关于混合物成分或专家的最佳数量,仍然有限,并带来了重大挑战。 这些挑战主要源于高斯门控函数和专家网络中的协变,它引入了由偏微分方程对其参数控制的内在相互作用。 在本文中,我们重新审视了混合测量的树突图概念,并引入了对高斯门高斯MoE模型的新扩展,该模型能够一致估计混合成分的真实数量,并在过拟合场景中实现参数估计的点最佳收敛率。 值得注意的是,这种方法规避了训练和比较一系列具有不同组件数量的模型的需求,从而减轻了计算负担,特别是在高维或深度神经网络设置中。 合成数据的实验结果表明,拟议方法在准确恢复专家人数方面的有效性。 它优于普通标准,如Akaike信息标准,贝叶斯信息标准以及集成完成的可能性,同时实现参数估计的最佳收敛率并准确近似回归函数。
先前数据拟合网络(PFN)已成为表格数据集预测的有希望的基础模型,无需调整即可在小到中数据大小上实现最先进的性能。 虽然PFNs是由贝叶斯思想驱动的,但它们并没有为预测手段,分位数或类似数量提供任何不确定性量化。 我们提出了一个有原则和有效的抽样程序,以根据Martingale后验,为此类估计构建贝叶斯后验,并证明其趋同。 几个模拟和真实世界的数据示例展示了我们在推理应用中方法的不确定性量化。
正量运输是无数物理过程的基础,包括流体、气体和等离子体动力学。 用加勒金方法将相关的偏微分方程离散化,可能会导致溶液的虚假非正敌。 我们观察到,这些方法相当于使用矩(MoM)方法执行统计推断,并且正性丧失是由于MoM对产生与观察到的数据不一致的估计的易感性而引起的。 我们通过用最大可能性估计替换MoM来克服这个问题,引入最大可能性离散化(MLD)。 在连续限制中,MLD简化了Fisher-Rao Galerkin(FRG)半离散化,它用Fisher-Rao概率分布度量取代了Galerkin投影中的L^2内产品。 我们的经验表明,FRG保持积极。 我们严格地证明,它在 Kullback - Leibler 的分化中产生了错误界限。
我们提出了一类基于 Nesterov 的加速梯度方法的离散状态采样算法,该方法扩展了经典的 Metropolis-Hastings (MH) 算法。 由MH控制的离散状态概率分布的演变可以通过移动函数和分数函数解释为Kullback-Leibler(KL)发散的梯度下降方向。 具体来说,这个梯度是在配备具有移动函数的离散Wasserstein-2指标的概率上定义的。 这激励我们研究基于动量加速框架,使用在 simplex 集上受阻的 Hamiltonian 流,其固定分布与离散目标分布相匹配。 此外,我们设计了一个相互作用的粒子系统来近似拟议的加速采样动力学。 还讨论了具有一般选择潜力和流动性的算法的扩展。 特别是,我们选择相对Fisher信息的加速梯度流,展示了算法在估计离散分数函数方面的优势,而不需要规范化常数并保持正概率。 数字示例,包括在晶格上支持的高斯混合物上的采样或超立方体上的分布,证明了拟议的离散状态采样算法的有效性。
这项工作引入了一种称为可扩展的贝叶斯蒙特卡洛(SBMC)的新方法。 该模型在点估算器和后验器之间插值,该算法是一致(无偏不倚)贝叶斯深度学习算法的并行实现:顺序蒙特卡洛(SMC)或马尔可夫链蒙特卡洛(MCMC)。 该方法在理论上是激励的,其效用体现在实际示例上:MNIST,CIFAR,IMDb。 一项系统数值研究表明,SMC和MCMC的并行实现在性能和总成本方面与串行实现相当,并且在最先进的(SOTA)方法上或超出尖端集成时达到准确性,如融合时的深度集成,以及显着改善的不确定性量化(UQ) - 特别是认识式UQ。 但即使是并行实现也是昂贵的,具有不可简化的时间障碍,比MAP估计器的成本大得多。 压缩时间进一步导致准确性的快速下降,而UQ仍然有价值。 通过锚定到点估算器,我们可以恢复准确性,同时保留有价值的UQ,最终在跨指标上提供与SOTA相当的高性能。
高斯过程(GP)作为灵活的机器学习模型,通过内置的不确定性量化方法实现了回归和函数近似,因此越来越受欢迎。 然而,当训练数据量大或底层函数包含难以由固定内核表示的多尺度特征时,GP会受到影响。 为了解决前者,通过大规模数据对GP的训练通常通过诱导点近似(也称为稀疏GP回归(GPR))进行,其中GPR中的协方差矩阵的大小通过在数据集上的贪婪搜索而大大减少。 为了帮助后者,深度全科医生已经获得了牵引力,通过结合多个全科医生来解决多尺度特征。 深度全科医生的后推断需要取样,或者更常见的是变异近似。 变化近似导致大规模的随机,非凸优化问题,由此产生的近似往往错误地表示不确定性。 在这项工作中,我们将变异学习与MCMCM相结合,开发了一种基于粒子的期望最大化方法,以同时在大规模数据(可变)中找到诱导点,并准确训练全科医生(基于采样)。 其结果是对大规模数据进行深度全科医生培训的高效和准确方法。 我们在标准基准问题上测试我们的方法。
机器学习模型对生物序列的日益采用加剧了对可解释预测的需求,Shapley值成为模型解释的理论基础标准。 虽然对单个输入序列的局部解释有效,但扩展基于Shapley的解释性以提取全球生物学见解需要评估数千个序列 - 每个查询产生指数计算成本。 我们引入了SHAP零,这是一种新颖的算法,用于在大规模生物数据集中摊销Shapley价值计算的成本。 在一次性模型草图步骤之后,SHAP zero通过发现Shapley值,高阶特征交互和模型的稀疏傀儒变换之间的未开发连接,为未来查询提供接近零的边际成本。 应用于指导RNA功效,DNA修复结果和蛋白质适应性的模型,SHAP零解释预测数量级比现有方法快,恢复以前无法大规模获得的丰富组合相互作用。 这项工作为生物学中的黑盒序列模型提供了原则性,高效和可扩展的可解释性的大门。
Ensemble Kalman inversion(EKI)是一种基于粒子的无衍生优化方法,用于解决逆问题。 可以证明 EKI 近似梯度流,它允许应用加速梯度下降的方法。 在这里,我们展示了雀巢夫加速在各种逆问题上有效加快降低EKI成本功能。 我们还为两个 EKI 变体实现了 Nesterov 加速,没有香味的 Kalman 反转和集成变换 Kalman 反转。 我们的具体实现采用粒子级推力的形式,以黑匣子的方式与任何现有的EKI变体算法耦合,没有额外的计算费用,也没有额外的调优超参数。 这项工作为未来的研究提供了一条途径,将梯度优化的进展转化为无梯度卡尔曼优化的进展。
尽管新的成像技术在研究大脑结构和功能方面取得了成功,但测量的生物信号通常受到多种噪声源的污染,这是由于被扫描的个人的头部运动,有限的空间/时间分辨率或每个成像技术特有的其他问题而引起的。 因此,数据预处理(例如去核化)至关重要。 多年来,预处理管道变得越来越复杂,但也更加灵活,这种灵活性可以对给定研究的最终结果和结论产生重大影响。 这个大的参数空间通常被称为多元宇宙分析。 在这里,我们提供用于统计分析的概念和实用工具,可以汇总多个管道结果,以及针对跨管道假设的新灵敏度分析测试,例如“在所有管道中无影响”或“至少一条管道无影响”。 拟议的框架是通用的,可以应用于任何多元宇宙场景,但我们根据正电子发射断层扫描数据说明了它的使用。
多模态和高维后验对变异推断提出了重大挑战,尽管在理论上是正常化流动的表现力,但还是导致了模式寻求行为和崩溃。 传统的退火方法需要温度表和超参数调优,达不到真正黑盒变异推断的目标。 我们引入了FlowVAT,一种条件钢化方法,用于规范化流量变异推断,可解决这些限制。 我们的方法同时调节基数和目标分布,在回火下保持亲和不变性。 通过调节温度上的正常化流,我们利用超参数化神经网络的概括能力,在一系列温度下训练代表后源的单一流量。 这保留了在较高温度下从T = 1的变向后采样时识别的模式,减轻了标准变异方法的测模式行为。 在2、10和20维多模态分布的实验中,FlowVAT优于传统和自适应退火方法,发现更多模式并实现更好的ELBO值,特别是在现有方法失败的更高维度。 我们的方法需要最小的超参数调优,并且不需要退火时间表,朝着复杂后人的全自动黑盒变化推断前进。
我们引入了切片最优传输数据集距离(s-OTDD),这是一种模型无关的、嵌入无关的数据集比较方法,无需训练,对类数的变化很健壮,可以处理不连接的标签集。 核心创新是Moment Transform Projection(MTP),它将一个标签(表示为特征分布)映射到实数。 使用MTP,我们导出一个数据点投影,将数据集转换为一维分布。 s-OTDD被定义为预测分布之间的预期Wasserstein距离,相对于随机投影参数。 利用一维最优传输的封闭形式解决方案,s-OTDD在数据点数和特征维度上实现了(近)线性计算复杂性,并且独立于类的数量。 凭借其几何上有意义的投影,s-OTDD与最佳传输数据集距离密切相关,同时比现有的数据集差异测量更有效。 此外,它与数据增强的传输学习和分类准确性的性能差距密切相关。
统计泰勒扩展取代了传统泰勒扩展中的输入精确变量,每个变量都带有已知分布,以计算结果均值和偏差。 它基于不相关的不确定性假设:每个输入变量以足够精细的统计精度独立测量,因此它们的不确定性相互独立。 统计泰勒扩展回顾说,中间分析表达式不能再被视为相互独立,分析表达式的结果应该是路径独立的。 这个结论与应用数学中传统的通用方法有根本的不同,以找到结果的最佳执行路径。 本文还介绍了统计泰勒扩展的实现,称为方差算术,以及对方差算术的测试。
在机器学习和统计学中,由核函数两两评估产生的稠密核矩阵自然而然地出现。先前的工作通过最小化Kullback-Leibler散度来构建此类矩阵的稀疏近似逆Cholesky因子,从而恢复了高斯过程的Vecchia近似。这些方法仅依赖于评估点的几何结构来构建稀疏模式。在这项工作中,我们通过利用贪婪选择算法来构建稀疏模式,该算法在给定所有先前选择的点的情况下,最大化与目标点的互信息。对于从N个点中选择k个点,朴素的时间复杂度为𝒪(N k^4),但通过维护部分Cholesky因子,将其降低到𝒪(N k^2)。此外,对于多个(m)目标,我们实现了时间复杂度为𝒪(N k^2 + N m^2 + m^3),这在聚合Cholesky分解的环境中得以保持,其中选定的点不必对每个目标进行条件设置。我们将选择算法应用于图像分类和稀疏Cholesky因子的恢复。通过最小化Kullback-Leibler散度,我们将该算法应用于Cholesky分解、高斯过程回归以及与共轭梯度法的预处理,从而优于k最近邻选择。
独立组件分析(ICA)是将多变量信号或分布分解为完全独立源的强大工具,而不仅仅是不相关的源。 不幸的是,对ICA的大多数方法对异常值并不稳健。 在这里,我们提出了一种称为ICA的健壮的ICA方法,该方法通过最小化多变量之间依赖性的强项测量来估计组件。 所使用的依赖性度量是距离相关性(dCor)。 为了使其更加坚固,我们首先应用了一个名为碗变换的新变换,它是有边界的,一对一的,连续的,并且将远端映射到接近原产地的点。 这保留了零 dCor 意味着独立性的关键属性。 RICA通过寻找其余部分具有最小dCor的组件来按顺序估计独立源。 RICA 非常一致,具有通常的参数化收敛率。 它的稳健性是由一项模拟研究调查的,其中它通常优于竞争对手。 该方法在三个应用程序上进行了说明,包括众所周知的鸡尾酒会问题。
贝叶斯反转是量化科学和工程中众多应用中出现的问题不确定性的核心。 要制定方法,需要四个要素:向前模型将未知参数映射到溶液空间的元素,通常是微分方程的求解空间;将溶液空间的一个元素映射到数据空间的观测运算符;描述噪声如何污染观测的噪声模型;以及描述数据获取之前未知参数知识的先验模型。 本文涉及从数据中学习先验模型;特别是从通过嘈杂的观察过程获得的间接数据的多个实现中学习先验。 先验是表示,使用生成模型,作为高斯在潜在空间中的推进;通过最小化适当的损失函数来学习推进图。 在经验近似值下定义良好的度量值用于定义推送图的损失函数,以生成可实施的方法。 此外,提出了对前向模型进行高效的基于残余的神经运算符近似,并且表明这可能与推进图同时学习,使用问题的双级优化公式;这种神经运算符近似的使用有可能使先前从间接数据中学习更具计算效率,特别是当观察过程昂贵,非平滑或未知时。 这些想法是用达西流动的反向问题来说明的,从压电测量中寻找渗透性。
如今,神经网络被认为是各种任务的最有效方法之一,如异常检测,计算机辅助疾病检测或自然语言处理。 然而,这些网络受到“黑箱”问题的困扰,这使得他们很难理解他们如何做出决定。 为了解决这个问题,引入了一个名为 neuralGAM 的 R 包。 这个包实现了基于广泛添加剂模型的神经网络拓扑结构,允许拟合独立的神经网络来估计每个特征对输出变量的贡献,从而产生一个高度准确和可解释的深度学习模型。 NeuralGAM包为训练通用添加剂神经网络提供了一个灵活的框架,它不会对神经网络架构施加任何限制。 我们说明了在合成和真实数据示例中使用 neuralGAM 包的情况。
标准A/B测试方法主要基于大规模工业应用中的t测试。 然而,由于小样本规模或非高斯分布或投资回报率(ROI)考虑的性质,这些标准方法在商业环境中的统计能力较低。 在本文中,我们提出了几种方法来解决这些挑战:(i)回归调整,广义估计方程,Man-Whitney U和Zero-Trimed U分别解决这些问题,以及(ii)一个新颖的加倍稳健的广义U,在一个框架中处理ROI考虑,分布稳健性和小样本。 我们提供无症状的常态和效率边界的理论结果,以及理论分析效率收益的见解。 我们进一步进行全面的模拟研究,并将方法应用于多个真实的A/B测试。