符号回归自动化从数据中学习封闭式数学模型的过程。 符号回归的标准方法以及较新的深度学习方法依赖于英雄主义模型选择标准,英雄主义正则化和模型空间的人文主义探索。 在这里,我们讨论了符号回归的概率方法,这是这种与信息理论和统计物理学直接相关的后人主义方法的替代品。 我们展示了概率方法如何从基本考虑和明确的近似值中建立模型合理性,以及它如何提供经验方法缺乏的性能保证。 我们还讨论了概率方法如何迫使我们考虑模型集合,而不是单一模型。
神经网络量子态(NQS)是强大的神经网络类,它已成为通过变异原理透镜研究量子多体物理学的有前途的工具。 众所周知,这些架构可以通过增加参数的数量来系统地进行改进。 在这里,我们演示了一个自适应方案,通过循环神经网络(RNN)的例子来优化NQS,使用一小部分计算成本,同时减少训练波动,提高针对一空间和双空间维度原型模型地面状态的变异计算质量。 这种自适应技术通过训练小型RNN并重复使用它们来初始化更大的RNN来降低计算成本。 这项工作为优化部署在大规模 NQS 模拟中的图形处理单元 (GPU) 资源开辟了可能性。
Hamiltonian Monte Carlo (HMC) 是一种强大而准确的方法,可以从贝叶斯推理中的后验分布中取样。 然而,HMC技术对贝叶斯神经网络的计算要求很高,因为网络的参数空间的噪声性及其后分布的非凸性。 因此,各种近似技术,如变化推断(VI)或随机梯度MCMC,通常用于推断网络参数的后验分布。 这种近似值在推断的分布中引入不准确之处,导致不可靠的不确定性估计。 在这项工作中,我们提出了一种混合方法,该方法结合了廉价的VI和精确的HMC方法,以有效和准确地量化神经网络和神经网络运算符的不确定性。 拟议的办法利用了关于整个网络的初步第六培训。 我们考察单个参数对预测不确定性的影响,这表明很大一部分参数对网络预测的不确定性没有实质性的贡献。 然后,这些信息用于显著减小参数空间的维度,HMC仅针对强烈影响预测不确定性的网络参数子集执行。 这产生了一个框架,用于加速神经网络中后推理的全批HMC。 我们展示了在深度神经网络和运算网络上提出的框架的效率和准确性,表明可以为具有数以万计到数十万个参数的大型网络执行推理。 我们表明,这种方法可以通过建模从上游条件映射到高声波流圆锥体上的壁压数据的操作员来有效地学习复杂物理系统的代理。
湍流中拉格朗日粒子的动力学在复杂流动的混合、输运和扩散过程中起着关键作用。其轨迹表现出高度非平凡的统计行为,这促使人们开发能够复现这些轨迹的代理模型,从而避免直接数值模拟完整欧拉场的高计算成本。这项任务尤其具有挑战性,因为降阶模型通常无法获取与底层湍流场的完整相互作用。新颖的数据驱动机器学习技术在捕捉和复现降阶/代理动力学的复杂统计特性方面非常强大。在本工作中,我们展示了如何学习一个代理动力系统,该系统能够以点对点精确的方式演化湍流拉格朗日轨迹(相对于Kolmogorov时间的短期预测),并在长时间尺度上保持稳定和统计准确性。该方法基于Mori-Zwanzig形式体系,该体系将完整动力系统数学分解为:依赖于当前状态和一组降阶观测量的历史记录的可解析动力学,以及由初始状态未解析自由度引起的不可解析正交动力学。我们展示了如何通过在短期预测的点对点误差指标上训练这个降阶模型,能够正确学习拉格朗日湍流的动力学,从而在测试时也能稳定地恢复长期统计行为。这为一系列新应用开辟了道路,例如湍流中主动拉格朗日代理的控制。
我们开发了一个深度变异自由能框架,以计算热致密物质区域中氢的状态方程。 该方法使用三个深生成模型对有限温度下氢核和电子的变异密度矩阵进行参数化:一个表示经典原子核的玻尔兹曼分布的正态流模型,一个模拟激发态电子分布的自回归变压器,以及一个排列等变量流模型,该模型为Hartree-Fock轨道中的电子构建回流坐标。 通过联合优化三个神经网络以最小化变异自由能,我们获得了致密氢的状态方程和相关热力学特性。 我们将我们的结果与氘Hugoniot曲线上的其他理论和实验结果进行比较,旨在解决现有的差异。 计算的结果为温暖致密物质区域的氘提供了宝贵的基准。
符号回归自动化从数据中学习封闭式数学模型的过程。 符号回归的标准方法以及较新的深度学习方法依赖于英雄主义模型选择标准,英雄主义正则化和模型空间的人文主义探索。 在这里,我们讨论了符号回归的概率方法,这是这种与信息理论和统计物理学直接相关的后人主义方法的替代品。 我们展示了概率方法如何从基本考虑和明确的近似值中建立模型合理性,以及它如何提供经验方法缺乏的性能保证。 我们还讨论了概率方法如何迫使我们考虑模型集合,而不是单一模型。
自动驾驶实验室(SDL)已经显示出通过将机器学习与自动化实验平台集成来加速材料发现的承诺。 然而,输入参数捕获的错误可能会损坏用于建模系统性能的功能,从而影响当前和未来的活动。 这项研究开发了一个自动化工作流程,可以系统地检测嘈杂的特征,确定可以纠正的样本特征配对,并最终恢复正确的特征值。 然后进行系统研究,研究数据集大小、噪声强度和特征值分布如何影响噪声特征的可检测性和可恢复性。 一般来说,高强度噪声和大型训练数据集有利于噪声特征的检测和校正。 低强度噪声可减少检测和恢复,但可以通过更大的清洁训练数据集来补偿。 检测和校正结果因连续和分散特征分布的特征而异,与具有离散或窄分布的特征相比,显示更大的可恢复性。 这项系统研究不仅展示了在存在噪声、有限数据和不同特征分布的情况下合理数据恢复的与模型无关框架,而且还提供了材料数据集中kNN估算的有形基准。 最终,它旨在提高自动化材料发现中的数据质量和实验精度。
神经网络量子态(NQS)是强大的神经网络类,它已成为通过变异原理透镜研究量子多体物理学的有前途的工具。 众所周知,这些架构可以通过增加参数的数量来系统地进行改进。 在这里,我们演示了一个自适应方案,通过循环神经网络(RNN)的例子来优化NQS,使用一小部分计算成本,同时减少训练波动,提高针对一空间和双空间维度原型模型地面状态的变异计算质量。 这种自适应技术通过训练小型RNN并重复使用它们来初始化更大的RNN来降低计算成本。 这项工作为优化部署在大规模 NQS 模拟中的图形处理单元 (GPU) 资源开辟了可能性。
我们开发了一个深度变异自由能框架,以计算热致密物质区域中氢的状态方程。 该方法使用三个深生成模型对有限温度下氢核和电子的变异密度矩阵进行参数化:一个表示经典原子核的玻尔兹曼分布的正态流模型,一个模拟激发态电子分布的自回归变压器,以及一个排列等变量流模型,该模型为Hartree-Fock轨道中的电子构建回流坐标。 通过联合优化三个神经网络以最小化变异自由能,我们获得了致密氢的状态方程和相关热力学特性。 我们将我们的结果与氘Hugoniot曲线上的其他理论和实验结果进行比较,旨在解决现有的差异。 计算的结果为温暖致密物质区域的氘提供了宝贵的基准。
该报告提出了一套全面的五项建议,以减少Vera C内部的语言障碍。 鲁宾天文台研究生态系统,促进更多的研究人员谁是讲英语作为附加语言。 认识到英语语言在科学中的霸权限制了参与和生产力,该文件提出了多语言的演示格式,学术写作培训,虚拟写作中心,语言支持计划和写作务虚会。 每个建议都基于教学理论和经验证据,重点是协作的,社会嵌入的科学写作方法。 拟议的学术写作培训整合了建构主义和社会文化观点,强调体裁意识,修辞能力和反思实践。 虚拟写作中心将作为永久性基础设施,提供个性化的辅导和同行评审支持,而语言支持计划则通过研讨会,咨询和访问语言工具来满足持续的需求。 写作务虚会为专注的工作和指导提供身临其境的环境。 这些建议还鼓励在道德上使用人工智能工具进行翻译和写作援助,促进数字素养和语言能力。 总的来说,这些举措旨在将语言从障碍转变为资源,承认使用多种语文是全球研究合作的资产。 该文件没有提供一刀切的解决方案,而是倡导适应性强,社区驱动的战略,可以在鲁宾研究生态系统的不同机构和学科背景下发展。 通过实施这些做法,生态系统可以领导努力使科学交流民主化,并促进更公平、多语言的研究文化。
具有理想特性的分子(即“正”分子)的稀缺性是生成分子设计的固有瓶颈。 为了避开这些障碍,在这里我们提出了分子任务算术:在多样化和丰富的负面示例上训练模型,以学习“属性方向” - 而无需访问任何正面标记的数据 - 并在相反的属性方向移动模型以产生正分子。 在20个零镜头设计实验中进行分析时,分子任务算术产生了比在正分子上训练的模型更多样化和成功的设计。 此外,我们在双目标设计任务和很少拍摄的设计任务中使用了分子任务算术。 我们发现分子任务算术可以持续增加设计的多样性,同时保持理想的设计性能。 凭借其简单性,数据效率和性能,分子任务算术有可能成为新分子设计的事实转移学习策略。
与热力学负载故障相关的焊接联合可靠性是一个至关重要但物理上复杂的工程问题。 因此,模拟行为往往在计算上是昂贵的。 在数据驱动日益全球化的世界中,使用高效的数据驱动设计方案是一个受欢迎的选择。 其中,带高斯工艺回归的贝叶斯优化(BO)是最重要的代表之一。 作者认为,计算节省可以通过利用彻底的代理建模和根据多种获取功能选择设计候选者来获得。 这是可行的,因为计算成本相对较低,与昂贵的模拟目标相比。 本文通过提供和实施一个新的启发式框架,在各种优化迭代中使用自适应超参数执行BO,从而解决了相邻文献中的缺点。 随后,当面临合成目标最小化问题时,自适应BO与常规BO进行比较。 结果显示,当比较任何表现最差的常规贝叶斯计划时,适应性BO的效率。 作为工程用例,通过最小化循环热负载下累积的非线性蠕变应变来解决焊料接头可靠性问题。 结果显示,自适应BO优于常规BO 3
我们考虑具有偏移等距的偏微分方程的数据驱动还原顺序模型。 移位等效系统通常允许旅行解决方案,我们方法的主要思想是在旅行参考框架中代表解决方案,其中可以通过相对较少的基础函数来描述它。 现有的运算推理方法允许人们直接从数据中近似一个低阶模型,而不知道全序动力学。 我们的方法增加了额外的术语,以确保还原顺序模型不仅近似于解决方案的空间冻结轮廓,而且还估计该配置文件的函数的行进速度。 我们使用Kuramoto-Sivashinsky方程验证了我们的方法,Kuramoto-Sivashinsky方程是一个一维偏微分方程,显示旅行解决方案和时空混沌。 结果表明,我们的方法可以稳健地捕获旅行解决方案,并且通过标准操作员推理方法提高了数值稳定性。
我们提出了一个神经网络框架,用于解决具有流入边界条件的固定线性传输方程。 该方法代表使用神经网络的解决方案,并通过拉格朗日乘数施加边界条件,基于受经典Uzawa算法启发的马鞍点公式。 该计划是无网状的,与自动分化兼容,并自然地延伸到散射和异构介质的问题。 我们建立连续体配方的收敛,并分析二次误差,神经近似和离散实现中不精确的优化的影响。 数字实验表明,该方法捕获各向异的传输,强制执行边界条件并准确解决散射动力学。
作为保守平滑粒子流体力学(SPH)方法的主要挑战之一,零序一致性问题,尽管被认为可以通过粒子正则化方案(如运输速度公式)来缓解,显着抑制了长通道中的流量,用于层流和湍流模拟。 在这一发现的基础上,本文不仅彻底分析了这种压力驱动的通道流中的阻尼原因,而且还将这个问题与重力驱动自由表面流中的过度数值耗散联系起来。 两种典型流动情景中非物理数值阻尼的常见根源,即零序梯度一致性残留物,暴露出来。 背景压力对两种情景的残留的不利影响被揭示和讨论。 为了全面了解残留物的行为并减轻其潜在的不利影响,我们同时进行理论分析和数值实验,重点关注关键敏感因素。 为了研究重力驱动自由表面流动中的残留诱导的非物理能量耗散,测试了粘结性常波箱中的水深和输入动态压力。 为了研究压力驱动通道流中的速度损失,我们检查通道长度、分辨率和出口压力的影响。 针对两种典型流引入了最先进的反向内核梯度校正技术,并证明对减少残留效应有效,但我们发现其校正能力从根本上受到限制。 最后,经过测试,FDA喷嘴,一个工程基准,以证明在复杂的几何形状中的残留影响,突出了在具有不可避免的高背景压力下的校正方案的必要性。
Multipactor是一种非线性电子雪崩现象,可以严重损害大功率射频(RF)器件和加速器系统的性能。 在不同材料和操作机制中,对多条路器易感性的准确预测仍然是加速器组件设计和射频工程中一个关键但计算密集型的挑战。 这项研究首次应用了监督机器学习(ML),用于预测双表面平面几何中的多模式易感性。 一个跨越六个不同二次电子屈服(SEY)材料配置文件的模拟衍生数据集用于训练回归模型 - 包括随机森林(RF),额外树(ET),极端梯度提升(XGBoost)和漏斗结构多层感知器(MLP) - 预测时间平均电子增长率,δ_avg。 使用Intersection over Union(IoU)、Structuresimity Index(SSIM)和Pearson相关系数来评估性能。 基于树的模型在跨不连接材料域的推广方面一直优于MLP。 使用标量目标函数训练的MLP在贝叶斯超参数优化期间结合IoU和SSIM与5倍交叉验证,优于采用单目标损失函数训练的MLP。 主要成分分析表明,某些材料的性能下降源于不连接的特征空间分布,这突出表明需要更广泛的数据集覆盖范围。 这项研究展示了基于ML的多模式预测的前景和局限性,并为高级射频和加速器系统设计中的加速数据驱动建模奠定了基础。
多切片电子分形(MEP)是一种逆成像技术,可计算从衍射模式中重建原子晶体结构的最高分辨率图像。 可用的算法通常迭代地解决这个反向问题,但由于其不良性质,既耗时又产生次优解决方案。 我们开发MEP-Diffusion,这是一种在大型晶体结构数据库中训练的扩散模型,专门用于MEP,以增强现有的迭代求解器。 MEP-Diffusion通过Diffusion后采样(DPS)作为生成物预先集成到现有的重建方法中。 我们发现这种混合方法大大提高了重建的3D卷的质量,实现了90.50。
逆行规划在有机合成和药物发现中至关重要,从最近的人工智能驱动进展中受益匪浅。 然而,现有方法在适用性和可解释性方面经常面临限制。 传统的基于图和序列到序列的模型通常缺乏广义的化学知识,导致预测既不一贯准确也不易于解释。 为了应对这些挑战,我们引入了RetroDMM-R,这是一种基于推理的大型语言模型(LLM),专门用于化学反合成。 利用以化学可验证的奖励为指导的大规模强化学习,RetroDMM-R显着提高了预测准确性和可解释性。 全面的评估表明,RetroDCM-R明显优于最先进的方法,达到65.0的1级精度
冰晶的微观物理特性很重要,因为它们显着改变了云的辐射特性和时空分布,进而强烈影响地球的气候。 然而,测量冰晶的关键特性具有挑战性,例如质量或形态特征。 在这里,我们提出了一个框架,用于从原位二维(2D)图像中预测冰晶的三维(3D)微观物理特性。 首先,我们使用3D建模软件计算生成合成冰晶,以及2021年冰轮球(ICEBall)现场活动估计的几何参数。 然后,我们使用合成晶体来训练机器学习(ML)模型,以预测来自合成玫瑰图像的有效密度(ρ_e),有效的表面积(A_e)和子弹数(N_b)。 当在看不见的合成图像上进行测试时,我们发现我们的ML模型可以高精度地预测微观物理特性。 对于ρ_e和A_e,我们表现最佳的单视图模型分别实现了0.99和0.98的R^2值。 对于N_b,我们最好的单视图模型实现了平衡精度和F1得分0.91。 我们还量化了纳入第二个视图的边际预测改进。 立体视图 ResNet-18 型号将 RMSE 减少了 40
单像素成像已成为荧光显微镜的关键技术,其中快速获取和重建至关重要。 在这种情况下,图像是从线性压缩测量中重建的。 在实践中,总变异最小化仍然用于从正交采样模式向量和原始图像数据之间的内部产品的嘈杂测量中重建图像。 然而,可以利用数据来学习测量向量和重建过程,从而提高压缩,重建质量和速度。 我们通过自我监督训练自动编码器来学习编码器(或测量矩阵)和解码器。 然后,我们在物理获得的多光谱和强度数据上对其进行测试。 在采集过程中,学习编码器成为物理设备的一部分。 我们的方法可以通过将重建时间缩短两个数量级,实现卓越的图像质量,实现多光谱重建,从而增强荧光显微镜中的单像素成像。 最终,学习单像素荧光显微镜可以推进诊断和生物学研究,以一小部分成本提供多光谱成像。
超时划桨是一种游泳策略,其中生物体以恒定的相位滞后振荡一组相邻的四肢,通过其四肢传播元时波并将其向前推进。 这种肢体协调策略被游泳者在广泛的雷诺数中使用,这表明这种超时节律因其游泳表现的最优性而被选中。 在这项研究中,我们将强化学习应用于零雷诺数的游泳者,并研究学习算法是否选择这种元时节节奏,或者是否出现了其他协调模式。 我们设计游泳剂,具有细长的车身和一对笔直的,不灵活的桨,放置在身体上,用于各种固定的划桨间距。 基于划桨间距,游泳者可以学习质量不同的协调模式。 在紧密的间距下,出现了类似于通常观察到的生物节律的背向前向波形的笔触,但在宽间距下,选择了不同的肢体协调。 在所有由此产生的中风中,最快的中风取决于划桨的数量,然而,最有效的笔划是背对前方的波浪状笔划,而不管桨的数量如何。
自2011年以来,漂浮的沙加苏姆海藻的木筏经常阻碍美洲内部海域的海岸。 筏子的运动是由高维非线性动力学系统表示的。 被称为eBOMB模型,它建立在Maxey-Riley方程的基础上,将形成木筏的沙加苏姆团与地球自转的影响之间的相互作用结合起来。 缺乏对木筏质量中心的预测法表明需要机器学习。 在本文中,我们评估和对比了长短期记忆(LSTM)复发神经网络(RNN)和非线性动力学的稀疏识别(SINDy)。 在这两种情况下,都采用物理启发的闭包建模方法,根植于eBOMB。 具体来说,LSTM模型从eBOMB变量集合中学习到木筏中心和海洋速度之间的差异的映射。 SINDy模型的候选函数库由eBOMB变量建议,并包含包含承载流的远场效应的窗口速度术语。 LSTM和SINDy模型在紧密粘合团块的条件下表现最有效,尽管精度下降,复杂性上升,例如风效应和评估松散连接的团块。 LSTM模型在设计简单时提供了最佳效果,神经元和隐藏层更少。 虽然LSTM模型是一个不透明的黑盒模型,缺乏可解释性,但SINDy模型通过函数库识别明确的功能关系来带来透明度。 窗口速度项的集成使非本地交互的有效建模成为可能,特别是在具有稀疏连接木筏的数据集中。
长期以来,城市形态学一直被认为是塑造人类流动性的一个因素,但大都市地区的城市形式的比较和正式分类仍然有限。 基于城市结构的理论原理和无监督学习的进步,我们使用密度,连通性和空间配置等结构指标系统地分类了九个美国大都市区的建筑环境。 由此产生的形态类型通过描述性统计、边际效应估计和事后统计测试与移动模式相关联。 在这里,我们表明,不同的城市形式与不同的移动行为有系统的联系,例如与显着提高的公共交通使用(边际效应=0.49)和减少汽车依赖性(-0.41)有关,而有机形式与汽车使用量增加(0.44)有关,公共交通(-0.47)和主动移动(-0.30)大幅下降。 这些影响在统计学上是稳健的(p < 1e-19),突出表明城市地区的空间配置在塑造交通选择方面发挥着根本性的作用。 我们的研究结果扩展了以前的工作,为城市形态分类提供了一个可重复的框架,并展示了比较城市研究中形态分析的附加值。 这些结果表明,城市形式应被视为流动规划中的一个关键变量,并为将空间类型纳入可持续城市政策设计提供经验支持。
这项工作为 TE 散射的远期问题提出了修改域积分方程方法,采用介电对比度的修改定义,并使用 Rao-Wilton-Glisson (RWG) 基础函数对电场密度进行离散。 拟议的公式减轻了梯度-多样性操作者在传统电场矢量配方中引入的数字挑战。 在三角形网格上使用RWG基础功能可增强几何一致性,确保介电界面的切向连续性,并促进在数值精度方面应用众所周知的奇点提取技术。 通过双层介电缸上的数值实验进行验证,证明了计算和分析分散场之间的良好一致性。 融合研究证实,通过网格改进提高了解决方案的准确性,表明在不增加迭代的情况下,在离散化方面具有稳健性。
双能X射线计算断层扫描(DECT)是一种先进的技术,可以在临床图像中自动分解材料,而无需使用X射线线性衰减与能量的依赖进行手动分割。 然而,大多数方法在图像域中作为重建后的后处理步骤执行材料分解,但此过程没有考虑光束硬化效应,并产生次优结果。 在这项工作中,我们提出了一种名为双能量分解模型(DEcomp-MoD)的深度学习程序,用于定量材料分解,直接将DECT投影数据转换为材料图像。 该算法基于将光谱DECT模型的知识纳入深度学习训练损失,并结合在材料图像领域之前学到的基于分数的去噪扩散。 重要的是,推理优化损失直接作为输入,并通过基于模型的条件扩散模型转换为材料图像,该模型保证了结果的一致性。 我们通过定量和定性估计拟议的DEcomp-MoD方法从低剂量的AAPM数据集对合成DECT sinograms的性能进行评估。 最后,我们表明,DEcomp-MoD优于最先进的无监督基于分数的模型和监督深度学习网络,有可能用于临床诊断。