科学科学(SoS)探索科学发现背后的机制,并为提高科学效率和促进创新提供了宝贵的见解。 传统方法通常依赖于简单的假设和基本的统计工具,例如线性回归和基于规则的模拟,这些模拟难以捕捉现代研究生态系统的复杂性和规模。 人工智能(AI)的出现为下一代SoS提供了一个变革性的机会,实现了大规模模式发现的自动化,并发现了以前无法实现的见解。 本文提供了将科学科学与人工智能用于自动化研究模式发现的前瞻性观点,并强调了可能从人工智能中受益匪浅的关键开放挑战。 我们概述了人工智能与传统方法的优势,讨论了潜在的局限性,并提出了克服它们的途径。 此外,我们展示了一个初步的多智能体系统,作为模拟研究社会的一个示例,展示了人工智能复制现实世界研究模式和加速科学研究科学进步的能力。
识别复杂科学和技术文件中的微妙技术错误,特别是那些需要多模态解释(例如图像中的公式)的微妙技术错误,对于大型语言模型(LLM)来说,这是一个重大障碍,其固有的错误纠正倾向可以掩盖不准确性。 这项探索性概念验证(PoC)研究调查了结构化的LLM上下文条件,以持续工作流提示(PWP)原则为指导,作为在推理时间调节这种LLM行为的方法策略。 该方法旨在提高易于获得的通用LLM(特别是Gemini 2.5 Pro和ChatGPT Plus o3)的可靠性,用于精确的验证任务,关键是仅依赖于其标准聊天界面而无需API访问或模型修改。 为了探索这种方法,我们专注于在一个单一的复杂试卷中验证化学公式,这些试卷具有已知的文本和基于图像的错误。 评估了几种提示策略:虽然基本提示被证明是不可靠的,但使PWP结构适应LLM的分析思维模式的方法似乎改善了两种模型的文本错误识别。 值得注意的是,这种方法还指导Gemini 2.5 Pro反复识别之前在手动审查中忽略的微妙的基于图像的公式错误,ChatGPT Plus o3在我们的测试中失败了。 这些初步发现强调了阻碍细节验证的特定LLM操作模式,并表明PWP知情的上下文调节提供了一种有前途的且易于访问的技术,用于开发更强大的LLM驱动的分析工作流程,特别是对于需要在科学和技术文档中仔细检测错误的任务。 超出此有限PoC的广泛验证是必要的,以确定更广泛的适用性。
尽管我们在理解具有非Poissonian活性模式的复杂系统中的疾病传播方面取得了进展,但目前的模型仍然未能捕获全方位的恢复时间分布。 在本文中,我们提出了经典的易感性(SIS)模型的扩展,称为一般恢复过程SIS(grp-SIS)模型。 该模型包含系统内受感染节点的任意恢复时间分布。 我们得出假设一个均匀网络的均场方程,为特定的恢复时间分布提供解决方案,并调查系统稳定状态下感染时间的概率密度函数(PDF)。 我们的研究结果表明,恢复时间分布显着影响疾病动力学,我们建议未来的几个研究方向,包括将模型扩展到任意感染过程,并使用准方法解决数值结果的偏差。
这项研究调查了物理信息神经网络(PINNs)在声管分析中的逆问题中的应用,重点是从嘈杂和有限的观测数据中重建声场。 具体来说,我们解决了辐射模型未知的场景,并且压力数据仅在管的辐射端可用。 提出了PINNs框架来重建声学领域,以及PINN微调方法(PINN-FTM)和用于预测辐射模型系数的传统优化方法(TOM)。 结果表明,PINNs可以在嘈杂的条件下有效地重建管的声场,即使有未知的辐射参数。 PINN-FTM通过提供平衡可靠的预测并表现出强大的噪音耐受能力,优于TOM。
在高维表面上定位第一顺序马鞍点的任务,将能量的变化描述为原子坐标的函数,是确定过渡状态理论谐波近似值中的热激活事件速率和估计热激活事件速率的重要一步。 当与电子结构计算直接结合时,收敛所需的能量和原子力评价的数量是一个主要问题。 在这里,我们描述了高斯过程回归(GPR)加速最小模式遵循方法的高效实现,其中二聚体用于估计黑森的最低特征模式。 代理能量表面在每次电子结构计算后构建和更新。 该方法应用于先前由Hermez及其同事 [J. 生成的500个分子反应的测试集。 化学。 理论计算。 18,6974(2022)]。 使用GPR与二聚体方法相比,使用GPR降低了达到马鞍点配置所需的电子结构计算数量。 尽管分子自由度的刚度范围很广,但计算是使用笛卡尔坐标进行的,并且发现需要类似数量的电子结构计算,作为Sella软件包中实现的精心设计的内部坐标方法。 目前在C++中实现GPR替代模型的效率足以使马鞍点搜索的墙壁时间在4个案例中的3个案例中减少,即使计算是在低Hartree-Fock级别进行的。
虽然在大型数据集上训练的神经网络已经成功地用于描述和预测许多物理现象,但科学家有一种感觉,与传统的科学模型不同,这种关系以简单的数学表达式形式包装,神经网络的发现不能整合到科学知识中。 对 ML 无法产生人类可以理解的关系的批评者已经融合了“可解释性”的概念,因为它与更传统的科学形式相去甚远。 正如对可解释性的兴趣日益浓厚所表明的那样,物理科学的研究人员不仅寻求预测模型,而且还寻求揭示支配兴趣系统的基本原则。 然而,文献中缺乏对可解释性的定义及其在科学中的确切作用的清晰度。 在这项工作中,我们认为方程发现和符号回归的研究人员倾向于将易感性的概念与可解释性混为一谈。 我们回顾了来自科学界外部的可解释ML的关键论文,并认为,尽管他们提出的定义和方法可以为SciML的解释性问题提供信息,但它们不足以实现这一新目的。 注意到这些缺陷,我们提出了物理科学可解释性的操作定义。 我们的可解释性概念强调对数学原理的理解。 虽然看起来是无害的,但这种对机制的强调表明,狭隘往往是不必要的。 它还质疑在缺乏先验知识时可解释的科学发现的可能性。 我们相信,对SciML可解释性的准确和哲学上知情的定义将有助于将研究工作集中在实现数据驱动的科学未来的最重大障碍上。
城市是复杂的系统,需要综合方法,越来越关注邻里层面。 这项研究研究了西班牙加泰罗尼亚Granollers的Primer de Maig社区的专家地图与公民科学之间的相互作用 - 该地区以劣质的公共空间和长期存在的社会经济挑战为标志。 有72名居民被组织成19个小组,记录他们的行人流动,同时参与协议化的有趣的社会行动。 他们的GPS确定了有意义的公共空间激活的机会单元。 虽然观察到的56项行动发生在专家定义的单位内,但其余44个在其他地方。 对地理位置行动停止的聚类分析揭示了七个不同的集群,突出了具有重大社会潜力的被忽视区域。 这些发现强调了自上而下和自下而上的方法的互补性,展示了公民科学和社区科学方法如何通过在公共空间场所建设中整合主观的,基于社区的观点来丰富城市诊断,并为包容性,适应性的可持续城市转型战略提供信息。
尽管我们在理解具有非Poissonian活性模式的复杂系统中的疾病传播方面取得了进展,但目前的模型仍然未能捕获全方位的恢复时间分布。 在本文中,我们提出了经典的易感性(SIS)模型的扩展,称为一般恢复过程SIS(grp-SIS)模型。 该模型包含系统内受感染节点的任意恢复时间分布。 我们得出假设一个均匀网络的均场方程,为特定的恢复时间分布提供解决方案,并调查系统稳定状态下感染时间的概率密度函数(PDF)。 我们的研究结果表明,恢复时间分布显着影响疾病动力学,我们建议未来的几个研究方向,包括将模型扩展到任意感染过程,并使用准方法解决数值结果的偏差。
最近开发的用于科学机器学习的时间序列基础模型展示了预测物理系统的紧急能力。 这些能力包括零速预测,其中模型预测系统的未来状态,仅给出一个短的轨迹作为上下文。 在这里,我们表明应用于物理系统的基础模型可以给出准确的预测,但它们未能开发对基础物理学有意义的表示。 相反,基础模型通常通过上下文鹦鹉预测,这是一种简单的零镜头预测策略,直接从上下文中复制。 因此,一个天真的直接上下文鹦鹉模型在预测各种动态系统方面得分高于最先进的时间序列基础模型,仅占计算成本的一小部分。 我们在上下文鹦鹉和感应头之间绘制了一个平行图,这解释了为什么在文本上训练的大型语言模型可以被重新用于时间序列预测。 我们的动力学系统视角还将预测精度和上下文长度之间的缩放与吸引子的分形维度联系起来,提供了对先前观察到的上下文内神经缩放定律的见解。 因此,上下文鹦鹉作为未来时间序列基础模型的简单但难以击败的基线,可以帮助确定超越鹦鹉的上下文内学习策略。
流体热力学支持大气动力学、气候科学、工业应用和能源系统。 然而,此类系统的直接数值模拟(DNS)在计算上令人望而却步。 为了解决这个问题,我们提出了一种新的物理信息空间-时间代理模型,用于瑞利-贝纳德对流(RBC),这是对流流体流动的典型例子。 我们的方法将用于空间特征提取的卷积神经网络与受大型语言模型启发的创新循环架构相结合,包括上下文构建器和序列生成器以捕获时间动态。 推理在管理偏微分方程方面受到惩罚,以确保物理可解释性。 鉴于湍流对流对流对初始条件的敏感性,我们使用构象预测框架量化不确定性。 该模型复制了RBC动力学的关键特征,同时显着降低了计算成本,为长期模拟提供了可扩展的DNS替代品。
我们解决了贝叶斯逆 Navier-Stokes (N-S) 问题,该问题吸收了速度测量数据,以便共同重建流场并学习未知的 N-S 参数。 通过将Carreau剪切变薄粘度模型纳入N-S问题,我们设计了一种算法,该算法仅从速度测量数据中学习剪切薄流体的最有可能的Carreau参数,并估计其不确定性。 然后,我们进行流MRI实验,通过理想化医疗设备(FDA喷嘴)获得轴对称层流喷流的速度数据,用于血液模拟液。 我们表明,该算法可以通过学习最有可能的Carreau参数来成功重建流场,并且学习的参数与流层测量非常一致。 该算法接受任何代数有效粘度模型,只要该模型是可微的,并且它可以扩展到更复杂的非牛顿流体(例如。 Oldroyd-B流体)如果一个粘弹性模型被纳入N-S问题。
通过进化的方法,道德的基础可以解释为对合作问题的适应。 随着广义的“进化”,满足进化条件的人工智能将受到与生物实体相同的合作进化压力。 在这里讨论了随着物质安全和财富的增加而加强合作的适应性 - 对于人类,对于其他社会和人工智能。 减少从增加物质资源中获得的有益回报也表明,总的来说,没有动力来殖民整个星系,从而提供了费米悖论的可能解释,想知道每个人都在哪里。 进一步认为,旧社会可能会产生,让位给超级人工智能,因为超级人工智能很可能是可行的,而且更合适。 关闭是道德和目标影响生活和社会的有效方法,强调环境,文化和法律,并以如何吃饭为例证。 “减少回报”的定义是,小于根,不可行。 还指出,由于数学原因,不能有指数殖民或繁殖,因为每个实体占用了一定的空间。 附加是一种用于快速殖民的算法,例如快速殖民,在递减回报下的合作和公平的演变模型,以及用于模拟信号开发的软件。
PET受到统计噪声的影响,因为对示踪剂剂量和扫描持续时间的限制,影响了诊断性能和定量准确性。 虽然基于深度学习(DL)的PET去噪方法已被用于提高图像质量,但它们可能会引入过度平滑,从而降低定量准确性。 我们提出了一种方法,使DL解决方案更可靠,并将其应用于条件深图像前置(DIP)。 我们在条件DIP的优化过程中引入了稳定信息的想法,从而能够识别网络优化轨迹内的不稳定区域。 我们的方法包含一个稳定图,该图来自不同优化步骤中度网络的多个中间输出。 然后通过计算DIP输出和原始重建图像的线性组合获得最终的去噪图像,由稳定图加权。 我们的方法有效地减少了噪音,同时保留了大脑FDG图像中的小结构细节。 结果表明,我们的方法在各种低剂量水平的峰值与谷比和噪声抑制方面优于现有方法。 利益区域分析证实,拟议的方法在不引入低估或高估的情况下保持定量准确性。 我们将方法应用于全剂量PET数据以评估其对图像质量的影响。 结果表明,拟议的方法显着降低了背景噪声,同时将峰值与谷比保持在与未经过滤的全剂量PET图像相当的水平。 拟议的方法引入了一种基于DL的PET去噪的稳健方法,增强了其可靠性并保持了定量的准确性。 该策略具有提升高灵敏度PET扫描仪性能的潜力,证明DL可以将PET成像能力扩展到低剂量应用之外。
新型药物的发展是现代科学的一个重大挑战,具有巨大的成本和时间投资。 深度生成模型已成为通过有效探索广阔的化学空间来加速药物发现的有希望的工具。 然而,这个快速发展的领域缺乏标准化的评价协议,阻碍了方法之间的公平比较。 这项研究对分子集(MOSES)平台进行了广泛的分析,这是一个全面的基准框架,旨在标准化分子设计中深层生成模型的评估。 通过对多种生成性架构(包括循环神经网络、变异自动编码器和生成对抗网络)的严格评估,我们研究了它们生成有效、独特和新颖分子结构的能力,同时保持特定的化学特性。 我们的研究结果表明,不同的架构在各种指标上表现出互补的优势,突出了化学空间探索和开发之间的复杂权衡。 这项研究提供了对分子生成技术现状的详细见解,并为人工智能驱动的药物发现的未来发展奠定了基础。
3D分子结构的生成模型在分子的设计和模拟中发挥着快速增长的作用。 扩散模型目前主导了3D分子生成的空间,而自回归模型却落后了。 在这项工作中,我们介绍了Quetzal,一种简单但可扩展的自动回归模型,在3D中逐个原子构建分子。 Quetzal将每个分子视为原子的有序序列,结合了一个因果变压器,该变压器预测下一个原子的离散类型与较小的扩散MLP,该MLP模拟了连续的下位置分布。 与现有的自动回归基线相比,Quetzal在生成质量方面实现了实质性的改进,并与最先进的扩散模型的性能竞争。 此外,通过减少通过密集变压器的昂贵前向通道的数量,Quetzal可以实现显着更快的生成速度,以及基于精确发散的可能性计算。 最后,没有任何架构变化,Quetzal原生处理可变尺寸的任务,如氢装饰和脚手架完成。 我们希望我们的工作能激发对3D分子生成建模的可扩展性和普遍性的看法。
钳子产品功能(TPF)近似已被广泛用于解决高维问题,如偏微分方程和特征值问题,通过计算开销实现理想的准确性,该计算开销以问题维度线性扩展。 然而,最近的研究强调了TPF在量子多体问题上的极高计算成本,即使对于具有三个粒子的系统也是如此。 这些问题的一个关键区别是对未知函数的抗对称要求。 在目前的研究中,我们严格地确定,一类TPF完全非对称的最小涉及术语的数量随着问题维度的成倍增加而呈指数级增长。 该类既包括传统上离散的TPF,也包括最近由神经网络参数化的TPF。 我们的证明利用了该类中反对称TPF与相应的反对称张量之间的联系,并专注于后者的Canonical Polyadic等级。 因此,我们的发现揭示了高维环境中反对称和低等级TPF之间的基本不兼容,并为进一步发展提供了新的见解。
我们提出了一个几何到流扩散模型,该模型利用障碍物形状作为输入来预测障碍物周围的流动场。 该模型基于可学习的马尔可修行内核,以从高斯分布中恢复数据分布。 Markov过程以障碍物几何形状为条件,估计每个步骤要消除的噪声,通过U-Net实现。 交叉注意力机制将几何图形作为提示。 我们使用围绕简单障碍物(包括圆圈、椭圆、矩形和三角形)的流数据集来训练几何到流扩散模型。 为了进行比较,两个基于CNN的模型和一个VAE模型在同一个数据集上训练。 测试是在障碍物周围以简单和复杂的几何形状进行,分别代表几何形状条件的插值和概括。 为了在苛刻的条件下评估性能,测试集包含包括十字架和字符“PKU”在内的场景。 生成流场表明,几何到流量扩散模型在预测瞬时流域和处理复杂几何形状方面优于基于CNN的模型和VAE模型。 对准确性和发散性的定量分析证明了模型的稳健性。
我们介绍了电子张量重建算法(ELECTRA) - 一种用于使用浮动轨道预测电子电荷密度的等变量模型。 浮轨是量子化学界的一个长期概念,它通过在太空中自由放置轨道来实现更紧凑和准确的表征,而不是将所有轨道集中在原子的位置。 然而,找到这些轨道的理想位置需要广泛的领域知识,到目前为止,这阻碍了广泛的采用。 我们通过训练笛卡尔张量网络来预测轨道位置以及轨道系数,以数据驱动的方式解决这个问题。 这是通过一个对称打破机制实现的,该机制用于学习比输入分子低对称性的位置位移,同时保持电荷密度本身的旋转等效。 受到高斯溺水在代表太空密度方面的最新成功的启发,我们正在使用高斯轨道并预测其权重和协方差矩阵。 我们的方法在计算效率和既定基准的预测准确性之间实现了最先进的平衡。
我们展示了反射外对角线可配置智能表面(BD-RIS)的第一个实验原型,即具有可重新配置元素间连接的RIS。 我们的BD-RIS由天线阵列组成,其端口由可调负载网络终止。 后者可以用三个不同的单个负载终止每个天线端口或将其连接到相邻的天线端口。 在分散丰富的环境中进行广泛的性能评估验证元素间连接是有益的。 此外,我们观察到,我们提到的可调负载网络的硬件约束显着影响,第一,可实现的性能,第二,具有元素间连接的好处,第三,优化过程中相互耦合意识的重要性。
对抗性方法,通过生成困难的例子来有意挑战机器学习模型,越来越多地被采用来改善机器学习间原子潜力(MLIP)。 虽然已经提供了很大的实用价值,但对MLIP在对抗性结构上的实际预测错误以及这些错误是否可以控制知之甚少。 我们提出了校准的对抗几何优化(CAGO)算法,以发现具有用户分配错误的对抗性结构。 通过不确定性校准,MLIP的估计不确定性与实际错误统一。 通过为校准的不确定性执行几何优化,我们通过用户分配的目标MLIP预测误差达到对抗性结构。 与主动学习管道集成,我们测试了CAGO,展示了稳定的MLIP,这些MLIP在金属有机框架内系统地收敛了液态水和水吸附的结构,动力和热力学特性,在数百种训练结构中,以前通常需要数千种。
随着进化动力学从理论领域转向应用,算法需要超越简单的模型。 然而,文献中很少有这样的方法。 众所周知,生态和生理因素是现实背景下进化的核心,但考虑到这些因素,这些因素通常会使问题难以适应现有方法。 我们介绍了进化游戏的公式,通过建模作为计算来解释生态学和生理学,并使用它通过强化学习的方法分析定向进化的问题。 这种组合使我们能够在学习控制不断进化的细胞群的算法问题上首次开发出同类结果。 我们证明了在细胞生理学或生态学的先前知识有限的情况下生态进化控制的复杂性,给出了指导进化最一般版本的数学问题的第一个结果,并在人工智能和生物学之间建立了新的联系。
时间解析的单细胞组学数据提供了细胞状态的高通量、全基因组测量,有助于逆向工程支撑细胞命运的过程。 这种技术本质上是破坏性的,只允许对底层随机动力学系统进行横截面测量。 此外,细胞除了改变分子状态外,还可能分裂或死亡。 总的来说,这些是推断现实生物物理模型的重大挑战。 我们提出了一种新的方法,不平衡的概率流推断,解决了生物过程的这个挑战,模拟为随机动力学与增长。 通过利用福克-普朗克方程的拉格朗日公式,我们的方法准确地将远离内在的噪音和增长。 我们通过评估一系列模拟和真实的单细胞RNA-seq数据集来展示我们方法的适用性。 与几种现有方法相比,我们发现我们的方法在享受简单的两步训练方案的同时,实现了更高的精度。
大规模网络有助于塑造我们思考个人如何相互作用的方式,在数学流行病学,计算社会科学和生物学方面发展关键见解。 然而,许多潜在的社会系统,通过这些系统,疾病传播,信息传播和个人互动,本质上是通过任意大小的群体进行调解的,称为高阶互动。 群体形成和碎片化、传染传播、社会影响力等高阶动态与验证这些高阶机制所必需的数据之间存在差距。 同样,很少有数据集弥合这些配对和高阶网络数据之间的差距。 由于其开放的API,Bluesky社交媒体平台提供了一个大规模观察社交关系的实验室。 除了对等关系之外,与许多其他社交网络不同,Bluesky还具有用户策划的列表,称为“启动包”作为社交网络增长的机制。 我们引入了“蓝色开始”,这是一个大型网络数据集,由26.7M用户及其1.6B配对关系和代表启动包的301.3K组组成。 这个数据集将成为研究高阶网络科学的重要资源。
数据驱动的长期宏观动力学和具有粒子保真度的耗散系统的热力学的发现受到重大障碍的阻碍。 这些包括粒子模拟固有的强大的时间尺度限制,给定宏观动力学的热力学电位和运算符的不独特性,以及需要有效的不确定性量化。 本文介绍了统计-物理输入性流行扩散模型(SPIEDiff),这是一个机器学习框架,旨在通过利用统计物理,条件扩散模型和表观,在纯耗散系统的背景下克服这些限制。 我们评估了关于随机Arrhenius粒子过程的拟议框架,并证明SPIEDiff可以准确地发现热力学和动力学,同时仅使用短时间粒子模拟数据实现可靠的长期宏观预测。 SPIEDiff可以在几分钟内以量化的不确定性提供准确的预测,与直接粒子模拟相比,大大降低了计算需求,这在考虑的例子中需要几天或几年的时间。 总体而言,SPIEDiff为数据驱动的热力学模型发现提供了可靠和值得信赖的途径。
科学科学(SoS)探索科学发现背后的机制,并为提高科学效率和促进创新提供了宝贵的见解。 传统方法通常依赖于简单的假设和基本的统计工具,例如线性回归和基于规则的模拟,这些模拟难以捕捉现代研究生态系统的复杂性和规模。 人工智能(AI)的出现为下一代SoS提供了一个变革性的机会,实现了大规模模式发现的自动化,并发现了以前无法实现的见解。 本文提供了将科学科学与人工智能用于自动化研究模式发现的前瞻性观点,并强调了可能从人工智能中受益匪浅的关键开放挑战。 我们概述了人工智能与传统方法的优势,讨论了潜在的局限性,并提出了克服它们的途径。 此外,我们展示了一个初步的多智能体系统,作为模拟研究社会的一个示例,展示了人工智能复制现实世界研究模式和加速科学研究科学进步的能力。