现代人工智能的大部分兴奋是由扩大现有系统导致更好的性能的观察所推动的。 但是,更好的表现是否必然意味着更好的内部表示? 虽然表示乐观主义者认为必须这样做,但本立场文件挑战了这一观点。 我们将通过开放式搜索过程进化的神经网络与通过传统随机梯度下降(SGD)训练的网络进行比较,这些网络可以生成单个图像的简单任务。 这种最小的设置提供了一个独特的优势:每个隐藏神经元的全部功能行为可以很容易地可视化为图像,从而揭示网络的输出行为如何由神经元内部构建神经元。 结果是惊人的:虽然两个网络都产生相同的输出行为,但其内部表示差异很大。 SGD训练的网络表现出一种混乱的形式,我们将其称为断裂纠缠表示(FER)。 有趣的是,进化的网络基本上缺乏FER,甚至接近统一因子表示(UFR)。 在大型模型中,FER可能会降低广义、创造力和(持续)学习等核心模型能力。 因此,理解和减轻FER可能对代表性学习的未来至关重要。
模型合并允许将现有模型的能力组合成一个新的 - 临时模型,无需额外的培训。 这使其越来越受欢迎,这要归功于其低成本和支持在消费级GPU上合并的库的可用性。 最近的研究表明,与进化算法的合并可以提高性能,但目前没有任何框架支持在语言模型中灵活地尝试此类策略。 我们介绍了 Mergenetic,一个用于进化模型合并的开源库。 Mergenetic能够轻松组合合并方法和进化算法,同时结合轻量级的健身估算器,以降低评估成本。 我们描述其设计,并证明Mergenetic使用适度的硬件在任务和语言中产生竞争结果。
量子计算(QC)和机器学习(ML)的快速发展引发了人们的兴趣,推动了量子机器学习(QML)算法的广泛探索,以应对广泛的复杂挑战。 高性能QML模型的开发需要专家级的专业知识,对QML的广泛采用提出了关键挑战。 关键障碍包括设计有效的数据编码策略和参数化量子电路,这两种电路对QML模型的性能都至关重要。 此外,测量过程通常是被忽视的 - 现有的QML模型采用的预定义测量方案可能不符合目标问题的具体要求。 我们提出了一个创新框架,使量子系统的可观察性,即Hermitian矩阵可训练。 这种方法采用端到端的可微分学习框架,同时优化用于编程参数化可观测值和标准量子电路参数的神经网络。 值得注意的是,量子可观测参数由神经网络动态编程,允许可观测数据根据输入数据流实时调整。 通过数值模拟,我们证明所提出的方法有效地在可变量子电路中动态地编程可观测,与现有方法相比取得了卓越的结果。 值得注意的是,它提供了增强的性能指标,例如更高的分类精度,从而显著提高了QML模型的整体有效性。
模拟内存计算是一种下一代计算范式,承诺快速,并行和节能的深度学习训练和迁移学习(TL)。 然而,由于缺乏合适的训练算法,实现这一承诺仍然难以实现。 模拟存储器设备除了设备到设备的变化外,还表现出不对称和非线性切换行为,这意味着大多数(如果不是全部)目前的现成训练算法无法取得良好的训练结果。 此外,最近推出的算法受到的关注有限,因为它们需要不切实际的高对称性和精度的双向切换设备,并且高度敏感。 引入了一种新的算法切碎TTv2(c-TTv2),该算法利用切碎技术解决上述许多挑战。 在本文中,我们使用CIFAR100数据集子集上的Swin-ViT模型评估模拟TL的c-TTv2算法的性能。 我们还研究我们算法在某些设备规格变化方面的稳健性,包括重量传递噪声、对称点偏斜和对称点可变性
深度符号优化(DSO)是一种新的计算框架,可以为科学发现实现符号优化,特别是在涉及寻找复杂符号结构的应用中。 一个值得注意的例子是方程发现,它旨在自动推导出以符号形式表示的数学模型。 在DSO中,发现过程被制定为顺序决策任务。 生成式神经网络在候选人符号表达式的广阔空间中学习概率模型,而强化学习策略则引导搜索最有前途的区域。 该方法将基于梯度的优化与进化和本地搜索技术集成在一起,并集成了原位约束、特定领域先验和高级策略优化方法。 其结果是一个强大的框架,能够有效地探索广泛的搜索空间,以识别可解释和物理上有意义的模型。 对基准问题的广泛评估表明,DSO在准确性和可解释性方面均达到最先进的性能。 在本章中,我们全面概述了DSO框架,并说明了其在科学发现中自动化符号优化的变革潜力。
现代人工智能的大部分兴奋是由扩大现有系统导致更好的性能的观察所推动的。 但是,更好的表现是否必然意味着更好的内部表示? 虽然表示乐观主义者认为必须这样做,但本立场文件挑战了这一观点。 我们将通过开放式搜索过程进化的神经网络与通过传统随机梯度下降(SGD)训练的网络进行比较,这些网络可以生成单个图像的简单任务。 这种最小的设置提供了一个独特的优势:每个隐藏神经元的全部功能行为可以很容易地可视化为图像,从而揭示网络的输出行为如何由神经元内部构建神经元。 结果是惊人的:虽然两个网络都产生相同的输出行为,但其内部表示差异很大。 SGD训练的网络表现出一种混乱的形式,我们将其称为断裂纠缠表示(FER)。 有趣的是,进化的网络基本上缺乏FER,甚至接近统一因子表示(UFR)。 在大型模型中,FER可能会降低广义、创造力和(持续)学习等核心模型能力。 因此,理解和减轻FER可能对代表性学习的未来至关重要。
量子计算(QC)和机器学习(ML)的快速发展引发了人们的兴趣,推动了量子机器学习(QML)算法的广泛探索,以应对广泛的复杂挑战。 高性能QML模型的开发需要专家级的专业知识,对QML的广泛采用提出了关键挑战。 关键障碍包括设计有效的数据编码策略和参数化量子电路,这两种电路对QML模型的性能都至关重要。 此外,测量过程通常是被忽视的 - 现有的QML模型采用的预定义测量方案可能不符合目标问题的具体要求。 我们提出了一个创新框架,使量子系统的可观察性,即Hermitian矩阵可训练。 这种方法采用端到端的可微分学习框架,同时优化用于编程参数化可观测值和标准量子电路参数的神经网络。 值得注意的是,量子可观测参数由神经网络动态编程,允许可观测数据根据输入数据流实时调整。 通过数值模拟,我们证明所提出的方法有效地在可变量子电路中动态地编程可观测,与现有方法相比取得了卓越的结果。 值得注意的是,它提供了增强的性能指标,例如更高的分类精度,从而显著提高了QML模型的整体有效性。
模拟内存计算是一种下一代计算范式,承诺快速,并行和节能的深度学习训练和迁移学习(TL)。 然而,由于缺乏合适的训练算法,实现这一承诺仍然难以实现。 模拟存储器设备除了设备到设备的变化外,还表现出不对称和非线性切换行为,这意味着大多数(如果不是全部)目前的现成训练算法无法取得良好的训练结果。 此外,最近推出的算法受到的关注有限,因为它们需要不切实际的高对称性和精度的双向切换设备,并且高度敏感。 引入了一种新的算法切碎TTv2(c-TTv2),该算法利用切碎技术解决上述许多挑战。 在本文中,我们使用CIFAR100数据集子集上的Swin-ViT模型评估模拟TL的c-TTv2算法的性能。 我们还研究我们算法在某些设备规格变化方面的稳健性,包括重量传递噪声、对称点偏斜和对称点可变性
Embodied Artificial Intelligence(Embodied AI)正在机器学习社区获得动力,目标是利用AI(深度学习,变压器,大型语言和视觉语言模型)的现有进展来增强机器人的能力。 在本章中,我们将这项工作放在“良好的旧时尚人工智能”(GOFAI)(Haugeland,1989)和基于行为或体现的替代品(R)的背景下。 A. Brooks 1991; Pfeifer and Scheier 2001年。 我们声称,人工智能驱动的机器人只是弱化并继承了GOFAI的一些问题。 此外,我们回顾并批判性地讨论交叉嵌入学习的可能性(Padalkar等人。 2024年)。 我们确定基本障碍,并就如何取得进展提出方向。
生物大脑和人工神经网络的学习动力学对神经科学和机器学习都感兴趣。 它们之间的一个关键区别是,神经网络通常是从随机初始化的状态训练的,而每个大脑都是几代人进化优化的产物,产生天生的结构,可以实现很少的学习和内置反射。 相比之下,人工神经网络需要非人种的训练数据量才能获得可比的性能。 为了研究进化优化对神经网络学习动力学的影响,我们结合了模拟自然选择和在线学习的算法,以产生一种进化调节人工神经网络的方法,并将其应用于强化和监督学习环境。 我们发现进化条件算法本身与未优化的基线相比。 然而,进化条件的网络显示出独特和潜在的学习动态的迹象,可以快速微调到最佳性能。 这些结果表明,进化构成了一种诱导性偏见,可以调整神经系统以实现快速学习。
神经形态计算以其事件驱动的计算和大规模并行性为特征,对于处理低功耗环境中的数据密集型任务特别有效,例如计算大规模图形的最小生成树(MST)。 动态突触修饰的引入为神经形态算法提供了新的设计机会。 在这一基础上,我们提出了一个基于SNN的工会排序例程和Kruskal用于MST计算的算法的管道版本。 我们的方法的事件驱动性质允许同时执行两个完全解耦的阶段:神经形态排序和联合查找。 与DIMACS10数据集中基于大规模图形的Prim方法相比,我们的方法表现出卓越的性能,实现了269.67x到1283.80x的加速,中位速度为540.76x。 我们进一步评估了Kruskal算法的两个串行变体的管道实现,这些变体依赖于神经形态排序和神经形态径向排序,在大多数场景中显示出显着的性能优势。
受大脑启发的尖刺神经网络(SNN)被认为是实现高效,低能量神经形态计算的有希望的途径。 最近的进步集中在直接训练高性能SNNs,通过连续函数估计尖峰活动的近似梯度,称为代理梯度(SG)学习。 然而,随着尖峰在神经元之间传播,膜电位动力学(MPD)的分布将偏离固定SG的梯度可用间隔,阻碍SNN搜索最佳解决方案空间。 为了保持梯度流量的稳定性,SG需要与不断发展的MPD保持一致。 在这里,我们通过利用MPD(即MPD-AGL)为SNN提出自适应梯度学习。 它充分考虑了导致膜电位变化的潜在因素,并在不同时间段建立了SG和MPD之间的动态关联,以放松梯度估计,这为SG学习提供了新的自由度。 实验结果表明,我们的方法在低延迟下实现了出色的性能。 此外,与固定SG相比,它增加了落入梯度可用间隔的神经元的比例,有效地减轻了梯度消失问题。
近年来,递归尖峰神经网络(RSNN)在长期时间建模方面显示出有希望的潜力。 许多研究侧重于改善神经元模型,并整合复发结构,利用其协同效应来提高Spiking Neural Networks(SNN)的长期时间建模能力。 然而,这些研究往往过分强调神经元的作用,忽视了分析神经元和复发结构作为综合框架的重要性。 在这项工作中,我们将神经元和复发结构视为一个集成系统,并对沿时间维度的梯度传播进行系统分析,揭示了一个具有挑战性的梯度消失问题。 为了解决这个问题,我们建议使用Skip Recurrent Connection(SRC)作为香草循环结构的替代品,有效地减轻梯度消失问题并增强长期的时间建模性能。 此外,我们提出了自适应跳过重复连接(ASRC),该方法可以学习跳过循环连接在网络的每一层中的跳过重复连接的跳过跨度。 实验表明,用SRC取代RSNN中的香草循环结构显着提高了模型在时间基准数据集上的性能。 此外,ASRC-SNN在时间建模能力和稳健性方面优于SRC-SNN。
解决复杂的优化问题通常依赖于专家设计的信息学,通常是通过广泛的试验和错误来制作的。 最近的进步表明,大型语言模型(LLM)在集成到精心设计的进化搜索框架中时,可以以传统成本的一小部分自主发现高性能的励志。 然而,现有的方法主要依靠口头指导,即操纵快速生成过程,引导出神论的演变,而不适应底层LLM。 我们提出了一个混合框架,结合了口头和数字指导,后者通过基于生成后缀质量的强化学习对LLM进行微调来实现。 这种联合优化允许LLM与搜索过程共同发展。 我们的方法在各种优化任务中优于最先进的(SOTA)基线,使用具有INT4量化的7B模型在单个24GB GPU上运行。 它超越了完全依赖口头指导的方法,即使这些方法使用更强大的基于API的模型。
随着最近因蛋白质发现取得的激进进步而颁发的诺贝尔奖,探索大型组合空间的基础模型(FMs)有望彻底改变许多科学领域。 人工生活(ALife)尚未集成FM,从而为该领域提供了一个重大机会,以减轻主要依靠手动设计和试错来发现栩栩如生的模拟配置的历史负担。 本文首次提出了使用视觉语言调频成功实现这一机会。 拟议的方法称为自动搜索人工生命(APAL),(1)发现产生目标现象的模拟,(2)发现产生时间开放新颖的模拟,(3)照亮了整个空间有趣的多样化模拟。 由于FM的通用性,ASAL在多种ALife基质中有效工作,包括Boids,Particle Life,Game of Life,Lenia和Neural Cellular Automata。 突出这种技术潜力的一个主要结果是发现了以前看不见的Lenia和Boids生命形式,以及像Conway's Game of Life一样开放式的细胞自动机。 此外,FMs的使用允许以人类一致的方式量化以前定性的现象。 这种新范式有望加速ALife的研究,而不仅仅是通过人类的创造力来超越可能的范围。
由于其复杂的动态,组合游戏是训练游戏代理算法的关键测试案例和应用程序。 使用自玩训练的算法包括共同进化算法(CoEA)。 然而,由于骑自行车等病态行为,CoEAs的成功应用很难,对于具有不瞬态回报景观的游戏来说,这个问题尤其重要。 了解如何设计CoEA以避免此类行为,可以通过运行时分析提供。 在本文中,我们将CoEA的运行时分析范围推向组合游戏,证明了UMDA发现(高概率)最佳策略所需的模拟游戏数量的一般上限。 此结果适用于任何公正的组合游戏,对于许多游戏,隐含绑定是多项式或准多项式作为游戏位置数量的函数。 在证明了主要结果后,我们为简单的知名游戏提供了几个应用程序:Nim,Chomp,Silver Dollar和Turn Turtles。 作为CoEAs对组合游戏的第一次运行时分析,这一结果是迈向Coevolution综合理论框架的关键一步。
随着尖刺神经网络(SNN)的应用范围日益扩大,SNN模型的复杂性激增,导致对AI可性的需求呈指数级增长。 作为神经网络的新一代计算架构,多核近内存计算系统中分布式存储和并行计算的效率和功耗备受关注。 其中,从逻辑核心到物理核心的映射问题是研究热点之一。 为了提高多核近内存计算系统的计算并行性和系统吞吐量,并降低功耗,我们提出了基于Off-policy Deterministic Actor-Critic的SNN训练多核部署优化方法。 我们利用深度强化学习作为非线性优化器,将多核拓扑作为网络图特征,并使用图卷积将多核结构输入策略网络。 我们通过近端策略优化更新策略网络的参数,实现多核近内存计算架构中SNN模型的部署优化,降低芯片功耗。 为了处理大维动作空间,我们使用将核心数量匹配为策略网络的输出的连续值,然后再次对其进行离散,以获得新的部署方案。 此外,为了进一步平衡核心间计算延迟并提高系统吞吐量,我们提出了具有平衡存储和计算策略的模型分区方法。 我们的方法克服了核心之间的计算和存储负载不均匀等问题,以及本地通信热点的形成,显著降低了模型训练时间、通信成本以及内核之间在多核近内存计算架构中的平均流量负载。
图像处理和计算机视觉的许多关键任务被制定为反向问题。 因此,设计快速和健壮的算法来解决这些问题非常重要。 在本文中,我们专注于广义的投影梯度下降(GPGD)算法,其中通过学习神经网络实现广义投影,并为成像逆问题提供最先进的结果。 事实上,神经网络允许对未知的低维集合进行投影,这些集合对复杂的数据(如图像)进行建模。 我们称这些预测为深度预测。 在通用设置中,当使用低维模型集的正交投影时,在限制的等距假设下,已经显示相应的正交PGD以线性速率收敛,在稀疏恢复的经典情况下产生接近最优的收敛(在GPGD方法的类内)。 然而,对于受过经典平均平方误差损失训练的深度投影先验,几乎不能保证线性收敛的假设得到满足。 在本文中,我们提出了深度投影先验的训练损失的随机正交正交。 这种正则化是由我们的理论结果驱动的:正交投影的足够好的近似保证了线性稳定的恢复,性能接近正交PGD。 我们通过实验表明,使用两种不同的深度投影先验(基于自动编码器和去核化网络),我们的随机正交正极正态正交化产生预测,根据我们的理论发现,在具有挑战性的逆问题设置中提高GPGD的收敛速度和稳健性。
弱帕累托边界(WPB)是指多目标优化问题的客观空间中的一个边界,其特征是帕累托最优性弱而不是帕累托最优性。 WPB给多目标进化算法(MOEA)带来了严峻的挑战,因为它可能会误导算法找到抗支配性的解决方案(DRS),即在某些目标上表现出色的解决方案,但在其他目标上表现严重不足,因此缺少帕累托最优解决方案。 虽然已认识到WPB对MOEA的严重影响,但仍缺乏系统和详细的分析。 为了填补这个空白,本文研究了WPB的属性。 特别是,从理论上分析,WPB的类别,作为其弱帕累托最优属性衍生的属性。 分析表明,不同类别WPBs诱导的DRS的支配阻力度表现出明显的渐近增长率,因为客观空间中的DRS接近WPBs,其中陡峭的渐近增长率表明MOEA有更大的阻碍。 除此之外,还针对各种新的测试问题进行了实验研究,以调查WPB属性的影响。 实验结果表明与我们的理论发现一致。 其他属性的实验表明,MOEA的性能对某些属性高度敏感。 总体而言,没有现有的MOEA可以全面解决这些属性带来的挑战。
动态优化问题(DOP)由于其不断变化的条件而具有挑战性。 这就要求算法在不断变化的条件下快速找到新的最优解决方案时具有高度适应性和效率。 传统方法通常依赖于显式变化检测,当变化检测不可靠或不可行时,这可能是不切实际或低效的。 我们提出了基于扰动和物种分布的粒子蜂群优化(PSPSO),这是一种强大的算法,用于不知情的动态优化,而无需环境变化的信息。 PSPSO结合了基于物种的Niching,停用和新提出的随机扰动机制来处理DOP。 PSPSO利用周期性的多方框架,战略资源分配和有针对性的嘈杂更新,以适应动态环境。 我们将PSPSO与广义移动峰值基准(GMPB)上的几个最先进的算法进行了比较,该算法涵盖了各种场景,包括简单和多模态的动态优化,频繁和激烈的变化以及高维空间。 我们的结果表明,PSPSO在所有场景中都优于其他最先进的不知情算法,并且与知情算法相比,可带来竞争结果。 特别是,PSPSO在GMPB中具有高维度或高变化频率的函数中表现出强度。 消融研究表明随机扰动成分的重要性。
我们提出了进化策略和准牛顿方法之间的混合算法。 该设计基于Hessian估计进化策略,该策略迭代估计了问题的Hessian矩阵的逆平方根。 这类似于准牛顿方法和相应的免导源信任区域算法,如NEUOA。 因此,拟议的方法用准牛顿步骤取代了非精英进化策略中常见的全局重组步骤。 数值结果显示超线性收敛,特别是在平滑凸问题上提高了性能。
本文提出了一种先进的混合优化(GMPA)算法,以有效解决灰狼优化器(GWO)应用于复杂优化场景时的固有限制。 具体来说,GMPA将海洋捕食者算法(MPA)的基本功能集成到GWO框架中,通过增强的探索和开发平衡来实现卓越的性能。 该评估利用了欧洲航天局(ESA)的GTOPX基准数据集,包括高度复杂的行星际轨迹优化问题,其特征是明显的非线性和反映现实世界航空航天情景的多个相互冲突的目标。 GMPA方法的核心是一个精英矩阵,从MPA借用,旨在迭代保存和完善高质量的解决方案,从而促进解决方案的多样性和最小化过早的融合。 此外,GMPA还采用了三阶段位置更新机制,结合Lévy航班和Brownian运动,以显着增强勘探能力,有效降低当地Optima停滞的风险。 GMPA动态保留有前途的搜索区域的历史信息,利用MPA固有的内存存储功能,促进有针对性的利用和完善。 与传统的GWO和其他先进的元方法相比,经验评估证明了GMPA的卓越有效性,在GTOPX基准测试中实现了显着提高的收敛率和解决方案质量。 因此,GMPA作为一种稳健,高效和适应性优化方法,特别适用于高维和复杂的航空航天轨迹优化,为混合元环境优化技术提供了重要的见解和实际进步。
发现同时满足多种属性目标的新型3D分子结构仍然是材料和药物设计的核心挑战。 虽然最近的基于扩散的模型可以产生3D构象,但它们需要为每个新属性或属性组合进行昂贵的再培训,并且在执行结构约束方面缺乏灵活性。 我们引入了EGD(Diffusion中的进化指导),这是一个无训练框架,将进化运算符直接嵌入到扩散采样过程中。 通过在噪声扰动样品上执行交叉,然后用预训练的无条件扩散模型对其进行去噪,EGD无缝地混合结构碎片并引导生成用户指定的目标,而无需任何额外的模型更新。 在单目标和多目标3D条件生成任务以及量子特性的多目标优化上,EGD在精度方面优于最先进的条件扩散方法,并且每一代运行速度高达5倍。 在蛋白质配体的单目标优化中,EGD可实现定制的配体生成。 此外,EGD可以在生成的分子中嵌入任意的3D片段,同时在一个统一过程中优化多个相互冲突的属性。 这种效率,灵活性和可控结构的结合使EGD成为快速引导探索化学空间的强大工具。
我们描述了一种连接主义模型,试图捕捉基于经验的问题解决或任务学习的概念,即新遇到的问题的解决方案由记忆的解决方案到先前的问题组成。 我们将该模型应用于高效序列生成的计算问题,这个问题没有明显的梯度下降过程,并且并非所有可能的问题实例都可以解决。 实证测试显示出有希望的效用证据。
众所周知,进化算法可以从控制其行为的关键参数的动态选择中受益,将其搜索策略调整到优化过程的不同阶段。 一个突出的例子,动态参数选择已经显示一个可证明的超级恒定速度是(1+(λ,λ))遗传算法优化OneMax函数。 虽然最优参数控制策略导致线性预期运行时间,但静态参数选择是不可能的。 这一结果激发了人们对参数控制策略的浓厚兴趣。 然而,许多作品,特别是理论运行时间分析,专注于控制单个参数。 导出控制多个参数的策略仍然非常具有挑战性。 在这项工作中,我们重新考虑了(1+(λ,λ))遗传算法优化OneMax的问题。 我们将其四个主要参数解耦,并研究最先进的深度强化学习技术如何近似良好的控制策略。 我们表明,虽然使深度强化学习有效地学习是一项具有挑战性的任务,但一旦它起作用,它非常强大,并且能够在同一基准上找到优于所有先前已知的控制策略的政策。 根据通过强化学习发现的结果,我们得出一个简单的控制策略,它始终优于默认理论推荐设置27%和irace调整策略,这是该基准上最强的现有控制策略,为13%,所有测试的问题大小高达40,000。