AI基础研究具身智能 AI金融

本网站上的内容仅供参考，不提供医疗或其他专业建议，不代表活水快报、贡献者或合作伙伴的观点。

© 2024-2025 活水快报 - 42Digest.

|

京ICP备2024044642号-15

多智能体系统研究快报

相关分类

计算机科学

Computer Science

人工智能

Artificial Intelligence

计算与语言

Computation and Language

计算复杂性

Computational Complexity

计算机科学

Computer Science

人工智能

Artificial Intelligence

计算与语言

Computation and Language

计算复杂性

Computational Complexity

最新研究

SciAgent:通用科学推理的统一多代理系统

大型语言模型的最新进展使人工智能系统能够在特定领域的科学任务上实现专家级性能,但这些系统仍然狭窄且手工制作。我们引入了SciAgent,一个统一的多代理系统,专为一般科学推理而设计 - 适应跨学科和难度水平的推理策略的能力。 SciAgent将问题解决组织为分层过程:协调员代理解释每个问题的域和复杂性,动态编排专门的工人系统,每个系统由交互推理子代理组成,用于符号演绎,概念建模,数值计算和验证。这些代理协同组装和完善针对每个任务的推理管道。在数学和物理奥林匹克竞赛(IMO,IMC,IPhO,CPHO)中,SciAgent始终如一地达到或超越人类金牌者的表现,展示了领域通用性和推理适应性。此外,SciAgent已经在国际化学奥林匹克竞赛(IChO)上进行了测试,并从人类的最后一次考试(HLE)基准中选择了问题,进一步证实了该系统在不同科学领域进行概括的能力。这项工作使SciAgent成为迈向通用科学智能-AI系统的具体步骤,能够在专家层面进行连贯的跨学科推理。

人工智能计算与语言多智能体系统

多智能体航天器系统的信息驱动故障检测和识别:在轨检查协作任务

这项工作为在低地球轨道上执行协作检查任务的多航天器系统提供了一个全球对本地的任务感知故障检测和识别(FDI)框架。检查任务由全球信息驱动的成本功能代表,该功能集成了传感器模型,航天器姿势和任务级信息增益目标。该公式通过使用相同的成本功能来驱动全球任务分配和地方传感或运动决策,将指导、控制和外国直接投资联系起来。通过比较预期和观察到的任务指标来实现故障检测,而高阶成本梯度措施可以识别传感器、执行器和状态估算器之间的故障。自适应阈值机制可捕获时间变化的检查几何形状和动态任务条件。代表性多航天器检查场景的模拟结果表明了不确定性下的故障定位和分类的可靠性,为弹性自主检查架构提供了统一、信息驱动的基础。

系统与控制人工智能多智能体系统机器人学

共享知识的诅咒:在具有不完美信息的协调游戏中的递归信念推理

常识对于安全小组协调至关重要。在人类缺席的情况下,人类必须依赖共享知识,这种知识本质上是深度有限的,因此容易出现协调失败,因为任何有限顺序的知识归因都允许更高的顺序归因,这可能会改变已知的人。在涉及802名参与者的三项单独实验中,我们研究了人类在多大程度上可以区分常识和n阶共享知识。我们设计了一个具有不完美信息的双人协调游戏,将递归游戏结构和高阶不确定性简化为可相关的日常场景。在这个游戏中,协调最高回报需要一个特定的事实,才能成为玩家之间的常识。然而,这个事实不能成为游戏中的常识。事实最多可以是n阶共享知识对于一些n。我们的研究结果表明,即使在相当肤浅的共享知识(低值n)的深度,玩家的行为就好像他们拥有共同的知识,并在他们的行为中声称类似的确定性水平,尽管在错误地假设保证协调时会招致重大处罚。我们把这种现象称之为“共享知识的诅咒”。它要么是由于玩家无法区分高阶共享知识和共同知识,要么是由于他们隐含的假设,即他们的共同玩家无法做出这种区分。

多智能体系统计算机科学与博弈论社会与信息网络

AI开国元勋:多代理管道中GIS搜索的案例研究

虽然大型语言模型(LLM)表现出非凡的流畅性,但努力仍然难以从中提取更强的推理能力。本文借鉴了基于搜索的LLM计算解释,为理解LLM推理和优化提出了系统框架。也就是说,通过构建多代理管道来确保以渐进、渐进和顺序(GIS)的方式遍历搜索空间,最好实现增强推理。简明扼要地说,高质量的推理是一种受控的增量搜索。为了测试这个框架,我们研究了递归细化(RR)的有效性 - 一种自我批评,对抗性压力测试和整合关键反馈的迭代过程 - 作为实施GIS搜索的实用方法。我们设计了一个实验,将一个简单、线性的管道与一个复杂的、明确结构化的管道进行比较,利用递归细化层。多代理模型是为了反映三位美国开国元勋(汉密尔顿,杰斐逊和麦迪逊)使用RAG动力的军械库的历史人物,并被提示对三个当代政治问题做出反应。使用双层方法对模型性能进行了评估:LLM仲裁者代理的定量评分和定性的人类判断。我们的结果表明,复杂模型在所有9个测试用例中的表现一直优于简单模型,平均仲裁者输出得分为88.3对71.7。复杂模型的论点在分析深度、结构细微差别和战略框架方面是优越的。我们的结论是,递归改进是通过GIS搜索增强LLM推理的一个强大的架构功能。

人工智能计算与语言多智能体系统

使用多代理深度强化学习了解弱电鱼中的电通信和电感应

弱电鱼,如Gnathonemus petersii,使用显着的电方式进行主动传感和通信,但研究其丰富的电感和电通信行为以及自然主义环境中的相关神经活动在实验上仍然具有挑战性。在这里,我们提出了一种新的生物学启发的计算框架来研究这些行为,其中通过多智能强化学习(MARL)训练的基于循环神经网络(RNN)的人工代理学习调节他们的电器官放电(EODs)和运动模式,以便在虚拟环境中集体觅食。训练有素的药剂展示了与真正的鱼类集体一致的几种新兴特征,包括重尾EOD区间分布,环境环境依赖于EOD间隔分布的变化,以及自由加载等社会互动模式,其中代理降低了其EOD速率,同时受益于邻近剂的主动传感。最低限度的双鱼测定进一步隔离了电通信的作用,表明获得特定爆炸物处理和相对支配共同塑造觅食成功。值得注意的是,这些行为是通过进化启发的个人健身和紧急代理间互动的奖励而出现的,而不是通过明确奖励社交互动的代理。我们的工作对弱电鱼的神经伦理学以及其他社交,交流动物具有广泛的影响,其中来自多个个体的广泛记录,因此传统的数据驱动建模是不可行的。

神经与演化计算人工智能多智能体系统系统与控制

代理安全有多Brittle? 意图考虑意图承担和任务复杂性的代理风险

目前对LLM驱动剂的安全评估主要集中在原子危害上,未能解决在复杂任务中隐藏或稀释恶意意图的复杂威胁。我们通过对意图隐藏和任务复杂性的正交压力下的代理安全脆度进行二维分析来解决这一差距。为了实现这一目标,我们引入了OASIS(正交代理安全调查套件),这是一个具有细粒度注释和高保真模拟沙盒的分层基准测试。我们的发现揭示了两个关键现象:随着意图变得模糊,安全对齐急剧下降和可预测地下降,并且出现了“复杂性悖论”,其中由于能力限制,代理商在更困难的任务上似乎更安全。通过发布OASIS及其模拟环境,我们为在这些被忽视的尺寸中探索和加强代理安全提供了原则性的基础。

多智能体系统计算与语言

重新思考多代理系统的可靠性:拜占庭断层容忍的视角

确保代理架构的可靠性,并在发生故障时有效识别有问题的代理是多代理系统(MAS)中的关键挑战。大型语言模型(LLM)的进步已经建立了基于LLM的代理作为MAS的主要分支,在复杂的问题解决和世界建模方面实现了重大突破。然而,这种转变的可靠性影响在很大程度上仍未得到探索,即用基于LLM的代理取代传统剂是否可以有效地提高MAS的可靠性。在这项工作中,我们从拜占庭容错的角度调查和量化基于LLM的代理的可靠性。我们观察到,基于LLM的代理在处理错误的消息流时表现出更强的怀疑态度,这种特性使他们能够在不同的拓扑结构中超越传统代理。在试点实验结果的激励下,我们设计了CP-WBFT,这是一种基于置信探针的加权拜占庭断层耐受性共识机制,以增强具有不同拓扑结构的MAS的稳定性。它利用LLM的内在反射和辨别能力,采用基于探针的加权信息流传输方法,以提高基于LLM的代理的可靠性。广泛的实验表明,CP-WBFT在极端拜占庭条件下(故障率为85.7%)在不同的网络拓扑中实现了卓越的性能。值得注意的是,我们的方法超越了传统方法,在各种拓扑上获得了显着的准确性,并在数学推理和安全评估任务中保持了强大的可靠性。

多智能体系统人工智能计算与语言

对话系统中的自适应多代理响应细化

大型语言模型(LLM)通过产生类似人类的反应,在对话系统中取得了显着的成功。然而,它们可能会不足,特别是当需要考虑到个性化或特定知识时。在现实生活中的设置中,依靠用户来检测这些错误并请求新的响应是不切实际的。解决这个问题的一个方法是在将其返回给用户之前改进响应。虽然现有方法侧重于在单个LLM中改进响应,但这种方法难以考虑有效对话所需的不同方面。在这项工作中,我们建议通过多代理框架来改进响应,其中每个代理为每个方面分配一个特定的角色。我们专注于对对话质量至关重要的三个关键方面:事实性,个性化和连贯性。每个代理负责审查和完善其中的一个方面,然后合并他们的反馈,以提高整体响应。为了加强它们之间的合作,我们引入了一个动态的沟通策略。而不是遵循固定的代理序列,我们的方法根据每个查询的具体要求自适应地选择和协调最相关的代理。我们验证了具有挑战性的对话数据集的框架,表明我们的框架明显优于相关基线,特别是在涉及知识或用户角色的任务中,或两者兼而有之。

计算与语言人工智能多智能体系统

通过学习代理的遗憾边界进行强化学习

我们提出了一种方法,用于量化通过多代理设置的遗憾边界进行强化学习转移的有用性。考虑到许多 א 代理人在同一马尔可夫决策过程中运作,但可能具有不同的奖励功能,我们认为每个代理人在最佳政策最大化她的平均奖励方面遭受的遗憾。我们表明,当代理人分享他们的观察时,与每个代理人必须依靠自己收集的信息的情况相比,所有代理人的完全遗憾都小于√(א)的系数。这一结果表明,在多代理设置中考虑后悔可以提供在迁移学习中分享观察的好处的理论界限。

机器学习多智能体系统

LLM 代理真的能辩论吗? 逻辑推理中多代理辩论的受控研究

多代理辩论(MAD)最近已成为提高大型语言模型(LLM)推理性能的有希望的框架。然而,除了简单的集合或多数投票之外, LLM 代理人是否能够真正参与审议推理,但仍不清楚。我们通过使用Knight-Knave-Spy逻辑谜题进行对照研究来解决这个问题,该谜题能够在可验证的地面真理下对辩论结果和过程进行精确,逐步评估。我们系统地设置了六个结构和认知因素,包括代理团队规模,组成,信心可见性,辩论顺序,辩论深度和任务难度,以解开它们各自对集体推理的影响。我们的结果表明,内在的推理强度和群体多样性是辩论成功的主要驱动因素,而秩序或信心可见性等结构性参数则提供有限的收益。除了结果之外,过程级别的分析还确定了关键的行为模式:多数压力抑制了独立纠正,有效的团队推翻了不正确的共识,理性,有效性一致的推理最强烈地预测了改善。这些发现为LLM辩论如何以及为什么成功或失败提供了宝贵的见解,为设计可解释和寻求真理的多代理推理系统提供了指导。

多智能体系统

自动化谈判介绍

本书是一本入门教科书,面向对自动化谈判主题全新的计算机科学专业的学生。它不需要任何先决条件的知识,除了小学数学和基本的编程技能。本书附带了一个简单的玩具世界谈判框架,在Python中实现,读者可以使用该框架来实现他们自己的谈判算法并使用它们进行实验。这个框架既小又简单,以至于任何不喜欢在Python中工作的读者都应该能够在他们选择的任何其他编程语言中快速重新实现它。

多智能体系统人工智能计算机科学与博弈论

代理与错位目标的代理与代理交互的趋同动态

我们为多代理场景中的代理到代理交互开发了一个理论框架。我们考虑设置中,两个基于语言模型的代理在上下文中执行迭代梯度更新,使用另一个代理的输出作为输入。我们表征了当代理具有错位目标时与相互作用相关的生成动力学,并表明这导致一个偏颇的平衡,其中两个代理都没有达到其目标 - 从客观间隙和每个代理的提示引起的几何形状中可以预测的剩余误差。我们为非对称收敛创造条件,并提供了一种可以证明取得对抗结果的算法,产生片面的成功。受过训练的变压器模型以及用于上下文线性回归任务的GPT5实验验证了该理论。我们的框架提供了一个用于研究、预测和防御多智能体系统的设置;明确地将快速设计和交互设置与稳定性、偏差和鲁棒性联系起来。

多智能体系统人工智能

在沉浸式房间中模拟多智能体运动动力学

沉浸式房间是越来越受欢迎的增强现实系统,支持虚拟世界中的多智能体交互。然而,尽管内容创建和技术发展广泛,但关于感知驱动的社会动态的见解,例如虚拟世界导航期间的复杂运动模式,在很大程度上仍然未被充分探索。运动动力学的计算模型可以帮助我们了解沉浸式房间中人类互动的潜在机制,并开发更好地支持空间分布交互的应用程序。在这项工作中,我们提出了一种新的基于代理的紧急人类运动动力学模型。该模型将人类代理表示为房间内简单的空间几何形状,根据它们接近的突出虚拟空间对象重新定位和重新定位自己。代理运动被建模为一种相互作用的过程,将外部扩散驱动的环境影响与代理之间的内部自我推进相互作用相结合。此外,我们利用基于模拟的推理(SBI)来表明,运动模式的调节参数可以从简单的可观察值中估计。我们的结果表明,该模型成功地捕获了与动作相关的代理属性,但暴露了与环保意识相关的本地不可识别性。我们认为,我们基于模拟的方法为创建自适应,响应式沉浸式房间铺平了道路 - 根据人类集体运动模式和空间关注来调整其界面和交互的空间。

人机交互多智能体系统应用统计学

CoRL-MPI:通过可学习的行为增强MPI,实现高效且可证明安全的多机器人碰撞避免

分散式防撞仍然是可扩展多机器人系统的核心挑战。解决这个问题的一个有希望的方法是模型预测路径综合(MPI) - 一个自然适合处理任何机器人运动模型的框架,并提供强大的理论保证。尽管如此,在实践中,基于MPI的控制器可能会提供次优的轨迹,因为它的性能在很大程度上依赖于不知情的随机抽样。在这项工作中,我们介绍了CoRL-MPI,这是合作强化学习和MPI的新融合,以解决这一限制。我们在模拟中训练一个动作策略(近似为深度神经网络),学习局部合作避免碰撞行为。然后,将这种学习政策嵌入到MPI框架中,以指导其抽样分布,使其偏向于更明智和合作的行动。值得注意的是,CoRL-MPPI保留了常规MPI的所有理论保证。我们根据最先进的基线(包括 ORCA、BVC 和多智能体 MPPI 实现)评估我们在密集、动态模拟环境中的方法。我们的结果表明,CoRL-MPI显著提高了导航效率(以成功率和制造率衡量)和安全性,从而实现了敏捷和强大的多机器人导航。

机器人学多智能体系统

部分动作替换:在离线MARL中解决分布转移

离线多智能体强化学习(MARL)受到评估非分配(OOD)联合行动的挑战的严重阻碍。我们的核心发现是,当行为策略被考虑在内时 - 代理在数据收集期间全部或部分独立行动的常见场景 - 部分行动替换策略(PAR)可以显着减轻这一挑战。 PAR更新了代理行动的单个或部分,而其他操作仍然固定在行为数据上,与完全的联合行动更新相比,减少了分布移位。基于此见解,我们开发Soft-Partial Conservative Q-Learning(SPACQL),使用PAR来缓解OOD问题,并根据价值估计的不确定性动态加权不同的PAR策略。我们为这种方法提供了严格的理论基础,证明在因子化行为政策下,诱导的分布移量与偏离剂的数量呈线性尺度,而不是与联合行动空间成倍地扩展。这为这一重要的离线MARL问题带来了一个可证明的更严格的值错误。我们的理论结果还表明,SPaCQL使用不确定性加权自适应地解决分布变化。我们的经验结果表明,SPaCQL能够实现更有效的策略学习,并在离线数据集显示独立结构时表现出其优于基线算法的显着优势。

机器学习人工智能多智能体系统

通过猜想设计指导非合作游戏

在动态的非合作游戏中,每个玩家在选择策略之前都会对其他玩家的反应进行猜想。然而,由此产生的平衡可能是多重的,并不总是导致理想的结果。这些问题通常是单独解决的,例如,通过对手建模和激励设计。从猜想变化游戏中汲取灵感,我们提出了一个激励设计框架,其中协调器首先通过优化预定义的客观函数来计算均衡,然后将这种均衡作为玩家达到的目标。在集中设置中,协调器还优化了将玩家引导到目标的猜想。在分散的设置中,玩家独立计算猜想并根据单个目标更新策略。我们在这两种情况下都提供了平衡存在的保证。该框架不仅使用猜想来引导系统达到理想的结果,而且还将游戏解耦成独立的优化问题,从而在大规模设置中实现高效的计算和并行化。我们展示了我们在经典代表性非合作游戏中的理论结果,展示了其应用潜力。

计算机科学与博弈论多智能体系统

用于多代理信用分配的历史交互增强型沙普利策略梯度算法

多智能体强化学习(MARL)在多剂协作问题中表现出显着的性能,近年来已成为人工智能研究的突出主题。然而,MARL中传统的信用分配方案在保持训练稳定性的同时,无法可靠地捕获强耦合任务中的单个贡献,从而导致有限的泛化能力并阻碍算法性能。为了应对这些挑战,我们提出了多代理信用分配的历史交互增强型沙普利策略梯度算法(HIS),该算法采用混合信用分配机制来平衡基础奖励与个人贡献激励。通过利用历史交互数据以样本效率的方式计算沙普利值,HIS增强了代理感知自身贡献的能力,同时保留了全球奖励以维持训练稳定性。此外,我们还为混合信用分配机制提供理论保证,确保其产生的赋值结果既高效又稳定。我们在三个广泛使用的连续动作基准环境中评估拟议的算法:多代理粒子环境,多代理MuJoCo和Bi-DexHands。实验结果表明,HIS优于最先进的方法,特别是在强耦合,复杂的协作任务方面表现出色。

多智能体系统

通过分散式内存检索进行多代理上下文协调

大型变压器模型,经过各种数据集的训练,在不需要参数更新的情况下,在以前看不见的任务上展示了令人印象深刻的几杆性能。这种能力也在强化学习(RL)中进行了探索,其中代理与环境进行交互,以检索上下文并最大化累积奖励,在复杂环境中表现出强大的适应性。然而,在合作多代理强化学习(MARL)中,代理商必须协调实现共同的目标,分散的政策部署可能导致任务调整和奖励分配的不匹配,从而限制政策适应的效率。为了应对这一挑战,我们介绍了通过分散内存检索(MAICC)进行多代理上下文协调(MAICC),这是一种旨在通过快速适应来增强协调的新方法。我们的方法包括训练一个集中的嵌入模型来捕获细粒度的轨迹表示,然后是分散模型,这些模型近似集中模型,以获取团队级任务信息。根据学习的嵌入,相关的轨迹被检索为上下文,这些轨迹与代理当前的子轨迹相结合,为决策提供信息。在分散执行期间,我们引入了一种新的内存机制,可以有效地平衡测试时间在线数据与离线内存。基于构建的内存,我们提出了一个混合实用程序评分,该分数结合了个人和团队级别的回报,确保了跨代理的信用分配。包括基于水平觅食(LBF)和SMAC(v1/v2)在内的合作MARL基准的广泛实验表明,与现有方法相比,MAICC能够更快地适应看不见的任务。代码可在https://github.com/LAMDA-RL/MAICC查阅。

多智能体系统机器学习

MA-GTS:解决现实世界应用中复杂图形问题的多代理框架

图形理论问题出现在物流、通信网络和流量优化等实际应用中。这些问题往往是复杂的、嘈杂的和不规则的,给传统算法带来了挑战。大型语言模型(LLM)提供潜在的解决方案,但面临挑战,包括有限的准确性和输入长度限制。为了应对这些挑战,我们提出了MA-GTS(Multi-Agent Graph Theory Solver),这是一个多代理框架,通过代理协作分解这些复杂的问题。 MA-GTS将隐式表示的基于文本的图形数据映射到清晰的、结构化的图形表示中,并根据问题约束和图形结构尺度动态选择最合适的算法。这种方法确保解决方案过程保持高效,由此产生的推理路径是可解释的。我们使用G-REAL数据集验证MA-GTS,这是我们创建的现实启发的图论数据集。实验结果表明,MA-GTS在效率、准确性和可扩展性方面优于最先进的方法,在多个基准(G-REAL 94.2%,GraCoRe 96.9%,NLGraph 98.4%)中取得了强劲的成果。MA-GTS在https://github.com/ZIKEYUAN/MA-GTS.git上开源。

多智能体系统人工智能

通过多行动操作增强PIBT

PIBT是一种基于规则的多代理路径查找(MAPF)求解器,在许多最先进的方法中广泛用作低级规划器或动作采样器。它的主要优势在于其卓越的速度,通过只考虑下一个时间步骤,在毫秒内为数千个代理提供动作选择。然而,这种短视设计导致在代理具有方向并且必须执行耗时的旋转操作的场景中性能不佳。在这项工作中,我们提出了PIBT的增强版本,通过采用多行动操作来解决这一限制。我们详细介绍了为改善 PIBT 性能而引入的修改,同时保持其标志效率。此外,我们展示了我们的方法,当与图形引导技术和大型社区搜索优化相结合时,如何在在线LMAPF-T设置中实现最先进的性能。

多智能体系统人工智能

继续滚动加载更多