适应环境中的物理行为和约束的能力对于体现的代理(例如机器人)与人类有效协作至关重要。 这种物理上接地的人与人工智能协作必须考虑到持续状态作用空间的复杂性和物理约束造成的受限动态。 在本文中,我们介绍了“移出”这一新的人-人工智能协作基准,类似于受物理属性和约束影响的各种协作模式,例如将重物移动到一起,并保持一致的操作,以便在拐角处移动一个大项目。 使用Moving Out,我们设计了两个任务并收集了人与人的互动数据,以评估模型适应各种人类行为和看不见的物理属性的能力。 为了应对物理环境中的挑战,我们提出了一种新的方法,BASS(行为增强,模拟和选择),以增强代理的多样性及其对行动结果的理解。 我们的实验表明,BASS在AI-AI和人AI合作方面优于最先进的模型。 项目页面可查阅https://live-robotics-uva.github.io/movingout_ai/。
我们为具有连续代理的无限游戏开发运算符代数框架,并证明由非交换连续性方程控制的基于遗憾的学习动力学在轻度规律性假设下收敛到独特的量子响应均衡。 该框架统一了功能分析,粗几何和博弈论,为每场比赛分配一个代表集体战略演变的冯诺依曼代数。 在这个代数中,反射性遗憾运算符推动了策略分布的流动,其固定点表征了平衡。 我们引入了序折叠索引,这是一个可计算的可排序值度量,用于测量动力学的自引用深度,并表明它限制了收敛所需的超有限时间,在粗糙的可调和网络上崩溃为零。 该理论产生了新的不变的亚代数刚性结果,在连续经济中建立了羡慕的自由和最大份额分配的存在和独特性,并将后悔流的分析属性与大型语言模型中的经验稳定性现象联系起来。 这些贡献为大规模多代理系统提供了严格的数学基础,并证明了有序指标对均衡选择的效用。
本文探讨了大型语言模型(LLM)在社会模拟中的使用,从计算社会科学的角度分析了它们的潜力和局限性。 第一部分回顾了LLM复制人类认知关键方面的能力的最新发现,包括心智推理理论和社会推理,同时也强调了认知偏差,缺乏真正的理解以及行为不一致等重大限制。 第二部分调查了LLM在多代理仿真框架中的新兴应用,重点关注系统架构、规模和验证策略。 生成剂(Smallville)和AgentSociety等着名项目就其设计选择、经验接地和方法创新进行了讨论。 特别注意大规模LLM驱动的模拟中的行为保真度,校准和可重复性的挑战。 最后部分区分了LLM与其他黑箱系统一样提供直接价值(如交互式模拟和严肃游戏)的上下文,以及使用更成问题的上下文,特别是在解释性或预测建模方面。 本文最后倡导将LLM集成到传统基于代理的建模平台(GAMA,Netlogo等)中的混合方法,使建模者能够将基于语言推理的表达灵活性与经典规则系统的透明度和分析严谨性相结合。
近年来,频繁出现的中断对全球供应链产生了负面影响。 为了保持竞争力,企业努力通过实施高效和有效的决策策略来应对干扰,保持敏捷。 已经做出了重大努力来开发这些敏捷的中断缓解方法,同时利用集中和分布式决策策略。 尽管在现有研究中分析了集中和分布式方法的权衡,但根据中断的供应链实体的网络属性,尚未发现了解供应链绩效的相关工作。 在本文中,我们从能力和网络拓扑角度对供应链进行表征,并研究基于经典多代理框架的分布式决策方法的使用。 分布式框架的性能通过全面的案例研究进行评估,该案例研究调查了供应链作为网络内网络结构和代理属性的功能在存在中断的情况下的性能。 与集中决策方法的比较突出了基于决策策略和网络架构的性能、计算时间和网络通信之间的权衡。 从业者可以使用我们的研究结果,根据代理能力、网络属性和所需的供应链性能设计响应策略。
大型语言模型(LLM)代理已经显示出协作任务完成的前景越来越大。 然而,现有的多代理框架通常依赖于静态工作流、固定角色和有限的代理间通信,从而降低了他们在开放式、高复杂度领域的有效性。 本文提出了一个协调框架,通过三个核心机制实现适应性:动态任务路由、双向反馈和并行代理评估。 该框架允许代理根据信心和工作量重新分配任务,交换结构化批评以迭代改进输出,并在高模态子任务上竞争,并评估器驱动的选择最合适的结果。 我们在模块化架构中实例化了这些原则,并在静态和部分自适应基线的事实覆盖、一致性和效率方面进行了实质性改进。 我们的研究结果强调了在多代理LLM系统中纳入适应性和结构化竞争的好处。
理解和预测游戏中大规模多智能体的行为仍然是多智能体系统的一个基本挑战。 本文通过分析平滑的遗憾匹配如何驱动大量异质性对统一行为的初始政策驱动大量异质性代理,从而研究了异质性在平衡形成中的作用。 通过将系统状态建模为后悔的概率分布,并通过连续性方程分析其演变,我们发现了不同多代理设置的一个关键现象:后悔分布的方差随着时间的推移而减少,导致异质性消失和代理之间达成共识的出现。 这一普遍结果使我们能够在竞争和合作多代理环境中证明与量子响应均衡的趋同。 我们的工作推进了多智能体学习的理论理解,并提供了不同博弈理论场景中均衡选择的新视角。
语言模型代理(LMA)的代理能力和可信度的核心是它们随着时间的推移保持稳定,可靠,身份认同的程度。 然而,LMA从大型语言模型(LLMs)(无国籍状态,随机性,对提示的敏感性和语言中介)中继承了病理学,这可能会破坏其可识别性,连续性,持久性和一致性。 这种身份的削弱可以通过干扰他们的代理能力,如推理、规划和行动来削弱它们的可靠性、可信度和效用。 为了应对这些挑战,我们引入了代理身份电子(AIE),这是一个严格的,统计驱动的,经验框架,用于测量LMA系统随着时间的推移展示和维持其代理身份的程度,包括它们的能力,属性和从状态扰动中恢复的能力。 AIE包括一组新颖的指标,可以与其他性能,能力和代理稳健性指标集成,以帮助设计最佳的LMA基础设施和脚手架,如内存和工具。 我们列出了可以在LMA生命周期的每个阶段应用的正式定义和方法,并提供了如何应用它们的例子。
基于我们之前在药物研究代理AI方面提出的概念框架,本文对Tippy在药物发现实验室自动化方面的多代理系统实施进行了全面的技术分析。 我们展示了一个分布式微服务架构,由五个专业代理(主管,分子,实验室,分析和报告)组成,通过OpenAI Agents SDK编排和通过模型上下文协议(MCP)访问实验室工具进行协调。 系统架构包括代理特定的工具集成、异步通信模式以及通过基于 Git 的跟踪进行全面的配置管理。 我们的生产部署策略利用 Kubernetes 容器编排与 Helm 图表、Docker 容器化和 CI/CD 管道进行自动化测试和部署。 该实现集成了RAG功能的向量数据库,并使用了 Envoy 反向代理,用于安全的外部访问。 这项工作展示了专门的人工智能代理如何有效地协调复杂的实验室工作流程,同时通过标准化协议保持安全性、可扩展性、可靠性以及与现有实验室基础设施的集成。
COVID-19大流行给制造商带来了许多意想不到的干扰,例如频繁变化的市场和有限的人力。 为了保持竞争力,需要灵活和实时的制造决策策略来应对这种高度动态的制造环境。 一个重要的问题是动态资源分配以完成生产任务,特别是当资源中断(例如,机器崩溃)发生时。 虽然已经提出了多代理方法以灵活和敏捷的方式解决问题,但代理内部决策过程和资源不确定性很少被研究。 这项工作引入了基于模型的资源代理(RA)架构,可实现有效的代理协调和动态代理决策。 基于RA架构,还提出了通过集群代理协调策略纳入风险评估的重新安排策略。 实施基于模拟的案例研究,以演示使用拟议的多代理框架进行动态重新安排。 结果表明,与集中方法相比,建议的方法减少了计算工作,同时失去了一些吞吐量最优性。 此外,案例研究表明,将风险评估纳入重新安排决策可以提高吞吐量。
大型语言模型(LLM)的最新进展催化了从静态预测系统到能够推理,与工具交互并适应复杂任务的代理AI代理的范式转变。 虽然基于LLM的代理系统在许多领域都显示出希望,但它们在医学成像中的应用仍处于起步阶段。 在这项工作中,我们介绍了AURA,第一个专门用于全面分析,解释和评估医学图像的视觉语言解释性代理。 通过实现动态交互、情境解释和假设测试,AURA代表了朝着更透明、适应性强和临床对齐的人工智能系统迈出的显著进展。 我们强调了代理人工智能在将医学图像分析从静态预测转变为交互式决策支持方面的承诺。 利用基于LLM的架构Qwen-32B,AURA集成了一个模块化工具箱,包括:(i)具有相接,病理分割和解剖分割的分割套件,以本地化临床有意义的区域;(ii)支持通过图像级解释进行推理的反事实图像生成模块;以及(iii)一组评估工具,包括像素明智的差分图分析,分类和高级状态。
基于约束的优化是机器人技术的基石,能够设计能够可靠地编码任务和安全要求的控制器,例如避免碰撞或形成。 然而,手工制作的限制在需要复杂协调的多代理设置中可能会失败。 我们引入了基于ReCoDe-Reinforcement的Constraint Design——一种分散的混合框架,它将基于优化的控制器的可靠性与多代理强化学习的适应性相结合。 ReCoDe不是抛弃专家控制器,而是通过学习额外的动态约束来改进它们,这些约束可以捕获更微妙的行为,例如,通过限制代理运动以防止杂乱场景中的拥塞。 通过地方沟通,代理人集体限制他们允许的行动在不断变化的条件下更有效地协调。 在这项工作中,我们专注于将ReCoDe应用于需要复杂的,基于上下文的运动和共识的多代理导航任务,我们表明它优于纯手工制作的控制器,其他混合方法和标准MARL基线。 我们提供经验(真正的机器人)和理论证据,证明保留用户定义的控制器,即使它不完美,也比从头开始学习更有效,特别是因为ReCoDe可以动态改变它依赖这个控制器的程度。
在高度复杂和随机的全球供应链环境中,本地企业代理商寻求分布式和动态策略,以敏捷应对中断。 现有文献探讨了集中和分布式方法,而大多数工作忽略了时间动态和个体代理风险管理的异质性。 为了解决这一差距,这封信提出了一个异构的风险管理机制,将不确定性和风险态度纳入代理沟通和决策战略。 因此,这种方法使企业能够以分布式方式处理随机环境中的中断,特别是在多智能体控制和管理的背景下。 通过模拟案例研究,我们展示了在随机设置下拟议方法的可行性和有效性,以及当代理商持有各种风险态度时,中断反应的决定如何变化。
大型语言模型(LLM)的协作性已被证明在自然语言处理系统中有效,为医疗保健发展带来了相当大的希望。 然而,它缺乏明确的成分选择规则,需要人为干预或临床特异性验证。 此外,现有的架构严重依赖预定义的LLM集群,其中部分LLM在医疗决策支持场景中表现不佳,使LLM的协作性无效。 为此,我们提出了一种适应性集群协作方法,涉及自我多样性和交叉一致性最大化机制,以提高LLM的医疗决策支持能力。 对于自多样性,我们将LLM内成对输出的模糊匹配值作为其自多样性值,随后以无训练的方式将具有高自多样性值的LLM列为集群组件。 对于交叉一致性,我们首先测量具有最高自差值的LLM与其他值之间的交叉一致性值,然后逐渐掩盖具有最低交叉一致性值的LLM,以消除协作传播过程中潜在的不一致输出。 在两个专门的医学数据集NEJMQA和MMLU-Pro-health上进行的广泛实验证明了我们的方法在医生导向的专业中的有效性。 例如,在NEJMQA上,我们的方法实现了所有学科的公开官方及格分数的准确率,特别是与GPT-4在妇产科学科上达到的56.12%相比,达到了65.47%的ACC。
经典的博弈论模型通常假设理性的代理,完整的信息和关于回报的常识 - 这些假设经常在现实世界的MAS中违反,其特点是不确定性,错误的看法和嵌套的信念。 为了克服这些限制,研究人员提出了包含认知约束,主观信念和异质推理模型的扩展。 其中,超博基理论通过明确建模代理对战略场景的主观感知(称为感知游戏)来扩展经典范式,其中代理可能对结构,回报或可用行为持有不同的信念。 我们对超game理论的代理兼容应用进行了系统审查,研究了其描述能力如何适应动态和交互式MAS上下文。 我们分析了来自网络安全、机器人、社会模拟、通信和一般游戏理论建模的44项选定研究。 基于对超游戏理论及其两个主要扩展 - 分层超游戏和HNF的正式介绍 - 我们开发代理兼容性标准和基于代理的分类框架来评估集成模式和实际适用性。 我们的分析揭示了普遍的趋势,包括欺骗性推理中分层和基于图形的模型的流行以及实际应用中广泛理论框架的简化。 我们确定了结构性差距,包括基于HNF的模型的有限采用,缺乏正式的超游戏语言,以及建模人类代理和代理错位的未探索机会。 通过综合趋势,挑战和开放研究方向,本综述为应用超game理论提供了新的路线图,以增强动态多代理环境中战略建模的现实主义性和有效性。
本文介绍了一种与异质分布式能源(DER)协调消费者的模式,参与与市场清算实体互动的当地能源市场(LEM)。 拟议的LEM方案采用了基于多智能体深度确定性策略梯度(MADDPG)框架的数据驱动,无模型强化学习方法,使消费者能够实时决定是否购买,出售或避免采取任何行动,同时促进有效协调,以便在动态市场中实现最佳能源交易。 此外,我们使用变频自动编码器生成对抗网络(VAE-GAN)模型调查价格操纵策略,该模型允许公用事业公司以诱导消费者财务损失的方式调整价格信号。 我们的结果表明,在对抗性定价下,异构型消费者群体,特别是那些缺乏发电能力的公司,会产生财务损失。 同样的结果适用于不同尺寸的LEM。 随着市场规模的增加,通过代理商之间的紧急合作,交易稳定,公平性得到改善。
多智能体轨迹规划需要确保安全和效率,但僵局仍然是一个重大挑战,特别是在障碍密集的环境中。 当多个代理试图同时穿越同一长而窄的走廊时,经常发生这种僵局。 为了解决这个问题,我们提出了一个新的分布式轨迹规划框架,以弥合全球路径与地方轨迹合作之间的差距。 在全球范围内,提出了一种同源感知最优路径规划算法,该算法充分利用了环境的拓扑结构。 通过考虑其空间和时间属性,从不同的同源性类中选择参考路径,从而提高了全球代理之间的协调。 在局部级别,使用基于模型预测控制的轨迹优化方法生成动态可行和无碰撞轨迹。 此外,在线重新规划策略可确保其对动态环境的适应性。 模拟和实验验证了我们在缓解僵局方面方法的有效性。 消融研究表明,通过将时间感知的同源特性纳入底层全局路径,我们的方法可以显著降低死锁,提高平均成功率从4
为了全面加快人工智能驱动的化学研究,高质量的化学数据库是基石。 从文献中自动提取化学信息对于构建反应数据库至关重要,但目前受到化学信息多模态和风格可变性的限制。 在这项工作中,我们开发了一种基于多模态大语言模型(MLLM)的多代理系统,用于稳健和自动化的化学信息提取。 它利用MLLM强大的推理能力来了解各种化学图形的结构,将提取任务分解为子任务,并协调一组专门的代理,每个代理将MLLM的能力与专用工具的精确,特定领域的优势相结合,以准确解决它们并将结果集成到一个统一的输出中。 我们的系统实现了80.8的F1得分
本文介绍了MCP4EDA,这是第一个模型上下文协议服务器,使大型语言模型(LLM)能够通过自然语言交互控制和优化完整的开源RTL-to-GDSII设计流。 该系统将Yosys合成,Icarus Verilog仿真,OpenLane地点和路线,GTKWave分析和KLayout可视化集成到一个统一的LLM可访问界面中,使设计人员能够通过Claude Desktop和Cusor IDE等AI助手进行对话执行复杂的多工具EDA工作流程。 主要贡献是后端感知合成优化方法,其中LLM从OpenLane结果分析实际的布局后时间,功率和面积指标,以迭代地完善合成TCL脚本,建立一个闭环优化系统,弥合合成估计和物理实现现实之间的传统差距。 与依赖线载模型的传统流相反,这种方法利用真正的后端性能数据来指导合成参数调整,优化序列选择和约束改进,LLM作为智能设计空间探索代理。 对具有代表性的数字设计进行实验评估显示15-30
多模态大语言模型(MLLM)的最新进展使移动代理得以开发,这些代理能够理解视觉输入并遵循用户指令,为移动设备上的复杂任务解锁新的可能性。 然而,由于长期任务执行、错误恢复困难以及不熟悉环境中的冷启动问题,将这些模型应用于现实世界的移动场景仍然是一个重大挑战。 为了应对这些挑战,我们提出了MobileUse,一个专为稳健和自适应移动任务执行的GUI代理。 为了提高长视任务和动态环境中的弹性,我们引入了一个分层反射架构,使代理能够自我监控,检测和恢复从多个时间尺度上的错误,从单个操作到整体任务完成,同时通过按需反射策略保持效率。 为了解决冷启动问题,我们进一步引入了一个主动探索模块,通过自我规划的探索丰富了代理商对环境的理解。 对AndroidWorld和AndroidLab基准的评估表明,MobileUse建立了新的最先进的性能,成功率达到62.9
COVID-19大流行等全球卫生紧急情况暴露了传统医疗供应链中的关键弱点,包括资源分配效率低下、缺乏透明度以及适应动态中断的能力差。 本文介绍了一种新的混合框架,将区块链技术与分散的大型语言模型(LLM)相结合,增强了危机期间医疗供应链的弹性和问责制。 在这个系统中,代表制造商,分销商和医疗机构的自主代理 - 参与由LLM推动的结构化,上下文感知的谈判和决策过程,使稀缺医疗资源的快速和道德分配成为可能。 链下代理层支持自适应推理和本地决策,而链上区块链层则通过智能合约确保决策的不可变、透明和可审计的执行。 该框架还纳入了正式的跨层通信协议,以将分散的谈判与机构执法联系起来。 模拟大流行情景的模拟环境评估系统的性能,证明谈判效率的提高,分配的公平性,供应链响应性和可审计性。 这项研究贡献了一种创新方法,使区块链信任保证与LLM驱动代理的适应性智能协同,为不确定性下的关键供应链协调提供了强大且可扩展的解决方案。