随着大型语言模型(LLM)融入我们的社会和经济互动,我们需要加深对人类如何在战略环境中应对LLM对手的理解。 我们介绍了第一个受控制的货币激励的实验室实验的结果,该实验在针对其他人类和LLM的多人p-beauty竞赛中观察人类行为的差异。 我们使用主题内设计来比较个人层面的行为。 我们表明,在这种环境中,人类受试者在对抗LLM时选择的数字明显低于人类,这主要是由于“零”纳什均衡选择的流行率增加。 这种转变主要是由具有高战略推理能力的主体推动的。 玩零纳什均衡选择的受试者通过吸引LLM的推理能力以及出乎意料的合作倾向来激励他们的策略。 我们的发现为同时选择游戏中的多人人与LLM交互提供了基础见解,揭示了两个主题在对抗LLM时的行为和信念的异质性,并提出了混合人LLM系统中机制设计的重要影响。
从发票,采购订单,账单和财务文件等形式文件中提取字母数字数据通常通过视觉(OCR)和学习算法或单体管道进行,系统改进潜力有限。 我们提出了一个代理AI系统,利用大型语言模型(LLM)代理和强化学习(RL)驱动代理,在LLM推理不确定性下自动进行一致的,自我改进的提取。 我们的工作突出了基于单片LLM的提取的局限性,并引入了一个模块化的多代理框架,其中包含特定任务的提示和RL奖励和惩罚策略,以指导元提示代理从过去的错误中学习并改善基于提示的代理代理。 这种自我纠正的自适应系统处理不同的文档,文件格式,布局和LLM,旨在自动准确地提取信息,而无需人工干预。 在SOIRE和CORD的两个基准数据集上报告的结果对于代理AI框架很有希望。
由高级大型语言模型(LLM)驱动的代理在各种复杂应用程序中展示了令人印象深刻的功能。 最近,多代理系统(MAS)在多个代理之间相互协作和通信,在复杂的任务中表现出增强的功能,例如高质量的代码生成和算术推理。 然而,此类系统的发展往往依赖于手工制作的方法,关于基于LLM的MAS的系统设计和优化的文献仍然有限。 在这项工作中,我们介绍了OMAC,这是一个通用框架,旨在整体优化基于LLM的MAS。 具体来说,我们确定了MAS的五个关键优化维度,包括代理功能和协作结构。 在这些维度的基础上,我们首先提出了一个通用算法,使用两个称为语义初始化器和对比器的因子来优化任何单个维度。 然后,我们介绍了一种跨多个维度进行联合优化的算法。 广泛的实验证明了OMAC在代码生成,算术推理和一般推理任务方面优于最先进的方法。
随着人工智能系统从静态工具向动态代理演进,传统的分类治理框架(基于固定风险层、自主程度或人类监督模型)本身也越来越不足。 基于基础模型、自我监督学习和多智能架构的系统越来越模糊了类别设计到警察的边界。 在这个视角中,我们提出了维度治理的理由:一个跟踪决策权限、流程自治和问责制(3As)如何在人AI关系中动态分配的框架。 这种方法的一个关键优势是能够明确监控系统向关键治理阈值和跨关键治理阈值的运动,从而在风险实现之前进行先发制人的调整。 这种尺寸方法为更适应性的分类提供了必要的基础,使阈值和分类能够随着新兴能力而发展。 虽然类别对于决策仍然至关重要,但将它们建立在维度的基础上,可以实现静态方法无法实现的针对具体情况的适应性和利益相关者响应的治理。 我们概述了关键维度,关键信任阈值,以及说明僵化分类框架失败的实际例子 - 维度思维可以为人工智能前沿的治理和创新提供更具弹性和面向未来的前进道路。
多智能系统利用先进的人工智能模型作为自主代理,在机器人和交通管理等应用程序中交互、合作或竞争完成复杂的任务。 尽管它们越来越重要,但多智能体系统的安全性仍然基本未被充分开发,大多数研究都集中在单个AI模型而不是交互代理上。 这项工作调查了多代理系统中的后门漏洞,并提出了基于代理相互作用的防御机制。 通过利用推理能力,每个代理评估其他人的反应,以检测不合逻辑的推理过程,这些推理过程表明中毒的代理人。 基于LLM的多剂系统(包括ChatGPT系列和Llama 3)的实验证明了拟议方法的有效性,在识别毒剂方面实现了高精度,同时最大限度地减少了清洁剂上的误报。 我们相信这项工作提供了对多智能体系统安全的见解,并有助于开发稳健,值得信赖的AI交互。
随着人工智能系统从静态工具向动态代理演进,传统的分类治理框架(基于固定风险层、自主程度或人类监督模型)本身也越来越不足。 基于基础模型、自我监督学习和多智能架构的系统越来越模糊了类别设计到警察的边界。 在这个视角中,我们提出了维度治理的理由:一个跟踪决策权限、流程自治和问责制(3As)如何在人AI关系中动态分配的框架。 这种方法的一个关键优势是能够明确监控系统向关键治理阈值和跨关键治理阈值的运动,从而在风险实现之前进行先发制人的调整。 这种尺寸方法为更适应性的分类提供了必要的基础,使阈值和分类能够随着新兴能力而发展。 虽然类别对于决策仍然至关重要,但将它们建立在维度的基础上,可以实现静态方法无法实现的针对具体情况的适应性和利益相关者响应的治理。 我们概述了关键维度,关键信任阈值,以及说明僵化分类框架失败的实际例子 - 维度思维可以为人工智能前沿的治理和创新提供更具弹性和面向未来的前进道路。
多智能系统利用先进的人工智能模型作为自主代理,在机器人和交通管理等应用程序中交互、合作或竞争完成复杂的任务。 尽管它们越来越重要,但多智能体系统的安全性仍然基本未被充分开发,大多数研究都集中在单个AI模型而不是交互代理上。 这项工作调查了多代理系统中的后门漏洞,并提出了基于代理相互作用的防御机制。 通过利用推理能力,每个代理评估其他人的反应,以检测不合逻辑的推理过程,这些推理过程表明中毒的代理人。 基于LLM的多剂系统(包括ChatGPT系列和Llama 3)的实验证明了拟议方法的有效性,在识别毒剂方面实现了高精度,同时最大限度地减少了清洁剂上的误报。 我们相信这项工作提供了对多智能体系统安全的见解,并有助于开发稳健,值得信赖的AI交互。
大型语言模型(LLM)的快速发展激发了对解决复杂医疗任务的多代理合作的兴趣。 然而,多剂协作方法的实际优势仍然知之甚少。 现有的评估往往缺乏可推广性,未能涵盖反映现实世界临床实践的不同任务,并且经常省略对基于单LLM和既定常规方法的严格比较。 为了解决这一关键差距,我们引入了MedAgentBoard,这是系统评估多代理协作、单LLM和常规方法的综合基准。 MedAgentBoard包括四种不同的医疗任务类别:(1)医疗(视觉)问题回答,(2)分层总结生成,(3)结构化电子健康记录(EHR)预测建模,以及(4)跨文本,医学图像和结构化EHR数据的临床工作流程自动化。 我们广泛的实验揭示了一个微妙的前景:虽然多代理协作在特定场景中展示了优势,例如增强临床工作流程自动化中的任务完整性,但它并没有始终如一地超越先进的单LLM(例如,在文本医疗QA中),或者,关键是专门的常规方法,通常在医疗VQA和基于EHR的预测等任务中保持更好的性能。 MedAgentBoard提供了重要的资源和可操作的见解,强调了选择和开发医学中AI解决方案的针对特定任务,基于证据的方法的必要性。 它强调,必须仔细权衡多剂合作的内在复杂性和开销与实际的业绩收益。 所有代码、数据集、详细提示和实验结果均在https : / /medagentboard.netlify.app / 开源。
计划旅行是一项认知密集型任务,涉及相互冲突的用户偏好,动态外部信息和多步骤时间空间优化。 传统平台往往不足 - 它提供了静态的结果,缺乏上下文适应,并且不支持实时交互或意图改进。 我们的方法Vaiage通过围绕大型语言模型(LLM)构建的图形结构多代理框架来应对这些挑战,该模型既是目标条件的推荐者,也是顺序规划者。 LLM推断用户意图,建议个性化的目的地和活动,并综合与预算,时间,群体规模和天气等上下文限制相一致的行程。 通过自然语言交互、结构化工具使用和基于地图的反馈循环,Vaiage 实现了基于符号推理和对话理解的自适应、可解释和端到端的旅行规划。 为了评估Vaiage,我们使用基于摩擦的GPT-4评估和定性反馈进行了人工循环实验。 整个系统的平均得分为8.5分,优于无策略(7.2)和无外部API(6.8)变体,特别是在可行性方面。 定性分析表明,代理人协调 -- -- 特别是战略和信息代理人 -- -- 通过优化时间使用和整合实时环境,显著提高了行程质量。 这些结果证明了将LLM推理与开放式现实世界规划任务中的符号代理协调相结合的有效性。
本文介绍了用于快速原型制作和测试分布式空间系统的飞行软件的新型空间模拟环境的设计、开发和应用。 环境将软件模拟的灵活性、确定性和可观察性与通常仅通过实时硬件在环测试实现的保真度和深度相结合。 最终,这项工作可以实现一个工程过程,其中飞行软件以最终的飞行准备形式不断改进和交付,并降低了传统线性开发过程的设计更改和软件修订的成本。 现有工具中未找到的三种关键方法使该环境具有新颖性:第一,混合事件驱动模拟架构,结合了连续时间和离散事件模拟范式;第二,轻量级应用层软件虚拟化设计,允许执行编译的飞行软件二进制文件,同时建模过程调度,输入/输出和内存使用;第三,多航天器空间环境的高保真模型,包括无线通信,相对传感,如差分GPS和相机等。 模拟环境的功能应用于两个飞行就绪软件包的迭代开发和测试:VISORS任务的指导,导航和控制软件,以及用于会合和接近操作的斯坦福空间会合实验室软件套件。 33个月的飞行软件开发结果表明,使用这种模拟环境可以快速可靠地识别和解决缺陷,表征导航和控制性能,并仔细检查内存分配和航天器间网络协议等实现细节。
随着大型语言模型(LLM)越来越多地用于多代理系统,公平性问题应该超越资源分配和程序设计,以包括代理沟通方式的公平性。 从组织心理学出发,我们引入了一个新的框架,用于评估基于LLM的多智能系统(LLM-MAS)中的人际公平性(IF)和信息公平性(InfF)。 我们将交互公平性的理论基础扩展到非感知代理,将公平性重新定义为社会可解释的信号,而不是主观体验。 然后,我们调整了组织司法研究的既定工具,包括Colquitt的组织正义规模和关键事件技术,以衡量公平作为代理互动的行为属性。 我们通过使用资源谈判任务的受控模拟的试点研究来验证我们的框架。 我们系统地操纵语调,解释质量,结果不平等和任务框架(协作与竞争),以评估IF如何影响代理行为。 结果表明,即使客观结果保持不变,语气和理由质量也会显著影响录取决定。 此外,IF vs. 的影响。 InfF因上下文而异。 这项工作为LLM-MAS的公平审计和对规范敏感的对齐奠定了基础。
在本文中,我们解决了多智能网络中分布式学习的两个实际挑战,即个性化和弹性。 个性化是异构代理需要学习针对自己的数据和任务量身定制的本地模型,同时仍然很好地推广;另一方面,学习过程必须具有抵御网络攻击或异常训练数据的能力,以避免中断。 受这两个需求之间概念上的亲和力的激励,我们设计了一种分布式学习算法,该算法结合了分布式梯度下降和Friedkin-Johnsen意见动力学模型,以满足它们。 我们量化其收敛速度和包含最终学习模型的邻域,可以通过调整算法参数以强制更个性化/弹性的行为轻松控制。 我们在数字上展示了我们的算法在合成和现实世界的分布式学习任务上的有效性,与标准策略相比,它为个性化模型和恶意代理实现了高全球精度。
现有的AutoML系统已经推进了机器学习(ML)的自动化;然而,它们仍然需要大量的手动配置和专家输入,特别是在处理多模态数据时。 我们引入了MLZero,这是一种由大型语言模型(LLM)驱动的新型多代理框架,可在多种数据模式中实现端到端的ML自动化,只需最少的人工干预。 认知感知模块首先被采用,将原始多模态输入转化为感知环境,有效地指导了随后的工作流程。 为了解决 LLM 的关键限制,例如产生幻觉的代码和过时的 API 知识,我们通过语义和情景内存增强了迭代代码生成过程。 MLZero在MLE-Bench Lite上表现出色,在成功率和解决方案质量上都优于所有竞争对手,获得六枚金牌。 此外,当我们在多模态AutoML代理基准评估时,包括跨越各种数据模式的25个更具挑战性的任务,MLZero以0.92(+263.6%)的成功率大大优于竞争方法,平均排名为2.28。 我们的方法即使采用紧凑的8B LLM,也能保持其稳健的有效性,从现有解决方案中跑赢全尺寸系统。
自动快速生成在使通用多智能体系统能够自主执行各种任务方面起着至关重要的作用。 现有方法通常根据其直接任务性能评估提示,忽略决定其可靠性的内在品质。 这种以结果为中心的观点不仅限制了可解释性,而且没有考虑到大型语言模型(LLM)固有的随机性。 在这项工作中,我们提请注意快速稳定性 - 重复执行模型响应的一致性 - 作为构建强大和有效的快速生成系统的关键因素。 为了量化这一点,我们提出了语义稳定性作为评估提示响应一致性的标准,并微调基于LLaMA的评估器,以自动测量它跨任务。 这些组件使我们能够开发第一个具有稳定性意识的通用快速生成系统,该系统利用稳定性反馈来迭代地提高快速质量和系统级性能。 此外,我们通过分析系统内的结构依赖关系,在快速稳定性和任务成功之间建立逻辑链,证明稳定性是有效系统级执行的必要条件。 一般和特定领域任务的经验结果表明,我们的稳定性感知框架提高了准确性和输出一致性。 通过将重点从一次性结果转移到持续的可靠性,我们的工作为快速设计提供了新的视角,并为构建更值得信赖的通用系统提供了实用工具。
在这封信中,我们提出了一种使用无线传感器网络(WSN)中的分布式高斯过程(DGP)框架的未知环境的在线标量场估计算法。 虽然基于内核的高斯进程(GP)已被广泛用于估计未知的标量字段,但其集中性质并不适合处理来自WSN的大量数据。 为了克服基于内核的GP的局限性,GP研究的最新进展侧重于将内核函数近似为E维非线性基础函数的产品,该函数能够以分布式方式更有效地处理大型WSN。 然而,这种方法需要大量的基础函数来精确近似,从而增加计算和通信的复杂性。 为了解决这些复杂性问题,本文提出了一个分布式GP框架,它集成了一个Kalman过滤器方案(称为K-DGP),该方案与非线性基础函数的数量线性扩展。 此外,我们提出了一种新的共识协议,旨在处理在拟议的K-DGP框架中的独特数据传输要求。 该协议保留了通信消息的非线性函数矩阵中某个列形式的固有元素;它使无线传感器能够合作估计环境,并通过分布式学习达成全球共识,其收敛速度比广泛使用的平均共识协议更快。 模拟结果表明,拟议的K-DGP算法实现了快速的共识收敛和出色的估计精度。 拟议的方法的可扩展性和效率通过使用WSN的在线动态环境估计进一步证明。
交通拥堵仍然是现代城市交通面临的主要挑战,降低了效率和生活质量。 虽然自动驾驶技术和强化学习(RL)已经显示出改善交通控制的前景,但大多数之前的工作都集中在小规模网络或孤立的交叉路口。 大规模的混合交通控制,包括人类驾驶和机器人车辆,仍然未被探索。 在这项研究中,我们提出了一个分散的多代理强化学习框架,用于管理大型混合交通网络,其中交叉路口由传统交通信号或机器人车辆控制。 我们评估我们的方法在美国科罗拉多州科罗拉多斯普林斯的14个十字路口的现实世界网络中,使用平均车辆等待时间作为交通效率的主要衡量标准。 结果表明,战略性地调整主要起源目的地(OD)流动模式可以有效地减少拥堵,为加强城市交通提供一条新途径。
检索增强生成(RAG)系统增强了具有外部知识的大型语言模型(LLM),但在扩展到大型知识图谱时,却难以实现效率精度的权衡。 现有方法通常依赖于单片图形检索,为简单的查询带来不必要的延迟,并为复杂的多跳问题进行分散推理。 为了应对这些挑战,本文提出了SPLIT-RAG,这是一个多代理RAG框架,通过问题驱动的语义图分区和协作子图检索来解决这些限制。 创新框架首先创建链接信息的语义分区,然后使用类型专业化的知识库来实现多代理RAG。 属性感知图分割管理将知识图分为语义连贯的子图,确保子图与不同的查询类型保持一致,而轻量级的LLM代理则分配给分区子图,只有在检索过程中激活相关的分区,从而在提高效率的同时减少搜索空间。 最后,分层合并模块通过逻辑验证解决子图派生答案的不一致。 与现有方法相比,广泛的实验验证显示出相当大的改进。
基于大型语言模型(LLM)的面向任务的对话系统在各个行业都获得了越来越多的关注,并取得了显著成果。 目前的方法将复杂的程序工作流程浓缩成一个单一的代理,以便在大型LLM上实现令人满意的性能。 然而,由于在处理多种复杂逻辑方面的能力有限,这些方法在微调轻量LLM上实现可比性能面临挑战。 在本工作中,我们设计了一个域独立多代理框架(DIMF),其中包含意图分类代理,插槽填充代理和响应代理。 这种方法简化了学习复杂性,并通过将任务分离为独立于域的组件来增强泛化能力。 在这个框架中,我们使用直接偏好优化(DPO)方法增强了上下文理解的能力,并提出了一种简单有效的数据分布适应(DDA)方法,以减轻DPO培训期间的降解问题。 在MultiWOZ数据集上进行的实验表明,我们提出的方法在所有基线中实现了更好的平均性能。 广泛的分析还表明,我们提出的框架具有出色的可推广性和零射能力。
图形检索增强生成(GraphRAG)已被证明在提高大型语言模型(LLM)在需要外部知识的任务上的性能方面非常有效。 通过利用知识图谱(KGs),GraphRAG改善了复杂推理任务的信息检索,提供了更精确和全面的检索,并生成更准确的QA响应。 然而,大多数RAG方法在解决多步骤推理方面做得不够,特别是当信息提取和推理都是必要的。 为了解决这一限制,本文介绍了基于知识图谱的迭代检索增强生成(KG-IRAG),这是一个将KG与迭代推理集成的新框架,以提高LLM处理涉及时间和逻辑依赖的查询的能力。 通过迭代检索步骤,KG-IRAG从外部KG逐步收集相关数据,从而实现逐步推理。 拟议的方法特别适合在动态时间数据提取的同时进行推理的情况,例如根据天气状况或交通模式确定最佳旅行时间。 实验结果表明,KG-IRAG通过将外部知识与迭代、基于逻辑的检索有效地集成,提高了复杂推理任务的准确性。 此外,还形成了三个新的数据集:weatherQA-Irish,weatherQA-Sydney和 trafficQA-TFNSW,以评估KG-IRAG的性能,展示了其超越传统RAG应用的潜力。
深度生成模型的进步使得训练人类水平体现的代理变得越来越合理。 然而,由于缺乏反映自然环境感官运动复杂性的大规模、实时、多模式和社会互动数据集,进展受到限制。 为了解决这个问题,我们介绍了PLAICraft,这是一个新颖的数据收集平台和数据集,通过五种时间对齐模式捕获多人Minecraft交互:视频,游戏输出音频,麦克风输入音频,鼠标和键盘操作。 每种模式都以毫秒级精度记录,从而能够在丰富的开放式世界中研究同步,体现的行为。 该数据集包括来自10,000多名全球参与者的10,000多小时的游戏时间。 [我们已经为公开发布数据集的初始200小时子集进行了隐私审查,并计划随着时间的推移发布大部分数据集。 除了数据集外,我们还提供了一个评估套件,用于在对象识别、空间意识、语言接地和长期记忆方面对模型能力进行基准测试。 PLAICraft为培训和评估实时流畅和有目的地工作的代理开辟了一条道路,为真正体现的人工智能铺平了道路。
本文介绍了一种估计马尔可夫社会困境的自身利益水平的新方法。 我们将自我利益水平的概念从正常形式的游戏扩展到马尔可夫游戏,提供调整个人和集体利益所需的最低奖励交换的定量度量。 我们在Melting Pot套件的三个环境中演示我们的方法,代表普通池资源或公共产品。 我们的研究结果说明了奖励交换如何能够使代理人在马尔可夫社会困境中从自私过渡到集体均衡。 这项工作通过提供分析复杂、多步骤社会困境的实用工具,有助于多智能体强化学习。 我们的发现提供了有关奖励结构如何促进或阻碍合作的见解,以及机制设计等领域的潜在应用。
由高级大型语言模型(LLM)驱动的代理在各种复杂应用程序中展示了令人印象深刻的功能。 最近,多代理系统(MAS)在多个代理之间相互协作和通信,在复杂的任务中表现出增强的功能,例如高质量的代码生成和算术推理。 然而,此类系统的发展往往依赖于手工制作的方法,关于基于LLM的MAS的系统设计和优化的文献仍然有限。 在这项工作中,我们介绍了OMAC,这是一个通用框架,旨在整体优化基于LLM的MAS。 具体来说,我们确定了MAS的五个关键优化维度,包括代理功能和协作结构。 在这些维度的基础上,我们首先提出了一个通用算法,使用两个称为语义初始化器和对比器的因子来优化任何单个维度。 然后,我们介绍了一种跨多个维度进行联合优化的算法。 广泛的实验证明了OMAC在代码生成,算术推理和一般推理任务方面优于最先进的方法。
大型语言模型(LLM)在财务任务中表现出显着的能力,包括财务报告总结,收益电话记录分析和资产分类。 然而,它们管理复杂基金投资的实际效力仍然没有得到足够的评估。 评估LLM驱动的交易策略的现有基准的一个基本限制是它们依赖于历史后置测试,无意中使LLM能够“时间旅行”利用其训练库中嵌入的未来信息,从而导致可能的信息泄漏和过于乐观的性能估计。 为了解决这个问题,我们推出了DeepFund,这是一个实时基金基准工具,旨在在实时市场条件下严格评估LLM。 利用多代理架构,DeepFund直接与每个模型预训练后发布的实时股票市场数据数据直接连接,以确保公平和无泄漏的评估。 对来自全球领先机构的9个旗舰LLM进行经验测试,涉及多个投资维度,包括股票级分析、投资决策、投资组合管理和风险控制,揭示重大实际挑战。 值得注意的是,即使是DeepSeek-V3和Claude-3.7-Sonnet等尖端车型也会在DeepFund的实时评估环境中产生净交易损失,突显了LLM在主动基金管理方面的现有局限性。 我们的代码可在https://github.com/HKUSTDial/DeepFund。
稳态合成旨在为给定的MDP D构建一个策略,使对D顶点的访问的长期平均频率满足给定的数值限制。 这个问题在多项式时间中是可以解决的,无记忆策略足以近似一般(无限内存)策略可以实现的任意频率向量。 我们研究多剂系统的稳态合成问题,其中多个自主代理共同努力实现合适的频率向量。 我们表明,多个代理的问题在计算上很难(PSPACE或NP很难,取决于变体),并且无内存策略配置文件不足以接近可实现的频率向量。 此外,我们证明,即使评估给定的无记忆配置文件实现的频率向量也很难计算。 这揭示了构建高效合成算法的严重障碍,即使对于无记忆的配置文件也是如此。 尽管如此,我们设计了一个高效且可扩展的合成算法,用于全无内存配置文件的子类,并且我们在大量随机生成的实例上评估该算法。 实验结果表明,针对基于策略共享的幼稚算法,这是一个显著的改进。
信用分配是多代理强化学习(MARL)中的一个关键问题,旨在确定代理人对优化合作政策的边际贡献。 当前的信用分配方法通常假设代理之间的同步决策。 然而,许多现实世界的场景要求代理异步地行动,而不等待其他人。 这种协同引入了操作之间的条件依赖关系,这对当前方法提出了巨大的挑战。 为了解决这个问题,我们提出了一个异步信用赋值框架,包括虚拟同步代理(VSP)机制和乘法价值分解(MVD)算法。 VSP 使物理异步操作在信用分配期间几乎同步。 我们理论上证明VSP保留了任务均衡和算法收敛。 此外,MVD利用乘法交互来有效地模拟异步动作之间的依赖关系,为处理异步任务提供了理论优势。 广泛的实验表明,我们的框架在具有挑战性的任务上始终优于最先进的MARL方法,同时为异步合作提供了更好的可解释性。