可靠的人手检测与分割对于提升人机协作的安全性和促进高级交互至关重要。当前研究主要在内分布(ID)数据下评估人手分割性能,这些数据反映了深度学习(DL)模型的训练数据。然而,这种方法未能解决现实世界人机交互中经常出现的外分布(OOD)场景。在本研究中,我们提出了一种新颖方法,通过在ID数据和更具挑战性的OOD场景下评估预训练DL模型的性能。为了模拟真实的工业场景,我们设计了一个多样化数据集,包含简单和杂乱背景(带有工业工具)、不同数量的人手(0到4只)、以及戴手套和不戴手套的手部。对于OOD场景,我们引入了独特且罕见的情况,如手指交叉手势和快速移动手部导致的运动模糊,以解决认知和随机不确定性。为确保多视角,我们同时使用了安装在操作员头部的第一视角摄像头和静态摄像头来捕捉人机交互的RGB图像。这种方法使我们能够考虑多摄像头视角,同时评估基于现有第一视角数据集和静态摄像头数据集训练的模型性能。对于分割任务,我们使用了一个由UNet和RefineNet作为基础学习器组成的深度集成模型。性能评估采用分割指标和通过预测熵进行的不确定性量化。结果显示,在工业数据集上训练的模型表现优于非工业数据集训练的模型,突出了特定上下文训练的重要性。尽管所有模型在OOD场景下都表现不佳,但在工业数据集上训练的模型展现出明显更好的泛化能力。
多智能体协同感知通过共享传感信息来协作完成机器人感知任务,从而增强每个智能体的感知能力。该方法已被证明能有效解决传感器缺陷、遮挡和远距离感知等挑战。然而,现有代表性协同感知系统传输的是中间特征图(如BEV representations),其中包含大量非关键信息,导致通信带宽需求较高。为在保持感知能力的同时提升通信效率,我们提出了CoCMT——一个基于对象查询的协作框架,通过选择性提取和传输关键特征来优化通信带宽。在CoCMT中,我们引入了高效查询Transformer(EQFormer)来有效融合多智能体对象查询,并实施协同深度监督以增强阶段间的正向强化,从而提升整体性能。在OPV2V和V2V4Real数据集上的实验表明,CoCMT在显著降低通信需求的同时性能优于现有最佳方法。在V2V4Real上,我们的模型(Top-50对象查询)仅需0.416 Mb带宽,比现有最佳方法减少83倍,同时将AP70指标提升1.1%。这一效率突破使得协同感知能在不牺牲检测精度的前提下,部署于带宽受限的实际环境中。
本文介绍了机器人操作平台的创新设计,其基础是变革性物联网(IoT)架构,无缝集成了大型语言模型(LLM)、生成式AI、边缘计算和5G网络等尖端技术。 拟议的平台旨在提高物联网系统和机器人的智能化和自主性,使他们能够做出实时决策,并动态地适应不断变化的环境。 通过一系列引人注目的案例研究,包括智能制造,医疗保健和服务部门,本文展示了物联网机器人在优化运营工作流程,提高生产力和提供创新的可扩展解决方案方面的巨大潜力。 通过强调LLM和生成式AI的作用,该研究强调了这些技术如何推动智能机器人和物联网的发展,塑造行业特定进步的未来。 这些发现不仅展示了这些技术的变革力量,而且还提供了对其更广泛的社会和工业影响的前瞻性观点,将它们定位为下一代自动化和技术融合的催化剂。
多模态大语言模型(MLLM)的快速进步为视觉-语言-行动(VLA)范式铺平了道路,该范式将视觉感知、自然语言理解和控制整合到单一策略中。 自动驾驶的研究人员正在积极适应车辆领域。 此类车型承诺自动驾驶汽车可以解释高级指令,对复杂的交通场景进行推理,并做出自己的决定。 然而,文献仍然支离破碎,并正在迅速扩大。 本调查首次全面概述了VLA for Autonomous Driving(VLA4AD)。 我们(i)将最近工作中共享的建筑积木正式化,(ii)追溯从早期解释器到以推理为中心的VLA模型的演变,以及(iii)根据VLA在自动驾驶领域的进展比较超过20个代表性模型。 我们还整合了现有的数据集和基准,突出了共同衡量驾驶安全性、准确性和解释质量的协议。 最后,我们详细介绍了开放挑战 - 稳健性,实时效率和正式验证 - 并概述了VLA4AD的未来方向。 这项调查为推进可解释的社交对齐自动驾驶汽车提供了简洁而完整的参考。 Github repo 可在 href{https://github.com/JohnsonJiang1996/Awesome-VLA4AD}{SicongJiang/Awesome-VLA4AD}。
Embodied Artificial Intelligence(Embodied AI)是机器人技术的一个新兴前沿,其动力是需要能够在复杂的物理环境中感知、推理和行动的自主系统。 虽然单臂系统已经显示出强大的任务性能,但协作双臂系统对于处理涉及刚性、可变形和触觉敏感对象的更复杂的任务至关重要。 为了推进这一目标,我们在第二届MEIS研讨会(CVPR 2025)上发起了RoboTwin双臂协作挑战赛。 比赛建立在RoboTwin Simulation平台(1.0和2.0)和AgileX COBOT-Magic Robot平台上,包括三个阶段:模拟回合1,模拟回合2和最后一轮真实世界。 参与者完全解决了17个双臂操纵任务,涵盖了刚性,可变形和基于触觉的场景。 这项挑战吸引了64个全球团队和400多名参与者,他们制作了SEM和AnchorDP3等表现最好的解决方案,并产生了对通用双人行政策学习的宝贵见解。 本报告概述了竞争设置,任务设计,评估方法,关键发现和未来方向,旨在支持未来关于稳健和可推广的双手动操纵政策的研究。 挑战网页可在https://robotwin-benchmark.github.io/cvpr-2025-challenge/查阅。
我们引入了TAPAS(使用agentS基于任务的适应和规划),这是一个多代理框架,将大型语言模型(LLM)与符号规划集成在一起,以解决复杂的任务,而无需手动定义环境模型。 TAPAS采用专门的基于LLM的代理,使用结构化工具调用机制,根据需要协同生成和调整域模型,初始状态和目标规范。 通过这种基于工具的交互,下游代理可以请求上游代理的修改,无需手动域重新定义即可适应新的属性和约束。 ReAct(Reason+Act)风格的执行代理,加上自然语言计划翻译,弥合了动态生成计划和现实世界机器人能力之间的差距。 TAPAS在基准规划领域和VirtualHome模拟现实世界环境中表现出色。
为高度自动化的驾驶系统开发决策算法仍然具有挑战性,因为这些系统必须在开放和复杂的环境中安全运行。 强化学习(RL)方法可以直接从经验中学习全面的决策策略,并在简单的驾驶任务中已经显示出有希望的结果。 然而,目前的方法未能实现更复杂的驾驶任务的可推广性,并且缺乏学习效率。 因此,我们介绍了基于场景的自动驾驶强化学习(SAD-RL),这是第一个在基于场景的环境中整合分层策略的强化学习(RL)的框架。 高级别策略选择由低级控制逻辑评估和执行的机动模板。 基于场景的环境允许控制代理的培训体验,并明确将具有挑战性的但速率的情况引入训练过程。 我们的实验表明,使用SAD-RL框架训练的代理可以在轻松和具有挑战性的情况下有效地实现安全行为。 我们的消融研究证实,HRL和情景多样性对于实现这些结果至关重要。
本文介绍了最优路径规划的新范式,即通道穿越最优路径规划(PTOPP),该范式优化路径遍历特定优化目标。 特别是,POTOPP用于在其整个长度上找到具有最佳无障碍自由空间的路径,这代表了机器人路径的基本要求。 由于通道是自由空间缩小和受到限制的地方,其核心思想是利用路径的通道遍历状态来全面表征其可访问的自由空间。 为此,提出了使用接近图的新型通道检测和自由空间分解方法,能够快速检测稀疏但信息丰富的通道和环境分解。 基于这种预处理,制定具有无障碍自由空间目标或约束的最佳路径规划,作为与基于采样的最佳规划器兼容的POTOPP问题。 然后,开发基于采样的 POTOPP 算法,包括其依赖的原始程序,利用分区环境进行快速通道遍历检查。 所有这些方法都得到实施并经过彻底测试,以进行有效性和效率验证。 与现有的方法(例如基于间隙的方法)相比,PTOPP在可配置性,解决方案最优性和效率方面表现出显着优势,解决了先前的局限性和无能。 据信,它为比传统途径和更广泛的路径规划问题提供了可访问的自由空间优化的高效和通用的解决方案,可以制定为POTOPP。
我们实施和评估不同的方法,将连接的瓷砖排列重新配置为所需的目标形状,使用可以沿着瓷砖结构移动的单个活动机器人。 这个机器人一次可以拾取、携带或掉落一个瓷砖,但必须时刻保持单个连接的配置。 贝克尔等人 (CCCG 2025)最近提出了一种算法,该算法使用直方图作为规范的中间配置,如果启动和目标配置很好地分离,则保证在最佳解决方案的恒定因子内的性能。 我们在模拟和实用的设置中实现和评估该算法,使用inchworm类型的机器人将其与现有的两种路人算法进行比较。
自动驾驶系统(ADS)测试对于在部署前确保自动驾驶汽车(AV)的安全性和可靠性至关重要。 然而,现有技术主要侧重于评估单AV设置中的ADS功能。 随着ADS越来越多地部署在多AV流量中,评估其合作性能变得至关重要,特别是在死锁方面,这是一种基本的协调失败,其中多个AV无限期地进入循环等待状态,导致运动规划失败。 尽管这样做很重要,但ADS在防止僵局方面的合作能力仍然不够充分。 为了解决这一差距,我们提出了第一个专门的空间-时间冲突引导的躲区避险测试技术STCLocker,用于生成DeadLock情景(DLS),其中一组由ADS控制的AV处于循环等待状态。 STCLocker由三个关键组件组成:Deadlock Oracle、冲突反馈和冲突感知场景生成。 Deadlock Oracle 提供了一个可靠的黑箱机制,用于在特定场景中检测多个 AV 之间的死锁周期。 冲突反馈和具有冲突意识的情景生成合作,积极引导AV参与空间冲突资源(即共享通过区域)和时间竞争行为(即同时到达冲突地区)的同步竞争,从而提高产生冲突易发性僵局的有效性。 我们评估STCLocker对两种类型的ADS:Roach,端到端ADS和OpenCDA,一种基于模块的ADS支持合作通信。 实验结果表明,平均而言,STCLocker产生的DLS比最佳性能的基线更多。
世界模型已成为体现智能不可或缺的工具,作为强大的模拟器,能够生成逼真的机器人视频,同时解决关键的数据稀缺挑战。 然而,目前体现的世界模型表现出有限的物理意识,特别是在3D几何形状和运动动力学建模方面,从而为接触丰富的机器人场景带来了不切实际的视频生成。 在本文中,我们介绍了RoboScape,一个统一的物理信息世界模型,在集成框架内共同学习RGB视频生成和物理知识。 我们介绍了两个关键的物理信息联合训练任务:时间深度预测,增强视频渲染中的3D几何一致性,以及关键点动力学学习,隐式编码物理属性(例如,物体形状和材料特征),同时改善复杂的运动建模。 广泛的实验表明,RoboScape可以在不同的机器人场景中生成具有优越的视觉保真度和物理合理性的视频。 我们通过下游应用进一步验证其实用性,包括机器人策略培训以及生成的数据和政策评估。 我们的工作为构建高效的物理信息世界模型提供了新的见解,以推进体现的情报研究。 代码可查阅:https://github.com/tsinghua-fib-lab/RoboScape。
使用无人机系统(UAS)进行自动检查是一种变革性能力,可以彻底改变各种应用领域。 然而,这项任务本质上是复杂的,因为它需要将感知,规划和控制无缝集成,现有方法通常单独处理。 此外,它需要精确的长视数规划来预测动作序列,与许多当前的技术相反,这些技术往往是近视的。 为了克服这些限制,我们提出了一种3D检查方法,将感知、规划和控制统一在一个单一的数据驱动的预测控制框架内。 与依赖已知UAS动态模型的传统方法不同,我们的方法只需要输入输出数据,使其易于应用于现成的黑箱UAS。 我们的方法包括背脸消除,从3D计算机图形的可视性测定技术,直接进入控制循环,从而实现在线生成准确,长视子3D检测轨迹。
使人形机器人能够可靠地执行复杂的多步骤操作任务,对于其在工业和家庭环境中的有效部署至关重要。 本文介绍了一个分层规划和控制框架,旨在实现可靠的多步骤人形操作。 拟议的系统包括三层:(1)一个基于RL的低级控制器,负责跟踪全身运动目标;(2)一套通过模仿学习训练的中级技能政策,为任务的不同步骤产生运动目标;(3)一个高级视觉语言规划模块,确定哪些技能应该执行,并使用预训练的视觉语言模型(VLM)实时监控其完成情况。 实验验证是在执行非预处理拾取和位置任务的Unitree G1人形机器人上进行的。 超过40个现实世界的试验,分层系统实现了72.5
在严格的公差下,坚固和自适应的机器人钉孔组件对各种工业应用至关重要。 然而,由于接触丰富的相互作用的感知和物理不确定性,它仍然是一个公开的挑战,很容易超过允许的间隙。 在本文中,我们研究了如何利用挂钩与其匹配孔之间的接触来消除非结构化设置下装配过程中的不确定性。 通过检查接触约束下合规性的作用,我们提出了一种操纵系统,该系统计划对钉子进行碰撞包容性相互作用:1)迭代确定其任务环境以定位目标孔,2)利用环境接触约束来改进插入目标孔的插入运动,而不依赖于精确的感知,从而实现对孔内组装的稳健解决方案。 通过将上述过程概念化为不同状态空间中漏斗的构成,我们提出了一种正式的方法来构建操纵漏斗,作为钉孔组装的吸收不确定性的范式。 拟议的系统有效地以无学习的方式在不同尺度,形状和材料的不同钉孔场景中推广。 NIST装配任务委员会(ATB)上的大量实验和其他具有挑战性的场景验证了其在实际应用中的稳健性。
服装操纵对机器人来说是一个重大挑战,因为服装的复杂动态和潜在的自我遮挡。 大多数现有的高效服装方法都忽略了扁平化服装标准化的关键作用,这可以大大简化折叠,熨烫和包装等下游任务。 本文介绍了APS-Net,这是一种新颖的服装操纵方法,将展开和标准化结合在统一框架中。 APS-Net采用双臂,多原始策略,动态燕动,以快速展开皱巴巴的服装和选择和位置(p和p)精确对齐。 服装在展开过程中标准化的目的不仅涉及最大化表面覆盖,而且还将服装的形状和方向与预先定义的要求保持一致。 为了指导有效的机器人学习,我们引入了一种新的标准化因子化奖励功能,该功能包括服装覆盖(Cov),关键点距离(KD)和交叉结合(IoU)指标。 此外,我们还引入了空间动作掩码和动作优化模块,通过有效选择动作和操作点来提高展开效率。 在模拟中,APS-Net优于长袖的最先进的方法,实现了3.9%的覆盖率,IoU高出5.2%,KD减少了0.14(相对减少7.09%)。 现实世界的折叠任务进一步证明标准化简化了折叠过程。 项目页面:见https://hellohaia.github.io/APS/
探索高纬度月球区域为机器人提供了一个极具挑战性的视觉环境。 低太阳光仰角和最小的光散射导致由高动态范围主导的视觉场,具有长,动态阴影。 在地球上复制这些条件需要复杂的模拟器和专门的设施。 我们介绍了从SnT - Luxembourg大学在LunaLab上记录的独特数据集,这是一个旨在复制多个月球纬度的光学特性的室内测试设施。 我们的数据集包括图像,惯性测量和机器人在多个照明场景中导航七个不同轨迹的车轮测声数据,模拟从黎明到夜间的高纬度月球条件,在没有前灯的帮助下,导致88个不同的序列包含总计130万张图像。 数据使用立体声RGB惯性传感器,单眼单色相机捕获,并首次使用新型单光子雪崩二极管(SPAD)相机。 我们记录了静态和动态图像序列,机器人以缓慢(5厘米/秒)的速度导航和快速(50厘米/秒)。 所有数据都经过校准,同步和时间戳,为验证感知任务提供了宝贵的资源,从基于视觉的自主导航到面向高纬度区域的未来月球任务的科学成像,或者用于在感知退化环境中运行的机器人。 数据集可从https://zenodo.org/records/13970078?preview=1下载,可查阅https://youtu.be/d7sPeO50_2I的可视化概述。 所有补充材料可查阅https://github.com/spaceuma/spice-hl3。
提高机器人操作中的数据效率和概括仍然是一个核心挑战。 我们提出了一种新的框架,利用预先训练的多模态图像生成模型作为指导策略学习的世界模型。 通过利用其丰富的视觉语义表示和跨不同场景的强大概括,该模型产生了开放式的未来状态预测,为下游操纵提供信息。 再加上零射低水平控制模块,我们的方法使通用机器人操作无需任务特定的训练。 模拟和现实世界环境中的实验表明,我们的方法可以在各种操作任务中实现有效性能,无需额外的数据收集或微调。 补充材料可在我们的网站查阅:https://world4omni.github.io/。
我们提出了一个简单,可访问的方法,仅使用均匀的加热和常见的工具(如家用烤箱和剪刀)将平板塑料板自动转换为复杂的三维结构。 我们的方法将热缩热塑性塑料与针对目标3D形状量身定制的Kirigami图案相结合,创建了双层复合材料,这些复合材料可以变形成各种复杂结构,例如,碗,金字塔,甚至定制人体工学表面,如鼠标盖。 至关重要的是,这种转变是由低信息刺激(均匀热)驱动的,但通过编程的几何设计产生高度复杂的形状。 通过有限元模拟证实的变形行为,源于收缩热塑性塑料层和约束基里加米层之间的应变不匹配。 通过将材料组成与机械响应脱钩,该方法避免了详细的过程控制,并实现了广泛的自我形态结构,为自适应设计和可扩展的制造提供了一个多功能平台。
该活动相机以其高动态范围和卓越的时间分辨率而闻名,被公认为视觉测光的重要传感器。 然而,事件流中的固有噪声使高质量地图点的选择变得复杂,这严重决定了状态估计的精度。 为了应对这一挑战,我们提出了Voxel-ESVIO,这是一种基于事件的立体视觉惯性测光系统,利用voxel地图管理,可以有效地过滤出高质量的3D点。 具体来说,我们的方法利用基于体素的点选择和体素感知点管理,以每个素轴的基础上共同优化地图点的选择和更新。 这些协同策略能够有效地检索当前帧中具有最高观测可能性的噪声弹性地图点,从而确保状态估计的准确性。 对三个公共基准的广泛评估表明,我们的Voxel-ESVIO在准确性和计算效率方面优于最先进的方法。
软机器人系统以其灵活性和适应性而闻名,但传统的基于物理的模型难以捕捉其复杂的非线性行为。 这项研究探讨了一种数据驱动的方法来建模液压软致动器中的体积-流-压力关系,重点是高精度的低复杂度模型。 我们在堆叠的气球执行器系统上执行回归分析,使用指数,多项式和神经网络模型,有或没有自动回归输入。 结果表明,更简单的模型,特别是多变量多项式,以更少的参数有效地预测压力动力学。 这项研究为实时软机器人应用、平衡模型复杂性和计算效率提供了实用的解决方案。 此外,该方法可能有利于需要明确分析模型的各种技术。