42digest

具身智能研究快报

最新研究

物联网架构和机器人操作平台的创新研究:大型语言模型和生成式AI的应用

本文介绍了机器人操作平台的创新设计,其基础是变革性物联网(IoT)架构,无缝集成了大型语言模型(LLM)、生成式AI、边缘计算和5G网络等尖端技术。 拟议的平台旨在提高物联网系统和机器人的智能化和自主性,使他们能够做出实时决策,并动态地适应不断变化的环境。 通过一系列引人注目的案例研究,包括智能制造,医疗保健和服务部门,本文展示了物联网机器人在优化运营工作流程,提高生产力和提供创新的可扩展解决方案方面的巨大潜力。 通过强调LLM和生成式AI的作用,该研究强调了这些技术如何推动智能机器人和物联网的发展,塑造行业特定进步的未来。 这些发现不仅展示了这些技术的变革力量,而且还提供了对其更广泛的社会和工业影响的前瞻性观点,将它们定位为下一代自动化和技术融合的催化剂。

网络与互联网架构人工智能新兴技术机器人学
arXiv

适应语言模型的自适应域建模:任务规划的多代理方法

我们引入了TAPAS(使用agentS基于任务的适应和规划),这是一个多代理框架,将大型语言模型(LLM)与符号规划集成在一起,以解决复杂的任务,而无需手动定义环境模型。 TAPAS采用专门的基于LLM的代理,使用结构化工具调用机制,根据需要协同生成和调整域模型,初始状态和目标规范。 通过这种基于工具的交互,下游代理可以请求上游代理的修改,无需手动域重新定义即可适应新的属性和约束。 ReAct(Reason+Act)风格的执行代理,加上自然语言计划翻译,弥合了动态生成计划和现实世界机器人能力之间的差距。 TAPAS在基准规划领域和VirtualHome模拟现实世界环境中表现出色。

人工智能机器人学
arXiv

基于场景的分层强化学习,用于自动驾驶决策

为高度自动化的驾驶系统开发决策算法仍然具有挑战性,因为这些系统必须在开放和复杂的环境中安全运行。 强化学习(RL)方法可以直接从经验中学习全面的决策策略,并在简单的驾驶任务中已经显示出有希望的结果。 然而,目前的方法未能实现更复杂的驾驶任务的可推广性,并且缺乏学习效率。 因此,我们介绍了基于场景的自动驾驶强化学习(SAD-RL),这是第一个在基于场景的环境中整合分层策略的强化学习(RL)的框架。 高级别策略选择由低级控制逻辑评估和执行的机动模板。 基于场景的环境允许控制代理的培训体验,并明确将具有挑战性的但速率的情况引入训练过程。 我们的实验表明,使用SAD-RL框架训练的代理可以在轻松和具有挑战性的情况下有效地实现安全行为。 我们的消融研究证实,HRL和情景多样性对于实现这些结果至关重要。

机器人学人工智能机器学习
arXiv

多步人形操纵的层次视觉语言规划

使人形机器人能够可靠地执行复杂的多步骤操作任务,对于其在工业和家庭环境中的有效部署至关重要。 本文介绍了一个分层规划和控制框架,旨在实现可靠的多步骤人形操作。 拟议的系统包括三层:(1)一个基于RL的低级控制器,负责跟踪全身运动目标;(2)一套通过模仿学习训练的中级技能政策,为任务的不同步骤产生运动目标;(3)一个高级视觉语言规划模块,确定哪些技能应该执行,并使用预训练的视觉语言模型(VLM)实时监控其完成情况。 实验验证是在执行非预处理拾取和位置任务的Unitree G1人形机器人上进行的。 超过40个现实世界的试验,分层系统实现了72.5

机器人学
arXiv

通过兼容和交互式接触式强强操纵在不确定性下强大的Peg-in-Hole Assembly

在严格的公差下,坚固和自适应的机器人钉孔组件对各种工业应用至关重要。 然而,由于接触丰富的相互作用的感知和物理不确定性,它仍然是一个公开的挑战,很容易超过允许的间隙。 在本文中,我们研究了如何利用挂钩与其匹配孔之间的接触来消除非结构化设置下装配过程中的不确定性。 通过检查接触约束下合规性的作用,我们提出了一种操纵系统,该系统计划对钉子进行碰撞包容性相互作用:1)迭代确定其任务环境以定位目标孔,2)利用环境接触约束来改进插入目标孔的插入运动,而不依赖于精确的感知,从而实现对孔内组装的稳健解决方案。 通过将上述过程概念化为不同状态空间中漏斗的构成,我们提出了一种正式的方法来构建操纵漏斗,作为钉孔组装的吸收不确定性的范式。 拟议的系统有效地以无学习的方式在不同尺度,形状和材料的不同钉孔场景中推广。 NIST装配任务委员会(ATB)上的大量实验和其他具有挑战性的场景验证了其在实际应用中的稳健性。

机器人学
arXiv

通过标准化学习高效的机器人服装操纵

服装操纵对机器人来说是一个重大挑战,因为服装的复杂动态和潜在的自我遮挡。 大多数现有的高效服装方法都忽略了扁平化服装标准化的关键作用,这可以大大简化折叠,熨烫和包装等下游任务。 本文介绍了APS-Net,这是一种新颖的服装操纵方法,将展开和标准化结合在统一框架中。 APS-Net采用双臂,多原始策略,动态燕动,以快速展开皱巴巴的服装和选择和位置(p和p)精确对齐。 服装在展开过程中标准化的目的不仅涉及最大化表面覆盖,而且还将服装的形状和方向与预先定义的要求保持一致。 为了指导有效的机器人学习,我们引入了一种新的标准化因子化奖励功能,该功能包括服装覆盖(Cov),关键点距离(KD)和交叉结合(IoU)指标。 此外,我们还引入了空间动作掩码和动作优化模块,通过有效选择动作和操作点来提高展开效率。 在模拟中,APS-Net优于长袖的最先进的方法,实现了3.9%的覆盖率,IoU高出5.2%,KD减少了0.14(相对减少7.09%)。 现实世界的折叠任务进一步证明标准化简化了折叠过程。 项目页面:见https://hellohaia.github.io/APS/

机器人学
arXiv

SPICE-HL3:用于探索高纬度月球景观的单光子,惯性和立体相机数据集

探索高纬度月球区域为机器人提供了一个极具挑战性的视觉环境。 低太阳光仰角和最小的光散射导致由高动态范围主导的视觉场,具有长,动态阴影。 在地球上复制这些条件需要复杂的模拟器和专门的设施。 我们介绍了从SnT - Luxembourg大学在LunaLab上记录的独特数据集,这是一个旨在复制多个月球纬度的光学特性的室内测试设施。 我们的数据集包括图像,惯性测量和机器人在多个照明场景中导航七个不同轨迹的车轮测声数据,模拟从黎明到夜间的高纬度月球条件,在没有前灯的帮助下,导致88个不同的序列包含总计130万张图像。 数据使用立体声RGB惯性传感器,单眼单色相机捕获,并首次使用新型单光子雪崩二极管(SPAD)相机。 我们记录了静态和动态图像序列,机器人以缓慢(5厘米/秒)的速度导航和快速(50厘米/秒)。 所有数据都经过校准,同步和时间戳,为验证感知任务提供了宝贵的资源,从基于视觉的自主导航到面向高纬度区域的未来月球任务的科学成像,或者用于在感知退化环境中运行的机器人。 数据集可从https://zenodo.org/records/13970078?preview=1下载,可查阅https://youtu.be/d7sPeO50_2I的可视化概述。 所有补充材料可查阅https://github.com/spaceuma/spice-hl3。

机器人学
arXiv

使用Kirigami增强热塑性塑料的定向形状形态

我们提出了一个简单,可访问的方法,仅使用均匀的加热和常见的工具(如家用烤箱和剪刀)将平板塑料板自动转换为复杂的三维结构。 我们的方法将热缩热塑性塑料与针对目标3D形状量身定制的Kirigami图案相结合,创建了双层复合材料,这些复合材料可以变形成各种复杂结构,例如,碗,金字塔,甚至定制人体工学表面,如鼠标盖。 至关重要的是,这种转变是由低信息刺激(均匀热)驱动的,但通过编程的几何设计产生高度复杂的形状。 通过有限元模拟证实的变形行为,源于收缩热塑性塑料层和约束基里加米层之间的应变不匹配。 通过将材料组成与机械响应脱钩,该方法避免了详细的过程控制,并实现了广泛的自我形态结构,为自适应设计和可扩展的制造提供了一个多功能平台。

机器人学
arXiv

ReactEMG:通过sEMG进行零射击、低延迟意图检测

表面肌电图(sEMG)信号显示出有效的人机界面,特别是在康复和假肢方面。 然而,在开发能够快速可靠地响应用户意图的系统时,挑战仍然存在,涉及不同的主题,并且不需要耗时的校准。 在这项工作中,我们提出了一个基于EMG的意图检测框架,以应对这些挑战。 与传统的手势识别模型不同,这些模型要等到手势完成才对其进行分类,我们的方法使用分割策略,随着手势的展开,在每个时间段分配意图标签。 我们引入了一种新的蒙面建模策略,使肌肉激活与其相应的用户意图保持一致,从而实现快速发作检测和持续手势的稳定跟踪。 在针对基线方法的评估中,考虑到设备控制的准确性和稳定性,我们的方法在零射距传输条件下超越了最先进的性能,证明了其在可穿戴机器人和下一代假肢系统方面的潜力。 我们的项目页面可查阅:https://reactemg.github.io

机器人学
arXiv

STCLocker:自动驾驶系统的防死测试

自动驾驶系统(ADS)测试对于在部署前确保自动驾驶汽车(AV)的安全性和可靠性至关重要。 然而,现有技术主要侧重于评估单AV设置中的ADS功能。 随着ADS越来越多地部署在多AV流量中,评估其合作性能变得至关重要,特别是在死锁方面,这是一种基本的协调失败,其中多个AV无限期地进入循环等待状态,导致运动规划失败。 尽管这样做很重要,但ADS在防止僵局方面的合作能力仍然不够充分。 为了解决这一差距,我们提出了第一个专门的空间-时间冲突引导的躲区避险测试技术STCLocker,用于生成DeadLock情景(DLS),其中一组由ADS控制的AV处于循环等待状态。 STCLocker由三个关键组件组成:Deadlock Oracle、冲突反馈和冲突感知场景生成。 Deadlock Oracle 提供了一个可靠的黑箱机制,用于在特定场景中检测多个 AV 之间的死锁周期。 冲突反馈和具有冲突意识的情景生成合作,积极引导AV参与空间冲突资源(即共享通过区域)和时间竞争行为(即同时到达冲突地区)的同步竞争,从而提高产生冲突易发性僵局的有效性。 我们评估STCLocker对两种类型的ADS:Roach,端到端ADS和OpenCDA,一种基于模块的ADS支持合作通信。 实验结果表明,平均而言,STCLocker产生的DLS比最佳性能的基线更多。

软件工程人工智能机器人学
arXiv

使用基于采样的算法进行穿越最佳路径规划

本文介绍了最优路径规划的新范式,即通道穿越最优路径规划(PTOPP),该范式优化路径遍历特定优化目标。 特别是,POTOPP用于在其整个长度上找到具有最佳无障碍自由空间的路径,这代表了机器人路径的基本要求。 由于通道是自由空间缩小和受到限制的地方,其核心思想是利用路径的通道遍历状态来全面表征其可访问的自由空间。 为此,提出了使用接近图的新型通道检测和自由空间分解方法,能够快速检测稀疏但信息丰富的通道和环境分解。 基于这种预处理,制定具有无障碍自由空间目标或约束的最佳路径规划,作为与基于采样的最佳规划器兼容的POTOPP问题。 然后,开发基于采样的 POTOPP 算法,包括其依赖的原始程序,利用分区环境进行快速通道遍历检查。 所有这些方法都得到实施并经过彻底测试,以进行有效性和效率验证。 与现有的方法(例如基于间隙的方法)相比,PTOPP在可配置性,解决方案最优性和效率方面表现出显着优势,解决了先前的局限性和无能。 据信,它为比传统途径和更广泛的路径规划问题提供了可访问的自由空间优化的高效和通用的解决方案,可以制定为POTOPP。

机器人学计算几何学
arXiv

移动问题:使用单个简单的机器人来重新配置一组连接的积木

我们实施和评估不同的方法,将连接的瓷砖排列重新配置为所需的目标形状,使用可以沿着瓷砖结构移动的单个活动机器人。 这个机器人一次可以拾取、携带或掉落一个瓷砖,但必须时刻保持单个连接的配置。 贝克尔等人 (CCCG 2025)最近提出了一种算法,该算法使用直方图作为规范的中间配置,如果启动和目标配置很好地分离,则保证在最佳解决方案的恒定因子内的性能。 我们在模拟和实用的设置中实现和评估该算法,使用inchworm类型的机器人将其与现有的两种路人算法进行比较。

机器人学计算几何学数据结构与算法
arXiv

World4Omni:从图像生成世界模型到机器人操纵的零射击框架

提高机器人操作中的数据效率和概括仍然是一个核心挑战。 我们提出了一种新的框架,利用预先训练的多模态图像生成模型作为指导策略学习的世界模型。 通过利用其丰富的视觉语义表示和跨不同场景的强大概括,该模型产生了开放式的未来状态预测,为下游操纵提供信息。 再加上零射低水平控制模块,我们的方法使通用机器人操作无需任务特定的训练。 模拟和现实世界环境中的实验表明,我们的方法可以在各种操作任务中实现有效性能,无需额外的数据收集或微调。 补充材料可在我们的网站查阅:https://world4omni.github.io/。

机器人学
arXiv

RoboScape: 物理知情的胚胎世界模型

世界模型已成为体现智能不可或缺的工具,作为强大的模拟器,能够生成逼真的机器人视频,同时解决关键的数据稀缺挑战。 然而,目前体现的世界模型表现出有限的物理意识,特别是在3D几何形状和运动动力学建模方面,从而为接触丰富的机器人场景带来了不切实际的视频生成。 在本文中,我们介绍了RoboScape,一个统一的物理信息世界模型,在集成框架内共同学习RGB视频生成和物理知识。 我们介绍了两个关键的物理信息联合训练任务:时间深度预测,增强视频渲染中的3D几何一致性,以及关键点动力学学习,隐式编码物理属性(例如,物体形状和材料特征),同时改善复杂的运动建模。 广泛的实验表明,RoboScape可以在不同的机器人场景中生成具有优越的视觉保真度和物理合理性的视频。 我们通过下游应用进一步验证其实用性,包括机器人策略培训以及生成的数据和政策评估。 我们的工作为构建高效的物理信息世界模型提供了新的见解,以推进体现的情报研究。 代码可查阅:https://github.com/tsinghua-fib-lab/RoboScape。

计算机视觉与模式识别机器人学
arXiv

数据驱动的预测规划和控制空中3D检查与背面消除

使用无人机系统(UAS)进行自动检查是一种变革性能力,可以彻底改变各种应用领域。 然而,这项任务本质上是复杂的,因为它需要将感知,规划和控制无缝集成,现有方法通常单独处理。 此外,它需要精确的长视数规划来预测动作序列,与许多当前的技术相反,这些技术往往是近视的。 为了克服这些限制,我们提出了一种3D检查方法,将感知、规划和控制统一在一个单一的数据驱动的预测控制框架内。 与依赖已知UAS动态模型的传统方法不同,我们的方法只需要输入输出数据,使其易于应用于现成的黑箱UAS。 我们的方法包括背脸消除,从3D计算机图形的可视性测定技术,直接进入控制循环,从而实现在线生成准确,长视子3D检测轨迹。

机器人学系统与控制
arXiv

CBAGAN-RRT:用于采样路径规划的卷积块注意力生成对抗网络

基于采样的路径规划算法在自主机器人中发挥着重要作用。 然而,基于RRT的算法中的一个常见问题是,生成的初始路径不是最优的,并且对于现实世界的应用程序来说,收敛速度太慢。 在本文中,我们提出了一种新的基于图像的学习算法,使用卷积块注意力生成对抗网络(CBAGAN-RRT),具有空间和通道注意力的组合以及新颖的损耗函数,以设计方法,找到更好的最佳路径,并改善算法的收敛,无论是关于时间和速度。 从我们的 GAN 模型生成的路径的概率分布用于指导 RRT 算法的采样过程。 我们证明我们的算法优于以前的最先进的算法,使用图像质量生成指标,如IOU分数,骰子得分,FID分数和路径规划指标,如时间成本和节点数量。 Ablation研究显示了我们网络架构中各种组件的有效性。 我们的方法的优点是,我们可以避免状态空间中复杂的预处理,我们的模型可以概括为复杂的环境,如那些包含转弯和狭窄通道而不会失去准确性,我们的模型可以很容易地与其他基于采样的路径规划算法集成。

机器人学计算机视觉与模式识别机器学习
arXiv

自我远见:自我监督的代理感知表征学习,以改进RL

尽管在过去十年中观察到深度强化学习(RL)的重大进步,但学习有效政策所需的培训经验仍然是模拟和真实环境中的主要关注点之一。 为了解决这个问题,之前的工作表明,通过单独的建模代理和环境可以实现提高的培训效率,但通常需要监督代理掩码。 与RL相反,人类可以从少量试验中完善一项新技能,并且在大多数情况下没有监督信号,这使得人类发展的神经科学研究成为RL的宝贵灵感来源。 特别是,我们探讨了运动预测的想法,它指出人类开发自己的内部模型,以及他们的运动命令对直接感官输入的影响。 我们的见解是,代理的运动提供了一个线索,允许在代理和环境之间学习二元性。 为了实例化这个想法,我们提出了Ego-Foresight,一种基于运动和预测的分离代理和环境的自我监督方法。 我们的主要发现是通过对代理的视觉预测进行自我监督的代理意识,提高了底层RL算法的样本效率和性能。 为了测试我们的方法,我们首先研究它在模拟和现实世界的机器人数据中,无论环境如何,都能直观地预测代理运动的能力。 然后,我们将Ego-Foresight与无模型RL算法集成在一起,以解决模拟机器人任务,表明自我监督的代理意识可以提高RL中的样本效率和性能。

机器人学人工智能
arXiv

基准通用双手动操纵:RoboTwin双臂协作挑战在CVPR 2025 MEIS研讨会上

Embodied Artificial Intelligence(Embodied AI)是机器人技术的一个新兴前沿,其动力是需要能够在复杂的物理环境中感知、推理和行动的自主系统。 虽然单臂系统已经显示出强大的任务性能,但协作双臂系统对于处理涉及刚性、可变形和触觉敏感对象的更复杂的任务至关重要。 为了推进这一目标,我们在第二届MEIS研讨会(CVPR 2025)上发起了RoboTwin双臂协作挑战赛。 比赛建立在RoboTwin Simulation平台(1.0和2.0)和AgileX COBOT-Magic Robot平台上,包括三个阶段:模拟回合1,模拟回合2和最后一轮真实世界。 参与者完全解决了17个双臂操纵任务,涵盖了刚性,可变形和基于触觉的场景。 这项挑战吸引了64个全球团队和400多名参与者,他们制作了SEM和AnchorDP3等表现最好的解决方案,并产生了对通用双人行政策学习的宝贵见解。 本报告概述了竞争设置,任务设计,评估方法,关键发现和未来方向,旨在支持未来关于稳健和可推广的双手动操纵政策的研究。 挑战网页可在https://robotwin-benchmark.github.io/cvpr-2025-challenge/查阅。

机器人学人工智能机器学习多智能体系统
arXiv

基于事件的立体视觉惯性Odometry与Voxel地图

该活动相机以其高动态范围和卓越的时间分辨率而闻名,被公认为视觉测光的重要传感器。 然而,事件流中的固有噪声使高质量地图点的选择变得复杂,这严重决定了状态估计的精度。 为了应对这一挑战,我们提出了Voxel-ESVIO,这是一种基于事件的立体视觉惯性测光系统,利用voxel地图管理,可以有效地过滤出高质量的3D点。 具体来说,我们的方法利用基于体素的点选择和体素感知点管理,以每个素轴的基础上共同优化地图点的选择和更新。 这些协同策略能够有效地检索当前帧中具有最高观测可能性的噪声弹性地图点,从而确保状态估计的准确性。 对三个公共基准的广泛评估表明,我们的Voxel-ESVIO在准确性和计算效率方面优于最先进的方法。

机器人学
arXiv

来自Sensorimotor动态功能连接的无监督行为原始物发现

动物和机器人的运动产生了高维运动和感官信息。 想象一下新生儿的大脑或婴儿人形机器人的控制器试图理解未处理的感觉运动时间序列。 在这里,我们提出了一个框架,用于研究机器人代理的多模态感觉信号之间的动态功能连接,以揭示底层结构。 使用瞬时相互信息,我们捕获本体感受器,触觉和视觉信号之间的时间变化功能连接(FC),揭示了感觉运动关系。 使用无限关系模型,我们确定了感觉运动模块及其不断发展的连接性。 为了进一步解释这些动态相互作用,我们采用了非负矩阵因子化,将连接模式分解为附加因子及其相应的时间系数。 这些因素可以被认为是代理的运动原语或运动协同效应,代理可以用来理解其感觉运动空间,然后用于行为选择。 在未来,该方法可以部署在机器人学习以及分析人类运动轨迹或大脑信号。

机器人学信号处理
arXiv