具身智能研究快报
用 AI 跟踪日新月异的具身智能领域进展

在可扩展世界模型中训练智能体
世界模型从视频中学习通用知识,并在想象中模拟经验来训练行为,为智能体提供了一条通向智能的路径。然而,先前世界模型无法准确预测复杂环境中的物体交互。我们介绍了Dreamer 4,这是一个可扩展的智能体,通过在快速准确的世界模型内部进行强化学习来学习解决控制任务。在复杂的视频游戏Minecraft中,该世界模型准确预测了物体交互和游戏机制,大幅超越了先前世界模型。通过捷径强制目标和高效的transformer架构,世界模型在单个GPU上实现了实时交互推理。此外,世界模型仅从少量数据中学习通用的动作条件化,使其能够从多样化的未标记视频中提取大部分知识。我们提出了仅从离线数据在Minecraft中获取钻石的挑战,这与机器人等实际应用相一致,在这些应用中从环境交互中学习可能不安全且缓慢。该任务需要从原始像素中选择超过20,000个鼠标和键盘动作序列。通过在想象中学习行为,Dreamer 4成为首个纯粹从离线数据、无需环境交互就在Minecraft中获得钻石的智能体。我们的工作为想象训练提供了一个可扩展的方案,标志着向智能体迈出了一步。

OmniRetarget:面向人形机器人全身移动操作与场景交互的交互保持数据生成
教导人形机器人复杂技能的主要范式是将人体运动重定向为运动学参考,以训练强化学习策略。然而,现有的重定向流程常常难以应对人类与机器人之间的显著形态差异,产生诸如足部滑动和穿透等物理上不合理的伪影。更重要的是,常见的重定向方法忽略了对于表达性运动和移动操作至关重要的丰富人-物和人-环境交互。为解决这一问题,我们提出了OmniRetarget,一种基于交互网格的交互保持数据生成引擎,该引擎显式建模并保持了智能体、地形和操作对象之间的关键空间和接触关系。通过在强制执行运动学约束的同时最小化人类和机器人网格之间的拉普拉斯变形,OmniRetarget生成运动学上可行的轨迹。此外,保持任务相关的交互使得能够进行高效的数据增强,从单一演示扩展到不同的机器人形态、地形和物体配置。我们通过重定向来自OMOMO、LAFAN1和我们内部动作捕捉数据集的运动,全面评估了OmniRetarget,生成了超过8小时的轨迹,这些轨迹在运动学约束满足度和接触保持方面优于广泛使用的基线方法。如此高质量的数据使得本体感知强化学习策略能够在Unitree G1人形机器人上成功执行长时程(长达30秒)的跑酷和移动操作技能,仅使用5个奖励项和所有任务共享的简单领域随机化进行训练,无需任何学习课程。

AIRoA MoMa 数据集:用于移动操作的大规模分层数据集
随着机器人从受控环境转向非结构化的人类环境,构建能够可靠遵循自然语言指令的通用智能体仍然是一个核心挑战。稳健移动操作的发展需要能够捕捉接触丰富和长时程任务的大规模多模态数据集,然而现有资源缺乏同步的力-力矩感知、分层标注和明确的失败案例。我们通过AIRoA MoMa数据集来解决这一差距,这是一个用于移动操作的大规模真实世界多模态数据集。它包含同步的RGB图像、关节状态、六轴腕部力-力矩信号和内部机器人状态,以及用于分层学习和错误分析的新型两层标注方案(子目标和原始动作)。初始数据集包含25,469个片段(约94小时),使用人形支持机器人(HSR)收集,并完全标准化为LeRobot v2.1格式。通过独特地整合移动操作、接触丰富的交互和长时程结构,AIRoA MoMa为推进下一代视觉-语言-动作模型提供了关键基准。我们数据集的第一版现已在https://huggingface.co/datasets/airoa-org/airoa-moma 提供。

EC3R-SLAM:基于前馈三维重建的高效且一致单目稠密SLAM
单目稠密同时定位与建图(SLAM)的应用常常受到高延迟、大GPU内存消耗以及对相机标定的依赖所限制。为了缓解这些约束,我们提出了EC3R-SLAM,一种新颖的免标定单目稠密SLAM框架,该框架同时实现了高定位与建图精度、低延迟和低GPU内存消耗。这使得该框架能够通过跟踪模块(维护特征点的稀疏地图)和基于前馈三维重建模型(同时估计相机内参)的建图模块的耦合来实现高效性。此外,系统还融入了局部和全局闭环检测,以确保中期和长期的数据关联,强制多视图一致性,从而提升系统的整体精度和鲁棒性。在多个基准测试上的实验表明,EC3R-SLAM相比最先进方法实现了具有竞争力的性能,同时速度更快且内存效率更高。此外,它即使在资源受限的平台(如笔记本电脑和Jetson Orin NX)上也能有效运行,突显了其在现实世界机器人应用中的潜力。

视觉运动策略是否需要本体感觉状态?
基于模仿学习的视觉运动策略已广泛应用于机器人操作中,通常同时采用视觉观测和本体感觉状态以实现精确控制。然而,在本研究中,我们发现这种常见做法使得策略过度依赖本体感觉状态输入,导致对训练轨迹的过拟合,并造成空间泛化能力较差。相反,我们提出了无状态策略,移除本体感觉状态输入,仅基于视觉观测预测动作。无状态策略构建在相对末端执行器动作空间中,并应确保获得完整的任务相关视觉观测,这里通过双广角腕部摄像头提供。实证结果表明,无状态策略比基于状态的策略实现了显著更强的空间泛化能力:在真实世界任务中,如抓取放置、具有挑战性的衬衫折叠和复杂的全身操作,涵盖多种机器人实例,平均成功率从0
相关分类
最新研究
Symskill:用于数据高效和实时长频操纵的符号和技能共同发明
在动态环境中多步骤操作仍然具有挑战性。 两个主要的方法家族以不同的方式失败:(i)模仿学习(IL)是反应性的,但缺乏组合化,因为单体策略不会决定场景变化时需要重用哪种技能;(ii)经典任务和运动规划(TAMP)提供组合性,但具有令人望而却步的规划延迟,防止实时故障恢复。 我们引入了SymSkill,这是一个统一的学习框架,结合了IL和TAMP的好处,允许实时组合化和故障恢复。 离线,SymSkill联合学习谓词,操作符和技能直接从未标记和未分段的演示。 在执行时,在指定一个或多个学习谓词的组合时,SymSkill使用符号规划器来编写和重新排序学习技能以实现符号目标,同时在运动和符号级别实时执行恢复。 加上兼容的控制器,SymSkill能够在人类和环境干扰下安全不间断地执行。 在RoboCasa模拟中,SymSkill可以用85执行12个单步任务
从人类干预中预测偏好学习
从人类参与中学习旨在将人类主体纳入监控和纠正代理行为错误。 虽然大多数互动模仿学习方法侧重于在当前状态下纠正代理人的行动,但它们不会调整其在未来状态中的行为,这可能会造成更严重的危险。 为了解决这个问题,我们引入了人类干预的预测偏好学习(PPL),它利用人类干预中包含的隐性偏好信号来为未来推出的预测提供信息。 PPL的关键思想是将每个人类干预引导到L未来时间步骤中,称为偏好视界,假设代理遵循相同的动作,并且人类在偏好视界中做出相同的干预。 通过对这些未来状态进行偏好优化,专家校正被传播到预计代理商探索的安全关键区域,显着提高学习效率和减少所需的人类演示。 我们通过自动驾驶和机器人操纵基准的实验来评估我们的方法,并证明其效率和普遍性。 我们的理论分析进一步表明,选择合适的偏好视界L平衡了风险状态与标签正确性的覆盖,从而限制了算法最优性差距。 演示和代码可在:https://metadriverse.github.io/ppl
多智能体系统中的空中防御协同制导
本文解决了争议空域中的一个关键空中防御挑战,涉及三个自主飞行器——一个敌对无人机(追击者)、一个高价值无人机(逃避者)和一个保护性无人机(防御者)。我们提出了一个针对逃避者-防御者团队的协同制导框架,即使在高度动态和不确定的交战条件下,也能保证在追击者捕获逃避者之前完成拦截。与传统的启发式、最优控制或基于微分博弈的方法不同,我们在时间约束的制导框架内处理该问题,利用基于真实比例导引法的方法,为空中防御问题提供鲁棒且保证有效的解决方案。所提出的策略计算量轻,可扩展到大量智能体配置,且不需要了解追击者的策略或控制律。从任意初始几何构型出发,我们的方法保证关键交战误差在固定时间内趋近于零,从而实现任务成功。在各种对抗性场景下的大量仿真验证了所提出策略的有效性及其在争议空域环境中实时自主防御的相关性。
EC3R-SLAM:基于前馈三维重建的高效且一致单目稠密SLAM
单目稠密同时定位与建图(SLAM)的应用常常受到高延迟、大GPU内存消耗以及对相机标定的依赖所限制。为了缓解这些约束,我们提出了EC3R-SLAM,一种新颖的免标定单目稠密SLAM框架,该框架同时实现了高定位与建图精度、低延迟和低GPU内存消耗。这使得该框架能够通过跟踪模块(维护特征点的稀疏地图)和基于前馈三维重建模型(同时估计相机内参)的建图模块的耦合来实现高效性。此外,系统还融入了局部和全局闭环检测,以确保中期和长期的数据关联,强制多视图一致性,从而提升系统的整体精度和鲁棒性。在多个基准测试上的实验表明,EC3R-SLAM相比最先进方法实现了具有竞争力的性能,同时速度更快且内存效率更高。此外,它即使在资源受限的平台(如笔记本电脑和Jetson Orin NX)上也能有效运行,突显了其在现实世界机器人应用中的潜力。
洞察:在视觉-语言-行动模型中生成帮助触发器的推理时间序列
最近的视觉-语言-行动(VLA)模型显示出强大的概括能力,但它们缺乏预测故障和请求人类监督者帮助的内省机制。 我们介绍了INSIGHT,这是一个利用令牌级不确定性信号来预测VLA何时应该寻求帮助的学习框架。 使用 π_0-FAST 作为底层模型,我们提取每个令牌熵,日志概率和基于Dirichlet的alotic和认识论不确定性的估计,并训练紧凑的变压器分类器来映射这些序列以帮助触发器。 我们探索监督强或弱的监督制度,并在分销和发行外任务中广泛比较。 我们的结果表明了权衡:强大的标签使模型能够捕获细粒度的不确定性动力学,以获得可靠的帮助检测,而弱标签虽然更嘈依,但在训练和评估对齐时仍然支持竞争性的内省,当密集的注释不切实际时,提供可扩展的路径。 至关重要的是,我们发现用变压器对令牌级不确定性信号的时间演变进行建模提供了比静态序列级分数更大的预测能力。 这项研究首次系统地评估了VLA中基于不确定性的内省,为主动学习和通过选择性人为干预的实时缓解开辟了未来的途径。
SCANS:一种带有弧度和光谱传感器的软式夹具,用于手材料差异化
我们引入了软曲率和光谱(SCANS)系统:一种多功能的,无电子的,流体驱动的软操纵器,能够评估物体的光谱特性,无论是手部还是触摸前阳具。 该平台比以前的软机器人提供更广泛的光谱传感能力。 我们进行材料分析,以探索光谱传感的最佳软基板,并评估预触和手部性能。 实验展示了不同物体类别和大小(金属,木材,塑料,有机,纸张,泡沫)的可解释性统计分离,物品之间存在较大的光谱角度差异。 通过线性判别分析,我们表明近红外波长的灵敏度对于区分视觉上相似的物体至关重要。 这些能力提高了光学作为软机器人多功能感官模式的潜力。 SCANS夹具的完整零件列表、装配指南和处理代码可在以下网址访问:https : / /parses-lab.github.io/scans / 。
基于RL的对象目标导航方法中有什么重要? 实证研究和统一框架
对象目标导航(ObjectNav)是日常、不受控制的环境中(如家庭、学校和工作场所)部署移动机器人的关键组成部分。 在这种情况下,机器人必须仅使用其机载感知在以前看不见的环境中定位目标对象。 成功需要语义理解、空间推理和长视规划的整合,这是一个仍然极具挑战性的组合。 虽然强化学习(RL)已成为主导范式,但进展已经跨越了广泛的设计选择,但该领域仍然缺乏统一的分析来确定哪些组件真正驱动性能。 在这项工作中,我们对基于RL的模块化ObjectNav系统进行了大规模的实证研究,将它们分解为三个关键组成部分:感知、策略和测试时间增强。 通过广泛的对照实验,我们分离了每个贡献,并揭示了明确的趋势:感知质量和测试时间策略是性能的决定性驱动因素,而当前方法的政策改进只会产生边际收益。 在这些见解的基础上,我们提出了实用的设计指南,并展示了一个增强的模块化系统,其方法超过了6.6级。
减少驾驶模拟器中的不适:运动障碍缓解运动提示
驾驶模拟器越来越多地用于研究和开发。 然而,模拟器经常由于缩小运动和未缩放的真皮视觉效果而导致晕车。 在本文中,提出了运动提示算法,该算法使用模型预测控制(MPC)减少了主观垂直冲突(SVC)模型预测的运动病。 感觉冲突和特定力错误在成本函数中都会受到惩罚,使算法能够共同优化保真度和舒适性。 进行了人工循环实验,比较了四种模拟器运动设置:我们基于MPC的算法的两种变体,一种侧重于纯特定力跟踪和运动病最小化,以及参考自适应冲洗和无运动案例。 这些实验是在六脚架驾驶模拟器上进行的,参与者暴露于被动驾驶。 实验晕车结果与疾病模型预测密切相关。 正如模型所预测的那样,没有运动条件产生了最低的疾病水平。 然而,它在保真度方面被评为最低。 妥协解决方案将疾病减少了50以上 拟议的开发MCA的方法考虑了晕车的模拟器动力学和时间演变,为在驾驶模拟器中实现对晕动病和特定力量娱乐的最佳控制提供了显着进展,支持更广泛的模拟器使用。
你知道相机在哪里吗? 使用相机调理的视不变量策略学习
我们通过明确地对相机外部性策略进行调节来研究视不常模仿学习。 使用Plucker嵌入每像素射线,我们表明外部条件反射显着改善了标准行为克隆策略(包括ACT,Diffusion Policy和SmolVLA)的观点的概括。 为了在现实的观点转变下评估政策稳健性,我们在RoboSuite和ManiSkill中引入了六个操纵任务,将“固定”和“随机化”场景变体配对,将背景线索与相机姿势脱钩。 我们的分析显示,没有外部的政策通常会在固定场景中使用静态背景的视觉线索来推断相机姿势;当工作空间几何或相机位置发生变化时,这种快捷方式会崩溃。 外部调节可恢复性能,并在没有深度的情况下产生强大的RGB控制。 我们发布任务、演示和代码在 https : / /ripl.github.io/know_your_camera / 。
ARMADA:自主在线故障检测和人共享控制增强可扩展的真实世界部署和适应能力
模仿学习在从大规模真实世界的数据集中学习时显示出希望。 然而,预先训练的政策通常表现不佳,没有足够的域内数据。 此外,人类收集的示威需要大量劳动,往往包括混合质量数据和冗余信息。 作为变通办法,人工循环系统收集特定领域的数据,用于政策后培训,并利用闭环政策反馈提供信息指导,但通常需要在政策推出期间进行全职的人工监控。 在这项工作中,我们设计了ARMADA,一个具有人机共享控制的多机器人部署和适应系统,具有名为FLOAT的自主在线故障检测方法。 得益于FLOAT,ARMADA能够并行推出政策,并在必要时要求人为干预,大大减少对人类监督的依赖。 因此,ARMADA能够有效地获取域内数据,并带来更可扩展的部署和更快地适应新场景。 我们评估 ARMADA 在四项实际任务上的表现。 FLOAT 达到近95个
超越碰撞锥体:通过动态抛物面控制屏障功能为非日光机器人提供动态障碍避免
控制屏障功能(CBF)是确保自主系统安全的有力工具,但在杂乱的动态环境中将其应用于非全息机器人仍然是一个开放的挑战。 最先进的方法通常依赖于碰撞 - 圆锥体或速度障碍限制,这些约束仅考虑相对速度的角度,本质上是保守的,可以使基于CBF的二次程序不可行,特别是在密集的情况下。 为了解决这个问题,我们提出了一个动态抛物线控制屏障函数(DSPF),它使用抛物线边界定义安全集。 抛物线的顶点和曲率根据障碍物的距离和相对速度的大小动态调整,从而产生限制较少的安全约束。 我们证明,拟议的 DFCF 适用于受输入约束的动工自行车模型。 广泛的比较模拟表明,与基线方法相比,我们基于 DFCF 的控制器显著提高了导航成功率和 QP 可行性。 我们的方法成功地在密集的环境中导航,有多达100个动态障碍物,这些场景由于不可行而导致基于碰撞锥体的方法失败。
VLA-R1:增强视觉-语言-行动模型的推理
Vision-Language-Action(VLA)模型旨在统一感知,语言理解和动作生成,提供强大的跨任务和跨场景推广,对体现的AI产生广泛影响。 然而,目前的VLA模型往往缺乏明确的分步推理,而是在不考虑负担约束或几何关系的情况下发出最终行动。 他们的训练后管道也很少加强推理质量,主要依靠监督的微调和薄弱的奖励设计。 为了应对这些挑战,我们介绍了VLA-R1,这是一种推理增强的VLA,它将可验证奖励强化学习(RLVR)与组相对策略优化(GRPO)相结合,系统地优化推理和执行。 具体来说,我们设计了一个基于RLVR的后训练策略,对区域对齐、轨迹一致性和输出格式具有可验证的奖励,从而加强了推理鲁棒性和执行准确性。 此外,我们还开发了VLA-CoT-13K,这是一个高质量的数据集,提供与负担和轨迹注释明确一致的思维链监督。 此外,对域内、域外、仿真和实机平台的广泛评估表明,与以前的 VLA 方法相比,VLA-R1 实现了卓越的泛化和实际性能。 我们计划在这项工作发布后发布模型、代码和数据集。 代码:https://github.com/GigaAI-research/VLA-R1。 网站:https://gigaai-research.github.io/VLA-R1。
VENTURA:用于统一任务条件导航的调整图像扩散模型
机器人必须适应不同的人类指令,并在非结构化的开放环境中安全运行。 最近的视觉语言模型(VLM)为接地语言和感知提供了强大的先验,但由于动作空间和预训练目标的差异阻碍了机器人任务的可转移性,因此仍然难以导航。 为了解决这个问题,我们引入了VENTURA,这是一种视觉语言导航系统,可以微调互联网预训练的图像扩散模型,用于路径规划。 VENTURA没有直接预测低级动作,而是在图像空间中生成路径掩码(即视觉计划),捕获细粒度的上下文感知导航行为。 一个轻量级的行为克隆策略将这些视觉计划变成可执行轨迹,产生一个遵循自然语言指令的界面,以产生不同的机器人行为。 为了扩展培训,我们监督从自我监督跟踪模型与VLM增强字幕配对的路径面罩,避免手动像素级注释或高度工程化的数据收集设置。 在广泛的现实世界评估中,VENTURA在对象到达,避障和地形偏好任务方面优于最先进的基础模型基线,将成功率提高了33
TACOS:多无人机系统的任务不可知论者
当单个飞行员负责管理多无人机系统时,任务需要不同程度的自主性,从直接控制单个无人机到小组级协调,到完全自主的群行为,以完成高级任务。 实现这种灵活的交互需要一个支持多种共享自治模式的框架。 随着语言模型在推理和规划方面的不断改进,它们为这些系统提供了自然的基础,通过直观的、基于语言的界面实现高级别任务授权,减少了试点工作量。 在本文中,我们介绍了TACOS(多无人机系统的任务无关协调器),这是一个统一的框架,通过大型语言模型(LLM)对多无人机系统进行高水平的自然语言控制。 TACOS将三个关键功能集成到一个架构中:一个用于直观用户交互的一对多自然语言界面,一个将用户意图转化为结构化任务计划的智能协调器,以及一个执行与现实世界交互的计划的自主代理。 TACOS允许LLM与可执行API库进行交互,通过实时多机器人协调来连接语义推理。 我们在实际多无人机系统中演示该系统,并进行消融研究以评估每个模块的贡献。
MiniBEE:紧凑型双色灵巧度的新外形
双手动机器人操纵器可以实现令人印象深刻的灵巧,但通常依赖于两个完整的六度或七度自由的手臂,以便配对的夹具可以有效地协调。 这个传统的框架增加了系统的复杂性,同时只利用整体工作空间的一小部分进行灵巧的交互。 我们引入了MiniBEE(Miniature Bimanual End-effector),这是一种紧凑的系统,其中两个缩小移动臂(3+ DOF)耦合成一个运动链,在夹具之间保持完全的相对定位。 为了指导我们的设计,我们制定了运动灵巧度指标,扩大了灵巧的工作空间,同时保持机制的轻便和可穿戴。 由此产生的系统支持两种互补模式:(i)带有自跟踪夹具姿势的可穿戴运动型数据收集,以及(ii)在标准机器人手臂上部署,在其整个工作空间中扩展灵巧性。 我们介绍了运动分析和设计优化方法,以最大化灵巧的范围,并展示了一种端到端的管道,其中可穿戴演示训练模仿学习策略,执行强大的现实世界的双手动操作。
推力驱动生物启发多链路机器人的姿势估计
这项工作展示了一个自由浮动的、生物启发的多链路机器人的姿势(位置和形状)估计,该机器人具有未启动的接头,用于控制的链接安装的推进器,以及每个链路的单个陀螺仪,从而产生了一个未启动的、极小的感应平台。 通过概念验证硬件实验和离线Kalman过滤器分析,我们表明机器人的姿势可以可靠地估计。 状态估计使用无香味的卡尔曼滤波器进行加装,加于高斯工艺残余学习,以补偿非零均值、非高斯噪声。 我们进一步表明,在多步态数据集(向前,向后,左,右和转弯)上训练的过滤器在相同的前步态测试轨迹上评估时,对在更大的前步态数据集上训练的过滤器执行比较。 这些结果揭示了步态输入空间的重叠,可以利用它来降低训练数据要求,同时增强过滤器在多个步态中的可推广性。
基于GPU加速高分辨率3D Voxel映射的实时多平面细分,用于腿部机器人运动
本文提出了基于GPU加速高分辨率3D体素映射的实时多平面分割方法,用于腿部机器人运动。 现有的在线平面图绘制方法难以平衡准确性和计算效率:来自特定传感器的直接深度图像分割受到时间集成不良的影响,基于高度地图的方法不能代表复杂的3D结构,如悬架,基于体素的平面分割仍然未用于实时应用。 为了解决这些限制,我们开发了一种新颖的框架,将基于顶点的连接组件标签与基于随机样本共识的飞机检测和凸壳体集成在一起,利用GPU并行计算从高分辨率3D体素映射中积累的点云中快速提取平面区域。 实验结果表明,建议的方法即使在0.01米的分辨率下也能以超过30赫兹的速度实现快速准确的3D多平面分割,使检测到的平面能够实时用于运动任务。 此外,我们通过模拟环境和物理腿机器人平台的实验验证了方法的有效性,在考虑3D平面结构时证实了强大的运动性能。
触摸肿瘤边界:基于超声波的虚拟固定装置的试点研究,用于乳房保护手术
目的:在乳房保护手术中划定肿瘤边界具有挑战性,因为肿瘤通常是高度移动的,不可明显的,并且具有不规则的形状边界。 为了应对这些挑战,我们引入了一个合作机器人指导系统,该系统将触觉反馈应用于肿瘤定位。 在这项试点研究中,我们的目标是评估该系统是否以及如何成功地整合到乳腺癌护理中。 方法:小型触觉机器人用电导刀片改造,作为合作控制的手术工具进行操作。 超声波和电磁导航用于识别肿瘤边界和位置。 当手术工具与肿瘤边界碰撞时,会施加一个禁止的区域虚拟夹具。 我们进行了一项研究,要求用户从乳房模拟物中切除肿瘤,无论是否具有触觉指导。 然后,我们通过定性和定量评估这些模拟切除的结果。 结果:虚拟夹具指导被显示以提高切除利润率。 平均而言,当触觉反馈可用时,用户发现任务在精神上要求较低,令人沮丧和努力密集。 我们还发现了一些意想不到的对手术工作流程的影响,这将指导设计调整和培训协议向前发展。 结论:我们的研究结果表明,虚拟夹具可以帮助在模拟乳房保护手术中定位肿瘤边界。 未来的工作将包括广泛的用户研究,以进一步验证这些结果并微调我们的指导系统。
实验室自动化中粉末操纵的可微分技能优化
机器人自动化正在通过减少实验室工作流程中的人工工作来加速科学发现。 然而,对粉末的精确操纵仍然具有挑战性,特别是在运输等需要准确性和稳定性的任务中。 我们提出了实验室环境中粉末运输的轨迹优化框架,该框架集成了可微分物理模拟,用于精确建模颗粒动力学,低维技能空间参数化以减少优化复杂性,以及基于课程的策略,逐步完善长期的任务能力。 这种配方使接触丰富的机器人轨迹的端到端优化,同时保持稳定性和收敛效率。 实验结果表明,与强化学习基线相比,建议的方法实现了卓越的任务成功率和稳定性。
AFFORD2ACT: 适合通用和轻型机器人操纵的自动关键点选择
基于视觉的机器人学习通常依赖于密集的图像或点云输入,这些输入是计算繁重且纠缠不相关的背景特征。 现有的基于键点的方法可以专注于以操作为中心的功能,并且是轻量级的,但要么依赖于手动后验或任务耦合选择,限制了可扩展性和语义理解。 为了解决这个问题,我们提出了AFFORD2ACT,这是一个经济能力引导的框架,从文本提示和单个图像中提炼出一组最小的语义2D键点。 AFFORD2ACT遵循三阶段管道:经济性过滤,类别级关键点构建和基于变压器的策略学习,嵌入式门对最相关的关键点进行推理,产生紧凑的38维国家政策,可以在15分钟内训练,在没有本体感知或密集表示的情况下实时表现良好。 在不同的现实世界的操纵任务中,AFFORD2ACT不断提高数据效率,实现了82