AI基础研究具身智能 AI金融

本网站上的内容仅供参考，不提供医疗或其他专业建议，不代表活水快报、贡献者或合作伙伴的观点。

© 2024-2025 活水快报 - 42Digest.

|

京ICP备2024044642号-15

具身智能研究快报

相关分类

计算机科学

Computer Science

人工智能

Artificial Intelligence

计算与语言

Computation and Language

计算复杂性

Computational Complexity

计算机科学

Computer Science

人工智能

Artificial Intelligence

计算与语言

Computation and Language

计算复杂性

Computational Complexity

最新研究

意见:为稳健的机器人学习实现统一表达性政策优化

线下到在线强化学习(O2O-RL)已成为安全高效的机器人政策部署的有希望的范例,但面临两个基本挑战:在线适应期间多模态行为的覆盖有限和分配变化。我们提出了UEPO,这是一个受大型语言模型预训练和微调策略启发的统一生成框架。我们的贡献是三重的:(1)多种子动力学感知扩散政策,在不训练多个模型的情况下有效地捕获各种模式;(2)一个动态背离正则化机制,强制执行物理上有意义的政策多样性;(3)一个基于扩散的数据增强模块,增强了动力学模型的泛化。在D4RL基准测试中,UEPO在运动任务上实现了+5.9%的绝对改进,在灵巧操作方面实现了+5.9%的绝对改进,在灵巧操作方面实现了+12.4%的绝对改进,展示了强大的通用性和可扩展性。

机器人学人工智能机器学习

嵌入智能的数据评估

在具体化的情报中,数据集起着关键作用,既是知识存储库,也是信息传输的渠道。数据集的两个最关键的属性是它提供的信息量以及这些信息如何容易地通过模型来学习。然而,体现数据的多模态性使得评估这些属性特别具有挑战性。之前的工作主要集中在多样性上,通常计算任务和场景或评估孤立的模式,这无法提供数据集多样性的全面图景。另一方面,数据集的可学习性很少受到关注,通常通过模型训练进行评估,这是一个昂贵而耗时的过程,也缺乏可解释性,几乎没有提供如何改进数据集的指导。在这项工作中,我们通过引入两个有原则的数据驱动工具来应对这两个挑战。首先,我们为每个数据样本构建一个统一的多模态表示,并基于它提出多样性熵,这是一个连续的度量,表征数据集中包含的信息量。其次,我们引入了第一个可解释的数据驱动算法,无需训练即可有效地量化数据集的可学习性,使研究人员能够在数据集发布后立即评估数据集的可学习性。我们在模拟和现实世界的数据集上验证了我们的算法,证明它产生了忠实的,可操作的见解,使研究人员能够共同提高多样性和可学习性。我们希望这项工作为设计更高质量的数据集奠定基础,从而推进体现智能的发展。

人类运动意图通过SINDy范式在远程操作中推断

意图推断远程操作有助于协调操作员目标并与机器人合作伙伴协调行动。然而,当前的意图推断方法通常忽略了微妙的运动,这些运动可以成为意图突然变化的有力指标。具体来说,我们的目标是解决1)如果我们能够检测到操作员轨迹中的突然跳跃,2)我们如何适当地使用这些突然跳跃运动来推断操作员的目标状态,3)如何将这些不连续的动态结合起来来推断操作员运动。我们的框架,称为Psychic,通过跳跃式漂移随机微分方程对这些小指示性运动进行建模,以涵盖不连续和连续的动力学。 Kramers-Moyal(KM)系数允许我们使用一个轨迹来检测跳跃,我们与统计异常值检测算法配对以指定目标过渡。通过识别跳跃,我们可以对现有目标进行早期检测,并在非结构化场景中发现未定义的目标。然后,我们的框架应用了使用目标转换的KM系数(SINDy)模型的稀疏识别非线性动力学(SINDy)模型,作为控制输入,以推断操作员在非结构化场景中的运动行为。我们证明Psychic可以产生概率可到达性集,并将我们的策略与负日志概率模型拟合进行比较。我们在免提远程操作任务中对600个操作员轨迹进行了回顾性研究,以评估我们的开源包Psychic在离线和在线学习中的功效。

机器人学人机交互

机械层干扰系统的综合实验表征

自然界中的生物,如Cephalopods和Pachyderms,利用刚度调制来实现对其附属物的控制惊人的灵巧。在本文中,我们探讨了层干扰的现象,这是一种流行的刚度调制机制,为软机器人提供了等效的能力。更具体地说,我们专注于机械层干扰,我们通过具有类似牙齿突起的双层多层材料结构来实现这一点。我们确定机械层干扰系统的关键设计参数,包括调节刚度的能力,并执行各种综合测试,将试样置于弯曲和扭转载荷下,以了解我们选择的设计参数(主要是牙齿几何)对卡住结构性能的影响。我们注意到这些结构在弯曲和躯干中产生5倍刚度和3.2倍的峰值变化的能力。我们还测量了分离两个卡住层所需的力,这是研究干扰引起的刚度变化时经常被忽视的参数。这项研究旨在阐明机械层卡住系统的原理设计,并指导研究人员为其特定应用领域选择适当的设计。

扩展您的SCOPE:语义认知对基于潜在探索的嵌入式视觉导航

嵌入式视觉导航仍然是一项具有挑战性的任务,因为代理商必须探索知识有限的未知环境。现有的零镜头研究表明,结合记忆机制来支持目标导向的行为可以提高长视点规划性能。然而,他们忽略了视觉边界边界,这些边界从根本上决定了未来的轨迹和观察,并且无法推断部分视觉观测与导航目标之间的关系。在本文中,我们提出了基于潜力的语义认知探索(SCOPE),这是一个零拍摄框架,明确利用前沿信息来推动基于潜力的探索,从而实现更知情和与目标相关的决策。 SCOPE使用视觉语言模型估计勘探潜力,并将其组织成时空电位图,捕获边界动力学以支持长视距规划。此外,SCOPE还采用了自我重新考虑机制,重新审视和完善了先前的决策,增强了可靠性,减少了过度自信的错误。两项不同具体导航任务的实验结果表明,SCOPE在准确性上优于最先进的基线4.6%。进一步的分析表明,其核心组件可改进校准、更强的概括和更高的决策质量。

机器人学计算机视觉与模式识别

通过迭代政策更新和对抗性稳健的非正式预测,在互动环境中进行安全规划

在互动环境中对自主代理的安全规划 - 例如在行人和人控制车辆中控制自动驾驶汽车 - 构成了重大挑战,因为环境的行为是未知的,并且对自主代理的行为作出反应。这种耦合导致交互驱动的分布转变,其中自主代理的控制策略可能会改变环境的行为,从而使现有工作中的安全保障无效。事实上,最近的研究已经使用构象预测(CP)来使用观察到的环境数据生成无分布的安全保障。然而,CP关于数据可交换性的假设在交互式设置中违反了,这是由于循环依赖,其中控制策略更新改变了环境的行为,反之亦然。为了解决这一差距,我们提出了一个迭代框架,通过量化计划的政策更新对环境行为的潜在影响,有力地维护政策更新的安全保障。我们通过对抗性强的CP意识到这一点,我们在每个事件中使用当前政策下的观察数据执行常规CP步骤,但随后通过分析调整CP结果以考虑分配变化,从而在政策更新中转移安全保障。这种调整是基于策略到轨迹的灵敏度分析,从而产生一个安全的、偶然的开环规划器。我们进一步对系统进行收缩分析,提供CP结果和政策更新保证收敛的条件。我们的经验证明这些安全和收敛保证在二维汽车行人案例研究。据我们所知,这些是在此类互动环境中提供有效安全保障的第一个结果。

系统与控制机器人学

认证培训与Lyapunov稳定的神经控制分支和边界

我们研究学习可验证的Lyapunov稳定神经控制器的问题,可以证明满足Lyapunov在吸引力区域(ROA)内的渐近稳定条件。与以前在不考虑训练中验证计算的情况下采用反示例指导培训的作品不同,我们引入了具有分支和边界(CT-BaB)的认证培训,这是一种新的认证培训框架,可以优化认证边界,从而减少培训和测试时间验证之间的差异,这些验证也计算了认证边界。为了对整个感兴趣的输入区域实现相对全球性的保证,我们提出了一种训练时间BaB技术,可以维护动态训练数据集,并自适应地将硬输入次区域拆分成更小的输入,以收紧认证范围并简化培训。同时,培训时间巴布创建的次区域也为测试时间核查提供信息,以便更有效地进行训练意识核查。我们证明CT-BaB产生验证友好的模型,可以在测试时更有效地验证,同时通过更大的ROA实现更强的可验证保证。在最大的输出反馈2D四分子系统上,CT-BaB相对于以前的先进基线减少了超过11倍的验证时间,同时实现了164倍更大的ROA。

机器学习人工智能机器人学系统与控制

好奇的视听探索机器人

多模态视听感知可以为机器人操作带来新的途径,从更好的材料分类到仅提供音频信号的模仿演示(例如,按耳朵播放曲调)。然而,为了释放这种多模态潜力,机器人需要学习物体的视觉外观与物体与之交互时产生的声音之间的相关性。这种活跃的感官运动体验需要新的交互能力、表示和探索方法,以指导机器人高效构建日益丰富的视听知识。在这项工作中,我们介绍了CAVER,一种新颖的机器人,可以构建并利用物体的丰富视听表现。 CAVER包括三个新颖的贡献:1)一种新的3D打印最终效果器,可连接到平行夹具,激发对象的音频响应,2)将本地和全球外观信息与声音特征相结合的视听表示,3)探索算法,以好奇心驱动的方式使用和构建视听表示,优先考虑与高不确定性对象交互,以获得令人惊讶的音频的良好覆盖范围,减少交互。我们证明,CAVER比几个探索基线更有效地在不同的场景中构建丰富的表示,并且学习的视听表示导致材料分类和模仿仅限音频的人类演示的显着改进。 https://caver-bot.github.io/

强大的四足运动双MPC步步计划

在本文中,我们提出了一个基于模型预测控制(MPC)的步步规划策略,通过优化步步放置,对身体方向进行强有力的调节,防止身体转向。基于模型的运动方法通常采用基于线性倒挂钟形模型的发质方法或规划。这些方法在步进规划中考虑了线性速度,同时排除了角速度,这导致角动量仅通过地面反应力(GRF)处理。基于MPC的步进规划考虑了角速度,将角动量控制问题重塑为协调GRF和步步放置的双输入方法,而不是单独优化GRF,从而提高跟踪性能。相互反馈循环将步步规划师和GRF MPC耦合在一起,每个都使用对方的解决方案来迭代更新脚步和GRF。使用最佳解决方案可减少身体振荡,实现扩展姿态和摆动阶段。该方法在四足机器人上进行了验证,展示了强大的运动,减少了振荡,更长的姿态和跨各种地形的摆动阶段。

多智能体航天器系统的信息驱动故障检测和识别:在轨检查协作任务

这项工作为在低地球轨道上执行协作检查任务的多航天器系统提供了一个全球对本地的任务感知故障检测和识别(FDI)框架。检查任务由全球信息驱动的成本功能代表,该功能集成了传感器模型,航天器姿势和任务级信息增益目标。该公式通过使用相同的成本功能来驱动全球任务分配和地方传感或运动决策,将指导、控制和外国直接投资联系起来。通过比较预期和观察到的任务指标来实现故障检测,而高阶成本梯度措施可以识别传感器、执行器和状态估算器之间的故障。自适应阈值机制可捕获时间变化的检查几何形状和动态任务条件。代表性多航天器检查场景的模拟结果表明了不确定性下的故障定位和分类的可靠性,为弹性自主检查架构提供了统一、信息驱动的基础。

系统与控制人工智能多智能体系统机器人学

MirrorLimb:基于RealMirror实施手姿势采集和机器人远程操作

在这项工作中,我们提出了一个基于PICO的机器人远程操作框架,可实现低成本,实时获取手部运动和姿势数据,在成本效益方面优于主流视觉跟踪和运动捕捉解决方案。该框架与RealMirror生态系统本地兼容,在Isaac模拟环境中提供可重复使用的功能,用于稳定精确的机器人轨迹记录,从而促进Vision-Language-Action(VLA)数据集的构建。此外,该系统还支持各种配备末端效应器的机器人的实时远程操作,包括灵巧的手和机器人夹具。这项工作旨在降低研究上肢机器人操纵中的技术障碍,从而加速VLA相关研究的进展。

机器人学人机交互

改善数据收集的QP框架:机器人远程操作中的设备控制器性能量化

机器人学习使机器人系统具有类似人类的大脑智能,通过经验自主获取和适应技能,增强在各种环境中的灵活性和适应性。旨在实现大型语言模型(LLM)的类似能力水平,以实现体现智能,数据质量在训练具有不同机器人技能的基础模型方面起着至关重要的作用。在这项研究中,我们调查了使用远程操作设备进行操纵任务的数据收集。不同的设备与相应的控制器策略配对时会产生不同的效果,包括基于位置的逆运动学(IK)控制,基于扭矩的逆动力学(ID)控制和基于优化的合规性控制。在本文中,我们开发了一个与不同的远程操作设备和操纵控制器兼容的远程操作管道。在管道中,我们构建了最佳的 QP 配方,动态空格和阻抗跟踪作为新的最佳控制器,以实现兼容的姿势跟踪和奇点避免。关于最佳控制器,它根据机器人接头可操纵性调整权重分配,该机械性反映了姿势跟踪的联合配置状态,其形式是阻抗控制和单数避免与空空间跟踪。对定量实验结果的分析表明远程操作轨迹数据的质量,包括跟踪误差,奇点的发生和关节轨迹的平滑度,具有不同的远程操作接口和运动控制器的组合。

使用HoloOcean的硬件在环内仿真对水下车辆进行测试和评估

在现场测试之前在受控环境中测试海洋机器人系统具有挑战性,特别是当基于声学的传感器和控制表面仅在水下正常运行时。在室内坦克和水池中部署机器人经常面临空间限制,使大规模控制、导航和感知算法的测试复杂化。高保真水下模拟工具的最新发展有可能解决这些问题。我们展示了最近发布的HoloOcean 2.0模拟器的实用性,改进了鱼雷AUV车辆的动力学和新的ROS 2接口。我们已经成功地演示了一个硬件在环路(HIL)和软件在环路(SIL)设置,用于测试和评估在我们的实验室中建造和开发的CougUV鱼雷自主水下航行器(AUV)。通过这种HIL和SIL设置,使用ROS 2桥在HoloOcean中运行模拟,以便将模拟传感器数据发送到CougUV(模仿传感器驱动器),并将控制表面命令发送回模拟,其中计算车辆动力学和传感器数据。我们将我们的模拟结果与真实世界的现场试验结果进行比较。

IFG:功能性抓地力生成的互联网规模指南

受过互联网规模数据训练的大型视觉模型在分割和语义理解对象部分方面表现出强大的能力,即使在杂乱,拥挤的场景中也是如此。然而,虽然这些模型可以引导机器人朝向物体的一般区域,但它们缺乏精确控制灵巧的机器人手进行3D抓握所需的几何理解。为了克服这一点,我们的关键见解是利用模拟,使用力闭合抓线管道,了解场景中手和物体的局部几何形状。由于这条管道速度缓慢,需要地面实况观测,因此所得数据被提炼成在相机点云上实时运行的扩散模型。通过将互联网规模模型的全球语义理解与基于模拟的本地感知力闭合的几何精度相结合,无需任何手动收集的训练数据即可实现高性能语义抓取。有关此的可视化,请访问我们的网站https://ifgrasping.github.io/

机器人学人工智能计算机视觉与模式识别计算机图形学

vS-Graphs:紧密耦合视觉SLAM和3D场景图形利用分层场景理解

当前视觉同步定位和映射(VSLAM)系统经常难以创建语义丰富且易于解释的地图。虽然将语义场景知识有助于构建更丰富的地图,在映射对象之间具有上下文关联,但以结构化格式(如场景图)表示它们,但并没有被广泛解决,导致复杂的地图理解和有限的可扩展性。本文介绍了 vS-Graphs,这是一种新颖的实时 VSLAM 框架,将基于视觉的场景理解与地图重建和可理解的基于图形的表示相结合。该框架从检测到的建筑组件(即墙壁和地面)中推断出结构元素(即房间和地板),并将其集成到可优化的3D场景图中。此解决方案增强了重建地图的语义丰富性、可理解性和本地化准确性。对标准基准和真实世界数据集进行的广泛实验表明,与最先进的VSLAM方法相比,vS-Graphs在所有测试数据集中平均获得了15.22%的准确率。此外,拟议的框架仅使用可视化功能,实现了环境驱动的语义实体检测精度,与基于激光雷达的精确框架相当。该代码可在https://github.com/snt-arg/visual_sgraphs上公开查阅,并正在积极改进。此外,可查阅https://snt-arg.github.io/vsgraphs-results/,其中包含更多媒体和评价成果的网页。

机器人学计算机视觉与模式识别

从折叠到功能:折纸机制的动态建模和模拟驱动设计

折纸启发的机制可以将扁平的薄片转化为功能三维动态结构,这些结构轻巧,紧凑,能够进行复杂的运动。这些特性使折纸在机器人和可部署系统中变得越来越有价值。然而,准确模拟它们的折叠行为和与环境的相互作用仍然具有挑战性。为了解决这个问题,我们提出了一个折纸机制仿真的设计框架,该框架利用了MuJoCo的可变形体功能。在我们的方法中,折纸表被表示为具有用户指定的约束的互连可变形元素的图形,例如折痕和驱动,通过直观的图形用户界面(GUI)定义。该框架允许用户生成物理一致的模拟,这些模拟可以捕获折纸机制的几何结构及其与外部物体和表面的相互作用。我们通过折纸弹射器的案例研究证明了我们的方法的实用性,其中使用协方差矩阵适应进化策略(CMA-ES)在模拟中优化了设计参数,并在物理原型上进行了实验验证。优化的结构实现了改进的投掷性能,说明了我们的系统如何实现快速、模拟驱动的折纸设计、优化和分析。

栓接力的视场-语言-行动模型调查

通过持续的环境互动增强代理能力的嵌入智能系统已经引起了学术界和工业界的高度重视。视觉-语言-行动模型受到大型基础模型进步的启发,作为通用的机器人控制框架,可显著提高智能系统中的代理-环境交互能力。这种扩展扩大了体现AI机器人的应用场景。这项调查全面审查了 VLA 模型,以体现操纵。首先,它记录了VLA架构的发展轨迹。随后,我们对当前5个关键维度的研究进行了详细分析:VLA模型结构、训练数据集、训练前方法、训练后方法和模型评估。最后,我们综合了VLA开发和实际部署中的关键挑战,同时概述了有希望的未来研究方向。

机器人学人工智能

保持高空气球站与一阶模型预测控制

高空气球(HABs)因其广泛的应用和低成本而在科学研究中很常见。由于其非线性,不小的动力学和风场的部分可观测性,之前的工作主要依赖于无模型强化学习(RL)方法来设计近乎最优的站保持控制方案。这些方法通常只与手工制作的后导方法进行比较,鉴于系统的复杂性和不确定的风预测,将基于模型的方法视为不切实际的。我们通过开发一阶模型预测控制(FOMPC)来重新审视基于模型的控制对站保存的功效。通过在 JAX 中实现风和气球动力学作为可微分函数,我们实现了基于梯度的轨迹优化,用于在线规划。 FOMPC优于最先进的RL政策,在半径内(TWR)上实现了24%的改善,而无需离线培训,尽管每个控制步骤的成本更高。通过建模假设和控制因素的系统消融,我们表明在线规划在许多配置中是有效的,包括在简化的风和动力学模型下。

SeFA-Policy:快速和准确的Visuomotor策略学习与选择性流量对齐

制定高效和准确的视觉运动政策对机器人模仿学习构成了核心挑战。虽然最近经过纠正的流方法具有先进的粘膜机策略学习,但它们受到一个关键的限制:在迭代蒸馏后,生成的动作可能会偏离与当前视觉观察对应的地面真相操作,导致随着回流过程的重复和不稳定的任务执行而累积错误。我们提供选择性流量对齐(SeFA),一个高效和准确的粘液器策略学习框架。 SeFA通过选择性流对齐策略解决了这一挑战,该策略利用专家演示选择性地纠正生成的动作并恢复与观测的一致性,同时保持多模式性。此设计引入了一致性校正机制,确保生成的动作保持观察对齐,而不会牺牲一步流推理的效率。模拟和现实世界操作任务的广泛实验表明,SeFA策略超越了最先进的基于扩散和基于流的策略,实现了卓越的准确性和稳健性,同时将推理延迟降低了98%以上。通过将整流效率与观察一致的操作生成统一化,SeFA 提供了一个可扩展且可靠的解决方案,用于实时校验器策略学习。代码可在https://github.com/RongXueZoe/SeFA上查阅。

机器人学机器学习

PerspAct:通过透视和积极视野增强LLM定位协作技能

大型语言模型(LLM)和多模态基础模型的最新进展大大扩展了他们在机器人和协作系统中的应用。然而,有效的多智能体相互作用需要强大的透视能力,使模型能够解释物理和认识论的观点。当前的培训范式往往忽略了这些互动环境,导致模型必须推理单个视角的主观性或与多个观察者一起浏览环境时的挑战。这项研究评估了使用ReAct框架明确纳入不同观点的情况,这是一种整合推理和行动的方法,可以提高LLM理解和满足其他代理人需求的能力。我们扩展了经典的 Director 任务,在一系列不断增加的视角复杂性的 7 个场景中引入了积极的视觉探索。这些场景旨在挑战代理解决基于视觉访问和交互的参考模糊性的能力,在不同的状态表示和提示策略下,包括ReAct风格的推理。我们的结果表明,明确的视角线索与积极的探索策略相结合,显着提高了模型的解释准确性和协作有效性。这些发现强调了将主动感知与透视机制相结合的潜力,以推进LLM在机器人和多智能系统中的应用,为未来研究自适应和上下文感知AI系统奠定了基础。

机器人学人工智能计算与语言人机交互

继续滚动加载更多