
近年来,循环神经网络(RNN)架构的进展,特别是扩展长短期记忆(xLSTM),通过引入指数门控和增强记忆结构,解决了传统长短期记忆(LSTM)网络的局限性。这些改进使得xLSTM适用于时间序列预测任务,因为它们展现出比LSTM更好地建模长期时间依赖的能力。尽管具有潜力,这些基于xLSTM的模型在车辆轨迹预测领域仍未被充分探索。因此,本文提出了一种新颖的基于xLSTM的车辆轨迹预测框架X-TRAJ及其物理感知变体X-TRACK(受运动学约束的扩展LSTM轨迹预测),该模型明确将车辆运动学整合到模型学习过程中。通过引入物理约束,所提出的模型能够生成真实可行的轨迹。在highD和NGSIM数据集上的综合评估表明,X-TRACK优于最先进的基线方法。

3D视觉接地是具身智能体在开放世界环境中定位语言所指对象的关键。然而,现有基准局限于室内场景、单一平台约束和小规模。我们引入了3EED,一个多平台、多模态的3D接地基准,包含来自车辆、无人机和四足机器人平台的RGB和LiDAR数据。我们在多样化的室外场景中提供了超过128,000个对象和22,000个经过验证的指代表达——比现有数据集大10倍。我们开发了一个可扩展的标注流程,结合视觉语言模型提示和人工验证,以确保高质量的空间接地。为了支持跨平台学习,我们提出了平台感知归一化和跨模态对齐技术,并建立了域内和跨平台评估的基准协议。我们的研究结果揭示了显著的性能差距,突显了可泛化3D接地的挑战和机遇。3EED数据集和基准工具包已发布,以推动语言驱动的3D具身感知的未来研究。

我们推出了[Cosmos-Predict2.5],这是Cosmos世界基础模型用于物理AI的最新版本。基于流式架构构建,[Cosmos-Predict2.5]在单一模型中统一了Text2World、Image2World和Video2World生成,并利用物理AI视觉语言模型[Cosmos-Reason1]提供更丰富的文本基础和更精细的世界模拟控制。该模型在2亿个精选视频片段上训练,并通过基于强化学习的后训练进行优化,在视频质量和指令对齐方面相比[Cosmos-Predict1]实现了显著改进,发布的模型规模为20亿和140亿参数。这些能力为机器人和自主系统提供了更可靠的合成数据生成、策略评估和闭环模拟。我们进一步扩展了该系列,推出了[Cosmos-Transfer2.5],这是一个用于Sim2Real和Real2Real世界转换的控制网络风格框架。尽管比[Cosmos-Transfer1]小3.5倍,但它提供了更高的保真度和鲁棒的长时程视频生成能力。总之,这些进展确立了[Cosmos-Predict2.5]和[Cosmos-Transfer2.5]作为扩展具身智能的多功能工具。为加速物理AI的研究和部署,我们在NVIDIA开放模型许可下发布了源代码、预训练检查点和精选基准测试,地址为https://github.com/nvidia-cosmos/cosmos-predict2.5 和 https://github.com/nvidia-cosmos/cosmos-transfer2.5。我们希望这些开放资源能够降低采用门槛,促进构建下一代具身智能的创新。

端到端自动驾驶将原始传感器输入直接映射为自车轨迹,以避免感知模块的级联误差并利用丰富的语义线索。现有框架主要依赖于模仿学习(IL),这可能受到次优专家演示和部署期间协变量偏移的限制。另一方面,强化学习(RL)最近在模拟环境中显示出扩展潜力,但通常局限于低维符号输入(例如3D对象和地图),无法实现从原始传感器数据的完整端到端学习。我们提出了ZTRS(基于轨迹评分的零模仿端到端自动驾驶),这是一个结合了两者优势的框架:不丢失信息的传感器输入和用于鲁棒规划的强化学习训练。据我们所知,ZTRS是第一个完全消除模仿学习的框架,仅从奖励中学习,同时直接处理高维传感器数据。ZTRS利用离线强化学习和我们提出的穷举策略优化(EPO),这是一种针对可枚举动作和奖励量身定制的策略梯度变体。ZTRS在三个基准测试中表现出强大性能:Navtest(通用现实世界开环规划)、Navhard(具有挑战性的现实世界和合成场景中的开环规划)以及HUGSIM(模拟闭环驾驶)。具体而言,ZTRS在Navhard上实现了最先进的结果,并在HUGSIM上优于基于模仿学习的基线方法。代码将在https://github.com/woxihuanjiangguo/ZTRS 提供。

强化学习算法通常为离散时间动力学设计,尽管底层真实世界控制系统通常是连续时间的。在本文中,我们研究连续时间强化学习问题,其中未知系统动力学使用非线性常微分方程表示。我们利用概率模型,如高斯过程和贝叶斯神经网络,来学习底层ODE的不确定性感知模型。我们的算法COMBRL贪婪地最大化外部奖励和模型认知不确定性的加权和。这产生了一种可扩展且样本高效的连续时间基于模型的强化学习方法。我们证明COMBRL在奖励驱动设置中实现了次线性遗憾,在无监督强化学习设置中(即没有外部奖励),我们提供了样本复杂度界限。在我们的实验中,我们在标准和无人监督强化学习设置中评估COMBRL,并证明它比先前方法具有更好的可扩展性、更高的样本效率,并在多个深度强化学习任务中优于基线方法。
继续滚动加载更多