模仿学习进行操纵有一个众所周知的数据稀缺问题。 与自然语言和2D计算机视觉不同,没有互联网规模的数据库用于灵巧操作。 一个吸引人的选择是以自我为中心的人类视频,一个被动的可扩展数据源。 然而,现有的大规模数据集,如Ego4D,没有原生手姿势注释,也没有专注于对象操作。 为此,我们使用Apple Vision Pro来收集EgoDex:迄今为止最大和最多样化的灵巧的人操纵数据集。 EgoDex拥有829小时的以自我为中心的视频,在录制时收集了配对的3D手和手指跟踪数据,其中可以使用多个校准相机和设备上的SLAM来精确跟踪每个手的每个关节的姿势。 该数据集涵盖了194个不同的桌面任务中的日常家庭物品的各种不同操作行为,从系鞋带到折叠洗衣。 此外,我们培训和系统地评估数据集上手轨迹预测的模仿学习政策,引入衡量这个日益重要领域的进展的指标和基准。 通过发布这个大规模的数据集,我们希望推动机器人技术、计算机视觉和基础模型的前沿。
在不同物体之间转移技能仍然是开放世界机器人操作的核心挑战之一。 概括需要考虑不同对象之间的高水平结构差异,同时仍然保持类似的低水平交互控制。 在本文中,我们提出了一个基于示例的零射击技能转移方法。 与其将技能视为原子,不如将技能分解为接地任务轴(GTA)控制器的优先级列表。 每个GPAC都定义一个适应性强的控制器,例如位置或力控制器,沿着轴。 重要的是,GDAC以物体关键点和轴为基础,例如螺杆头的相对位置或其轴。 因此,通过在新颖的目标对象上找到语义相似的接地特征来实现零射距传输。 我们通过使用基础模型(如SD-DINO)来实现这种基于示例的接地技能,该模型可以检测语义上相似的对象关键点。 我们评估我们在实机机器人实验上的框架,包括拧紧、浇注和刮刀抓取任务,并为每个机器人演示强大而通用的控制器传输。
培训基于视觉的操纵策略,在各种视觉环境中保持稳健,仍然是机器人学习中重要且未解决的挑战。 目前的方法通常通过依赖点云和深度等不变表示来回避问题,或者通过视觉域随机化和/或大型视觉多样性数据集进行野蛮的概括。 解纠缠的表示学习 - 特别是当与关联记忆原则相结合时 - 最近显示出了基于视觉的强化学习策略对视觉分布变化稳健的保证。 然而,这些技术在很大程度上被限制在更简单的基准和玩具环境中。 在这项工作中,我们将解缠的表示学习和关联内存扩展到更直观和动态复杂的操作任务,并在模拟和真实硬件上展示对视觉扰动的零镜头适应性。 我们进一步将这种方法扩展到模仿学习,特别是Diffusion Policy,并且与最先进的模仿学习方法相比,在视觉推广方面显示出显着的收益。 最后,我们介绍了一种从模型等距文献改编的新技术,该技术将任何经过训练的神经网络策略转换为一个不变的2D平面旋转,使我们的政策不仅在视觉上健壮,而且能够适应某些相机扰动。 我们认为,这项工作标志着朝着操纵政策迈出了重要的一步,这些政策不仅具有适应性,而且对现实世界部署的复杂性和动力性质也具有强大性。 补充视频可在https://sites.google.com/view/vis-gen-robotics/home上查阅。
视觉表示是机器人操纵策略学习和概括能力的核心。 虽然现有方法依赖于全局或致密的特征,但这种表示通常会纠缠于任务相关且不相关的场景信息,从而限制了分布变化下的鲁棒性。 在这项工作中,我们研究以对象为中心的表示(OCR)作为结构化替代方案,将视觉输入分割成一组完成的实体,引入与操作任务更自然地对齐的归纳偏差。 我们通过一系列模拟和现实世界的操纵任务对一系列视觉编码器(以对象为中心,全局和密集方法)进行基准测试,并从简单到复杂,并评估他们在各种视觉条件下的概括,包括照明,纹理和分心者的存在。 我们的研究结果表明,基于OCR的政策在概括环境中的表现优于密集和全球代表性,即使没有特定任务的预训练。 这些见解表明,OCR是设计视觉系统的一个有前途的方向,可以在动态的现实世界的机器人环境中有效地推广。
我们介绍了 ReWiND,这是一个仅从语言指令中学习机器人操作任务的框架,无需每次任务演示。 标准强化学习(RL)和模仿学习方法需要专家通过人类设计的奖励功能或演示来监督每一项新任务。 相比之下,ReWiND从一个小型演示数据集开始学习:(1)一个数据高效,语言条件的奖励函数,用奖励标记数据集,(2)使用这些奖励与离线RL预先训练的语言条件策略。 给定一个看不见的任务变化,ReWiND使用学习奖励功能对预先训练的策略进行微调,需要最少的在线交互。 我们表明,ReWiND的奖励模型有效地概括了看不见的任务,在奖励概括和政策调整指标方面优于基线高达2.4倍。 最后,我们证明ReWiND能够对新任务进行高效采样的适应,在模拟中以2倍的优势击败基线,并将现实世界的预训练双手动策略提高5倍,朝着可扩展的现实世界机器人学习迈出了一步。 见网站https://rewind-reward.github.io/。
视觉表示是机器人操纵策略学习和概括能力的核心。 虽然现有方法依赖于全局或致密的特征,但这种表示通常会纠缠于任务相关且不相关的场景信息,从而限制了分布变化下的鲁棒性。 在这项工作中,我们研究以对象为中心的表示(OCR)作为结构化替代方案,将视觉输入分割成一组完成的实体,引入与操作任务更自然地对齐的归纳偏差。 我们通过一系列模拟和现实世界的操纵任务对一系列视觉编码器(以对象为中心,全局和密集方法)进行基准测试,并从简单到复杂,并评估他们在各种视觉条件下的概括,包括照明,纹理和分心者的存在。 我们的研究结果表明,基于OCR的政策在概括环境中的表现优于密集和全球代表性,即使没有特定任务的预训练。 这些见解表明,OCR是设计视觉系统的一个有前途的方向,可以在动态的现实世界的机器人环境中有效地推广。
我们介绍了 ReWiND,这是一个仅从语言指令中学习机器人操作任务的框架,无需每次任务演示。 标准强化学习(RL)和模仿学习方法需要专家通过人类设计的奖励功能或演示来监督每一项新任务。 相比之下,ReWiND从一个小型演示数据集开始学习:(1)一个数据高效,语言条件的奖励函数,用奖励标记数据集,(2)使用这些奖励与离线RL预先训练的语言条件策略。 给定一个看不见的任务变化,ReWiND使用学习奖励功能对预先训练的策略进行微调,需要最少的在线交互。 我们表明,ReWiND的奖励模型有效地概括了看不见的任务,在奖励概括和政策调整指标方面优于基线高达2.4倍。 最后,我们证明ReWiND能够对新任务进行高效采样的适应,在模拟中以2倍的优势击败基线,并将现实世界的预训练双手动策略提高5倍,朝着可扩展的现实世界机器人学习迈出了一步。 见网站https://rewind-reward.github.io/。
Embodied Artificial Intelligence(Embodied AI)正在机器学习社区获得动力,目标是利用AI(深度学习,变压器,大型语言和视觉语言模型)的现有进展来增强机器人的能力。 在本章中,我们将这项工作放在“良好的旧时尚人工智能”(GOFAI)(Haugeland,1989)和基于行为或体现的替代品(R)的背景下。 A. Brooks 1991; Pfeifer and Scheier 2001年。 我们声称,人工智能驱动的机器人只是弱化并继承了GOFAI的一些问题。 此外,我们回顾并批判性地讨论交叉嵌入学习的可能性(Padalkar等人。 2024年)。 我们确定基本障碍,并就如何取得进展提出方向。
在机器人应用中,很少镜头的分割至关重要,因为它允许机器人以最少的训练数据执行复杂的任务,从而促进它们适应多样化的现实世界环境。 然而,即使是少量的图像的像素级注释也是非常耗时和昂贵的。 在本文中,我们提出了一种基于边界框注释而不是像素级标签的新型少镜头二进制分割方法。 我们引入了ProMi,一种高效的基于原型混合的方法,将背景类视为分布的混合物。 我们的方法简单,无训练,有效,轻松适应粗糙的注释。 与现有的基线相比,ProMi在不同的数据集上取得了最佳效果,并取得了显着的收益,证明了其有效性。 此外,我们还提出了针对现实世界移动机器人任务的定性实验,展示了我们的方法在此类场景中的适用性。 我们的代码:https://github.com/TalesGroup/promi。
视觉和语言导航(VLN)是一项核心任务,其中体现的代理利用其空间移动性在3D环境中导航到基于自然语言指令的指定目的地。 最近,具有强大概括能力和丰富常识性知识的视频语言大模型(Video-VLMs)在应用于VLN任务时表现出显着的性能。 然而,当应用于现实世界的3D导航时,这些模型仍然会遇到以下挑战:1)对3D几何和空间语义的理解不足;2)大规模探索和长期环境记忆的能力有限;3)对动态和不断变化的环境的适应性差。为了解决这些限制,我们提出了Dynam3D,一个动态分层的3D表示模型,利用语言对齐,可推广和分层的3D表示作为视觉输入。 鉴于RGB-D图像,我们的Dynam3D将2D CLIP功能投射到3D空间中,并通过动态和层向更新策略构建用于3D几何和语义理解的多级3D补丁-实例区域表示。 我们的Dynam3D能够在线编码和3D实例的本地化,并在不断变化的环境中动态更新它们,为导航提供大规模的探索和长期记忆功能。 通过利用大规模的3D语言预训练和任务特异性适应,我们的Dynam3D在单眼设置下为包括R2R-CE,REVERIE-CE和NavRAG-CE在内的VLN基准测试设定了新的最新性能。 此外,探索前、终身记忆和现实世界机器人的实验验证了实际部署的有效性。
大规模离线培训的最新进展证明了通用政策学习对于复杂机器人任务的潜力。 然而,由于持续的动态以及在不同地形和机器人形态上实时适应的需要,将这些原则应用于腿部运动仍然是一个挑战。 在这项工作中,我们提出了GRoQ-Loco,这是一个可扩展的,基于注意力的框架,它学习跨多个四足机器人和地形的单一通商运动策略,仅依赖于离线数据集。 我们的方法利用来自两种不同的运动行为的专家演示 - 楼梯穿越(非周期性步态)和平坦地形穿越(周期性步态) - 收集在多个四足机器人上,训练一个通商模型,使两种行为的行为融合。 至关重要的是,我们的框架直接基于所有机器人的本体感知数据,而无需包含任何机器人特定的编码。 该策略可直接部署在英特尔 i7 核上,无需任何测试时间优化即可产生低延迟控制输出。 我们广泛的实验展示了在高度多样化的四足机器人和地形上实现强大的零投篮传输,包括在Uniree Go1上部署硬件,这是一种商用的12公斤机器人。 值得注意的是,我们评估具有挑战性的跨机器人训练设置,其中不同的运动技能分布在机器人之间不均匀,但在测试时观察到扁平行走和楼梯穿越行为的成功转移到所有机器人。 我们还展示了在 Stoch 5上的初步行走,一个70公斤的四足动物,在平坦和室外的地形上,不需要任何微调。 这些结果突出了在不同机器人和地形上进行稳健的通才运动的潜力。
目前的侵入性辅助技术旨在推断严重瘫痪患者的高维运动控制信号。 然而,他们面临着重大挑战,包括公众接受,寿命有限和商业化障碍。 与此同时,非侵入性替代品通常依赖于容易发生神器的信号,需要长时间的用户培训,并且难以为灵巧的任务提供强大的高维控制。 为了解决这些问题,本研究引入了一种新的以人为本的多模态AI方法,作为丢失的运动功能的智能补偿机制,这些功能可能使严重瘫痪的患者能够控制高维辅助设备,例如灵巧的机械臂,使用有限和非侵入性的输入。 与当前最先进的(SoTA)非侵入性方法相反,我们的上下文感知,多模态共享自治框架集成了深度强化学习算法,将有限的低维用户输入与实时环境感知相结合,实现对人类意图的自适应,动态和智能解释复杂的灵巧操作任务,例如选择和位置。 我们与超过50,000个计算机模拟事件进行合成用户训练的ARAS(用于在共享自治中放大有限输入的自适应强化学习)的结果证明了拟议的闭环人循环范式的首次成功实现,优于SoTA共享自治算法。 在零射击模拟到真实转移之后,对23个人类受试者进行了ARAS评估,证明了动态意图检测的高精度以及用于灵巧拾取和位置任务的平稳,稳定的3D轨迹控制。 ARAS用户研究实现了92.88辅助技术的高任务成功率。
模仿逼真的面部表情的能力对于从事情感人机机器人交流的人形机器人至关重要。 然而,缺乏包含具有适当注释的不同人形面部表情的数据集阻碍了逼真的人形面部表情模仿的进展。 为了应对这些挑战,我们引入了X2C(任何控制),这是一个数据集,具有细致入微的面部表情,用于逼真的人形模仿。 通过X2C,我们贡献:1)一个高质量,高多样性的大规模数据集,包括100,000(图像,控制值)对。 每张图片都描绘了一个人形机器人,展示了各种各样的面部表情,注释了30个代表地面真相表情配置的控制值; 2)X2CNet,一种新颖的人形面部表情模仿框架,从X2C中学习细微的人形表情与其底层控制值之间的对应关系。 它为不同的人类表演者在野外进行面部表情模仿,为模仿任务提供基线,展示我们数据集的潜在价值; 3)在物理人形机器人上进行真实世界的演示,突出其推进逼真的人形面部表情模仿的能力。 代码和数据:https://lipzh5.github.io/X2CNet/
自动驾驶和机器人技术的最新发展凸显了安全关键型控制器的必要性。 控制屏障功能(CBF)是一种流行的方法,用于将安全保证附加到一般控制框架中,但它们在低尺寸之外难以产生。 现有方法通常产生缺乏完整性的不可区分或不准确的近似值,因此无法确保安全性。 在这项工作中,我们使用物理信息神经网络(PINN)通过计算Hamilton-Jacobi(HJ)最佳控制解决方案来生成CBF的平滑近似值。 这些可到达性障碍网络(RBN)避免了传统的尺寸限制,并通过参数化的折扣术语支持调整其保守性后训练。 为了确保打折解决方案的稳健性,我们利用构象预测方法为RBN提供概率安全保证。 我们证明RBN在低尺寸下高度准确,并且在高尺寸上比标准神经CBF方法更安全。 也就是说,我们在9D多车防撞问题中展示了RBN,在经验上证明它比神经CBF更安全5.5倍,保守1.9倍,提供了一种为一般非线性自主系统合成CBF的有希望的方法。
为了再现自然站立运动,最近的研究强调了辅助机器人和人类之间协调的重要性。 然而,许多非可穿戴辅助设备一直在努力复制自然运动轨迹。 虽然可穿戴设备与人体提供更好的协调,但它们在完全隔离机械和电气危害方面提出了挑战。 为了解决这个问题,我们开发了一种新颖的站立辅助机器人,该机器人集成了可穿戴和非可穿戴系统的功能,旨在实现高协调性,同时保持安全性。 该装置采用与人类关节结构对齐的四联机制,旨在再现臀部的S形轨迹和膝盖的弧形轨迹,在自然站立运动期间。 使用陀螺仪获得特定主题的轨迹数据,并确定链路长度以沿着最佳路径驱动座椅。 实施了使用步进电机的前馈速度控制,并根据机制的几何约束评估了轨迹的可重复性。 进行了重量固定在座椅上的承重实验,以评估不同条件下的轨迹精度。 结果表明,髋关节和膝关节轨迹的繁殖误差保持在座椅总排位移的约4%以内,显示出对目标路径的高保真度。 此外,耐久性测试、热安全性评估和风险评估证实了该系统在室内使用的可靠性和安全性。 这些发现表明,拟议的设计为开发适应个人身体特征的辅助技术提供了一种有希望的方法,该技术在老年人护理和康复方面具有潜在的应用。
使用向下置摄像头的地面纹理定位提供了一种低成本、高精度的本地化解决方案,该解决方案对动态环境具有稳健性,无需环境修改。 我们为地面纹理定位提供了显著改进的手写袋(BoW)图像检索系统,实现了更高的全球本地化精度,并在SLAM中实现了更高的循环闭包检测和召回精度。 我们的方法利用近似的 k 均值 (AKM) 词汇和软赋,并利用接地纹理本地化固有的一致方向和恒定尺度约束。 确定SLAM的全局定位与闭环检测的不同需求,我们提出了我们的算法的高精度和高速版本。 我们通过消融研究测试我们提出的每个改进的效果,并展示了我们的方法在全球定位和闭环检测方面的有效性。 由于已经使用BoW的众多地面纹理定位系统,我们的方法可以很容易地取代其管道中的其他通用BoW系统,并立即改善其结果。
本文介绍了用于快速原型制作和测试分布式空间系统的飞行软件的新型空间模拟环境的设计、开发和应用。 环境将软件模拟的灵活性、确定性和可观察性与通常仅通过实时硬件在环测试实现的保真度和深度相结合。 最终,这项工作可以实现一个工程过程,其中飞行软件以最终的飞行准备形式不断改进和交付,并降低了传统线性开发过程的设计更改和软件修订的成本。 现有工具中未找到的三种关键方法使该环境具有新颖性:第一,混合事件驱动模拟架构,结合了连续时间和离散事件模拟范式;第二,轻量级应用层软件虚拟化设计,允许执行编译的飞行软件二进制文件,同时建模过程调度,输入/输出和内存使用;第三,多航天器空间环境的高保真模型,包括无线通信,相对传感,如差分GPS和相机等。 模拟环境的功能应用于两个飞行就绪软件包的迭代开发和测试:VISORS任务的指导,导航和控制软件,以及用于会合和接近操作的斯坦福空间会合实验室软件套件。 33个月的飞行软件开发结果表明,使用这种模拟环境可以快速可靠地识别和解决缺陷,表征导航和控制性能,并仔细检查内存分配和航天器间网络协议等实现细节。
我们描述了一种强大的自动驾驶规划方法,该方法通过训练运动预测的扩散模型将正常和对抗性代理预测输出混合在一起。 我们首先训练一个扩散模型来学习正常代理行为的无偏见分布。 然后,我们通过在测试时偏置扩散模型来生成对抗性预测的分布,以生成可能与候选计划相碰撞的预测。 我们使用正常和对抗性预测的混合物分布的预期成本对计划进行评分,导致规划者对对抗行为很稳健,但当代理人行为正常时不会过于保守。 与目前的方法不同,我们不使用超重对抗行为的风险措施,同时对低成本的正常行为几乎没有任何重量,或者使用可能不适合所有驾驶场景的硬安全约束。 我们展示了我们在单剂和多智能体jaywalking场景中的方法的有效性,以及红灯违规场景。
Vision-Language-Action(VLA)模型最近通过将自然语言指令和图像信息转换为顺序控制动作来推进机器人操作。 然而,这些模型在开放世界场景中的表现往往表现不佳,因为它们主要是在成功的专家演示中接受培训,并且表现出有限的故障恢复能力。 在这项工作中,我们提出了一个机器人故障分析和修正(RoboFAC)框架来解决这个问题。 首先,我们构建RoboFAC数据集,包括9,440个错误的操作轨迹和78,623个QA对,涉及16个不同的任务和53个场景,在模拟和现实世界环境中。 利用我们的数据集,我们开发了RoboFAC模型,该模型能够进行任务理解,故障分析和故障校正。 实验结果表明,RoboFAC模型优于GPT-4o,性能优于34.1 此外,我们将RoboFAC模型集成到现实世界的VLA控制管道中,作为外部监督提供校正指令,产生了29.1表明我们的RoboFAC框架有效地处理机器人故障,并协助VLA模型从故障中恢复。
在动态互动交通中实现快速有效的主动避免碰撞仍然是自动驾驶的核心挑战。 本文提出了REACT(Runtime-Enabled Active Collision-ovoidance Technique),这是一种将风险评估与主动回避控制集成的闭环框架。 通过利用能量传递原理和人车-道路交互建模,REACT动态量化运行时风险并构建一个连续的空间风险场。 该系统集成了物理接地的安全约束,如定向风险和交通规则,以识别高风险区域并产生可行的,可解释的回避行为。 分层警告触发策略和轻量级系统设计可提高运行时效率,同时确保实时响应。 四个具有代表性的高风险场景(包括汽车后制动,切入,后部接近和交叉路口冲突)的评估表明,REACT能够准确识别关键风险并执行主动避免。 它的风险估计与人类驾驶员认知(即警告准备时间<0.4秒)密切相关,实现了100次误报或错过检测。 此外,它还具有卓越的实时性能(<50 ms延迟),强大的远见和概括。 轻量化架构实现了最先进的精度,突出了其在安全关键型自治系统中实时部署的潜力。
从人类演示视频中学习操纵技能为实现可推广和可解释的机器人智能提供了一条有希望的途径 - 特别是通过可操作的承受能力。 然而,转移这些知识仍然具有挑战性,原因是:1)缺乏具有精确承受性注释的大型数据集,以及2)在各种操纵环境中对负担能力的探索不足。 为了解决这些差距,我们引入了HOVA-500K,这是一个大规模的,经济型注释的数据集,包括1726个对象类别的50万张图像和675个操作。 我们还发布了一个标准化的基准测试套件,用于多模态经济性推理。 基于HOVA-500K,我们介绍了GLOVER++,这是一个全球到本地的承受能力培训框架,有效地将可操作的承受能力知识从人类演示转移到下游的开放词汇推理任务。 GLOVER++在HOVA-500K基准测试上取得了最先进的成果,并在各种下游机器人操作任务中展示了强大的概括。 通过明确建模可操作的可操作能力,GLOVER++ 促进了跨场景、模式和任务的强大传输。 我们希望HOVA-500K和GLOVER++框架将成为弥合人类示范和机器人操纵能力之间差距的宝贵资源。
随着微创手术(MIS)机器人逐渐变得更加容易和模块化,我们相信有很大的机会重新思考和扩大自手术远程操作以来具有特征的可视化和控制范式。 我们猜想,在腹腔中引入一个或多个额外的可调节视角不仅可以为外科医生解锁新的可视化和协作策略,还可以大大提高机器感知对共享自治的稳健性。 直接的优势包括控制第二个观点和从不同的角度远程操作手术工具,这将使协作外科医生能够独立调整他们的观点,并且仍然直观地操纵他们的机器人仪器。 此外,我们相信捕获患者解剖学的同步多视图3D测量将解锁高级场景表示。 精确的实时术中3D感知将允许算法助手直接控制一个或多个机器人仪器和/或机器人相机。 为了实现这些目标,我们正在通过集成高性能视觉组件和升级达芬奇研究套件控制逻辑来构建一个同步的多视点、多传感器机器人手术系统。 这篇短文报告了我们设置的功能摘要,并详细说明了其在研究和未来临床实践中的潜在影响。 通过完全开源我们的系统,我们将使研究界能够重现我们的设置,改进它,并开发强大的算法,有效地促进前沿研究的临床翻译。
向人类学习是具有挑战性的,因为人们是不完美的老师。 当日常人类向机器人展示他们希望它执行的新任务时,人类不可避免地会犯错误(例如输入嘈杂的操作),并提供次优的例子(例如,超射目标)。 现有方法通过模仿人类老师提供的确切行为来学习 - 但这种方法从根本上受到限制,因为演示本身是不完美的。 在这项工作中,我们通过使机器人能够推断出人类老师的意思来推进离线模仿学习,而不是只考虑人类实际展示的内容。 我们通过假设人类的所有演示都试图传达一个单一的,一致的政策来实现这一点,而他们的行为中的噪音和次优性混淆了数据并引入了无意的复杂性。 为了恢复底层政策并了解人类教师的意思,我们引入了Counter-BC,这是行为克隆的广义版本。 Counter-BC扩展了给定的数据集,以包括接近人类所展示的行为(即人类教师本可以打算但实际没有显示的反事实行为)。 在培训期间,Counter-BC自主地修改了人类在这个扩展区域内的演示,以达到一个简单而一致的政策,解释人类数据集的潜在趋势。 从理论上讲,我们证明Counter-BC可以从不完美的数据,多个用户和不同技能水平的教师中提取所需的策略。 经验上,我们将Counter-BC与模拟和现实世界环境中最先进的替代方案与嘈杂的演示,标准化数据集和真正的人类教师进行比较。 在这里查看我们工作的视频:https://youtu.be/XaeOZWhTt68
使用IMU数据进行运动传感和跟踪对于空间智能至关重要,但由于存在时间变化随机偏倚,空间智能具有挑战性。 IMU偏置受到温度和振动等各种因素的影响,使其高度复杂且难以分析建模。 最近使用深度学习的数据驱动方法在预测IMU读数的偏差方面显示出前景。 然而,这些方法通常将任务视为回归问题,忽视了偏见的随机性。 相反,我们模拟偏置,以IMU读数为条件,作为概率分布,并设计条件扩散模型来近似此分布。 通过这种方法,我们实现了改进的性能,并做出与已知偏见行为更紧密一致的预测。
将强化学习(RL)集成到机器人辅助手术(RAS)中,有望提高手术精度、适应性和自主决策。 然而,在临床环境中开发强大的RL模型受到关键挑战的阻碍,包括严格的患者数据隐私法规,对各种手术数据集的访问有限以及高程序可变性。 为了解决这些限制,本文提出了一个联邦深度强化学习(FDRL)框架,该框架可以在多个医疗机构中分散RL模型的训练,而不会暴露敏感的患者信息。 拟议框架的核心创新是其动态政策适应机制,该机制允许手术机器人实时选择和调整患者特定的政策,从而确保个性化和优化干预措施。 为了维护严格的隐私标准,同时促进协作学习,FDRL框架集成了安全聚合、差分隐私和同态加密技术。 实验结果表明,与传统方法相比,隐私泄漏减少了60%,手术精度保持在中心基线的1.5%范围内。 这项工作为自适应,安全和以患者为中心的AI驱动的手术机器人技术建立了基础方法,为跨各种医疗保健环境的临床翻译和可扩展部署提供了途径。