CAVER: Curious Audiovisual Exploring Robot
Luca Macesanu, Boueny Folefack, Samik Singh, Ruchira Ray, Ben Abbatematteo, Roberto Martín-Martín
多模态视听感知可以为机器人操作带来新的途径,从更好的材料分类到仅提供音频信号的模仿演示(例如,按耳朵播放曲调)。 然而,为了释放这种多模态潜力,机器人需要学习物体的视觉外观与物体与之交互时产生的声音之间的相关性。 这种活跃的感官运动体验需要新的交互能力、表示和探索方法,以指导机器人高效构建日益丰富的视听知识。 在这项工作中,我们介绍了CAVER,一种新颖的机器人,可以构建并利用物体的丰富视听表现。 CAVER包括三个新颖的贡献:1)一种新的3D打印最终效果器,可连接到平行夹具,激发对象的音频响应,2)将本地和全球外观信息与声音特征相结合的视听表示,3)探索算法,以好奇心驱动的方式使用和构建视听表示,优先考虑与高不确定性对象交互,以获得令人惊讶的音频的良好覆盖范围,减少交互。 我们证明,CAVER比几个探索基线更有效地在不同的场景中构建丰富的表示,并且学习的视听表示导致材料分类和模仿仅限音频的人类演示的显着改进。 https://caver-bot.github.io/
Multimodal audiovisual perception can enable new avenues for robotic manipulation, from better material classification to the imitation of demonstrations for which only audio signals are available (e.g., playing a tune by ear). However, to unlock such multimodal potential, robots need to learn the correlations between an object's visual appearance and the sound it generates when they interact with it. Such an active sensorimotor experience requires new interaction capabilities, representations, ...