Towards Scalable Spatial Intelligence via 2D-to-3D Data Lifting
Xingyu Miao, Haoran Duan, Quanhao Qian, Jiuniu Wang, Yang Long, Ling Shao, Deli Zhao, Ran Xu, Gongjie Zhang
空间智能正在成为人工智能领域具有变革性的前沿方向,然而其发展仍受限于大规模3D数据集的稀缺性。与丰富的2D图像不同,获取3D数据通常需要专用传感器和繁琐的标注工作。本研究提出了一种可扩展的流程,通过集成深度估计、相机标定和尺度标定,将单视图图像转换为全面且具有真实尺度和外观的3D表示——包括点云、相机位姿、深度图和伪RGBD。我们的方法弥合了海量图像资源与日益增长的空间场景理解需求之间的鸿沟。通过从图像自动生成真实、尺度感知的3D数据,我们显著降低了数据收集成本,并为推进空间智能开辟了新途径。我们发布了两个生成的空间数据集COCO-3D和Objects365-v2-3D,并通过大量实验证明生成的数据可受益于从基础感知到基于MLLM的推理等各种3D任务。这些结果验证了我们的流程作为开发能够感知、理解并与物理环境交互的AI系统的有效解决方案。
Spatial intelligence is emerging as a transformative frontier in AI, yet it remains constrained by the scarcity of large-scale 3D datasets. Unlike the abundant 2D imagery, acquiring 3D data typically requires specialized sensors and laborious annotation. In this work, we present a scalable pipeline that converts single-view images into comprehensive, scale- and appearance-realistic 3D representations - including point clouds, camera poses, depth maps, and pseudo-RGBD - via integrated depth estim...